Các bạn thân mến,
Trong đời sống ngày nay, một
phương tiện không thể thiếu cho việc học tập và nghiên cứu khoa học là biết
tận dụng khả năng cuả tin học. Trong đó, việc sử dụng Internet một cách hiệu
quả có thể góp phần giúp các bạn đẩy nhanh tiến độ cuả các đề án cũng như nó
là một công cụ không thể thiếu cho việc tự trao dồi, cập nhật hoá kiến thức
và nghiên cứu. Loạt bài này được viết ra nhằm đáp ứng phần nào việc giúp các
bạn có thêm kĩ năng để xử dụng đúng mức phương tiện Internet (Hi
hi! 'chat' thường không có ích gì ngoại trừ dùng để tìm bạn 4 chiều!),
đặc biệt là các máy truy tìm dữ liệu (search engine). Bài giảng sẽ bao gồm nhiều
phần, trong phần kết chúng tôi sẽ trình lại tất cả tài liệu tham khảo chính
mà tác giả đã dùng để viết nên loạt bài này. Các tài liệu này sẽ rất hữu ít
nếu như các bạn có thì giờ và trình độ Anh ngữ đề nghị hãy đọc thêm chúng để
có dịp hiểu chi tiết thêm những chi tiết mà chúng tôi không đề cập đến.
1. Search engine là gì:
- Mụch đích cuả phần này là trình bày kiến trúc căn bản
cuả các search engine. Có nắm bắt được nguyên lý hoạt động cuả các search
engine thì việc xử dụng sẽ có nhiều hiệu quả và nhanh chóng hơn.
.1.1 Khái quát về search engine
Search engine (tạm dịch - máy truy tìm) -nguyên thuỷ-
là một công cụ phần mềm nhằm tìm ra các trang trên mạng dưạ vào các thông
tin mà nó có. Dữ lượng thông tin cuả search engine thực chất là một loại cở
sở dữ liệu (database) cực lớn. Công cụ này tìm các tài liệu dưạ trên các từ
khoá (keyword) và trả về một danh mục cuả các trang có chưá từ khoá.
1.1.1 Spider:
Cơ sở dữ liệu cuả các search engine được cập nhật hoá
bởi các chương trình đặc biệt thường gọi là "robot", "spider" hay
"Webcrawler". Các chương trình này sẽ tự động dò tìm và phân tích từ những
trang có sẵn trong cơ sở dữ liệu để kiếm ra các nối kết (links) từ các trang
và trở lại bổ xung dữ liệu cho các search engine sau khi phân tích. Các
chương trình này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá mà
bạn bỏ vào là để cho search engine kiếm trong bảng chỉ số cuả nó. Kết quả
đúng nhất sẽ được xếp ở thứ tự đầu tiên. Trang nổi tiếng nhất là dùng nguyên
tắc này là
www.google.com
1.1.2 Meta-search engine:
Trên đây là các loại search engine "nguyên thuỷ". Ngày nay,
người ta còn lợi dụng các search engine sẵn có để thiết kế thành một loại
search engine mới còn gọi là meta-search engine (tạm dịch máy truy tìm ảo).
Nguyên tắc cuả loại search engine này rất đơn giản. Nó không có cơ sở dữ
liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các search engine khác Một
cách đồng loạt và nhận
về tất cả các kết quả tìm được (Ui chao! sao giống ... mấy
con kí sinh trùng quá !). Và nhiệm vụ cuả nó chỉ là phân tích hay sắp
xếp lại các tài liệu tìm được cho thân chủ. Cái hay cuả loại meta-search
engine là lợi dụng cơ sở dữ liệu cuả các search engine nguyên thuỷ để
tìm ra nhiều kết quả hơn. Nhưng vì loại meta-search engine này chỉ tồn tại
nếu có các search engine nguyên thuỷ nên gọi là meta- (tiếp đầu ngữ meta
thường dịch là 'siêu hình' hay 'ảo'). Điển hình là
http://www.metacrawler.com/
Ngoài hai loại search engine này ngưòi ta còn đề cập
đến
1.1.3 Thư mục đối tượng (Subject Directories):
Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine)
- search engine kiểu này sẽ phân lớp sẵn các đối tượng vào các thư mục và người
dùng sẽ lưạ rẻ nhánh từ từ cho đến khi tìm ra các trang WEB mà mình muốn.
Kiểu này dể cho người tuy cập nhưng có điểm yếu là nó không thể bao gồm hết
mọi chủ đề mà mình muốn kiếm ra. Hơn nưã, sự phân loại đôi khi không được
đầy đủ và chính xác. (Ngoài ra, nó còn chứa cả đống
trang 'shopping' chỉ phù hợp cho ... phái nữ hì hì). Điển
hình cuả loại này là www.yahoo.com
Chúng ta sẽ không bàn sâu loại thư
mục đối tượng.
1.1.4 Các cơ sở dữ liệu đặc biệt:
Đặc điểm cuả loại này là dữ liệu kiếm ra không thực sự có được điạ chỉ trang WEB cụ
thể qua các search engine; dữ liệu này tồn tại trong các cơ sở dữ liệu cuả một
computer ở đâu đó mà các trang WEB được phép sử dụng. Đặc biệt, các trang
WEB nghiên cứu cuả các ĐH hay học viện như là
http://lii.org/ ,
http://www.academicinfo.net/ , và
http://infomine.ucr.edu/ (Xin nhớ cho đây là cơ sở
dữ liệu cuả các cơ quan nghiên cứu đó nha!)
Ngoài ra, lợi dụng google hay yahoo
ta cũng có thể tìm ra
các tài liệu trong các cơ sở dữ liệu bằng cách thêm vào từ khoá chữ:
"database" - Nghiã là: thay vì dùng từ khoá "helium laser" thì viết thành
"helium laser database".
Các trang WEB mô tả như trên gọi là invisible WEB (tạm
dịch 'vô kiến WEB' )
1.2 Đặc điểm và phân loại search engine:
1.2.1 Các đặc điểm:
Như vậy, tuỳ theo keyword mà có thể
tìm số trang liên hệ ít hay nhiều. Trong nhiều trường hợp, số trang tìm ra có đến hàng triệu
trang
thì vấn đề đặt ra cho một search engine la làm sao xếp thứ hạng các trang để
người dùng có nhiều cơ hội tìm ra dữ liệu mình muốn nhất?
Cách thức xếp thứ hạng (ranking):
Hầu hết các search engine xếp hạng ưu tiên theo kiểu
mà người design nghĩ rằng trang tìm thấy là phù hợp với từ khoá và các điều
kiện cho thêm cuả người dùng máy (chẳng hạn như máy bên Pháp thì trang tiếng
Pháp sẽ có ưu tiên hơn và tùy theo cách cho từ khoá đủ "hẹp" trong thị
trường tìm kiếm). Mặc dù vậy, khi chưa quen dùng chúng ta sẽ "tìm"
được cả đống những cái liên kết (links) không vưà ý và nhiều lúc ...chúng
hoàn toàn vô dụng.
Lý do chính có thể là do người dùng đã không hiểu rõ kĩ thuật tìm kiếm cuả
máy và ngược lại cũng có thể là do kĩ thuật hiện tại cuả máy truy tìm chưa đủ
sức để
"hiểu" ngưòi dùng muốn gì! (bởi vậy mới phải
tả rõ hơn cho 'nàng' search engine hiểu rằng 'chàng' muốn gì)
Đa số cách xếp thứ hạng là dựa vào "số lần xuất hiện"
(còn gọi là tần xuất)
cuả từ khoá trong 1 trang. Nghiã là trang có xuất hiện từ khoá nhiều nhất sẽ
được hiển thị trước tiên khi search engine trả lời. (Người
thiết kế search engine cho rằng tài liệu nào lập lại nhiều lần cái từ khoá
thì chắc nó sẽ hữu dụng nên được xếp ngay ở hàng đầu tiên cuả trang trả lời!).
Bởi vậy nếu bạn tra tìm trang WEB mà lại dùng từ khoá
chung chung hoặc từ có nhiều nghiã thì hầu như bạn sẽ không tìm được những
trang chưá cái mình muốn. Trong trường hợp này hoặc bạn phải tìm bộ từ khoá
khác hơn/chi tiết hơn hoặc dùng những kĩ thuật hổ trợ từ search engine
mà sẽ đề cập trong các phần sau cuả bài viết.
Có một số search engine ngoài việc xác định
tần
xuất cuả từ khoá chúng còn dựa vào khả năng xuất hiện sớm cuả từ khoá này
trong một hồ sơ như là tìm thấy trong tưạ đề (title), trong đầu trang
(header),... Hoặc giả,
họ xác định sự quan trọng cuả trang WEB bằng cách ... đếm số trang có liên
kết từ các trang khác tới nó (Một trang WEB có hay có
quan trọng thì tui mới cho 'link' và 'reference' trên trang WEB cuả tui chớ
sao !)
Cũng vì lí do này, đa số các search engine lớn đều có thêm chức
năng là "advanced" hay "advanced search" để giúp bạn tìm ra cái bạn cần dể
hơn.
1.2.2 Phân loại search engine:
Phân loại theo kiến trúc hoạt động:
Theo phân định cuả
Berkeley
thì có 3 loại công cụ tìm kiếm (search tool): các search engine tồn tại dựa
trên chưong trình spider, các search engine theo thư mục đối tượng, và
invisible WEB
Phân loại theo chức năng:
Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có: Kiếm địa chỉ
trang WEB, kiếm điạ chỉ e-mail, hay kiếm tin tức về 1 người (
http://www.nwbuildnet.com/nwbn/fouremail.html) hay một tổ chức (http://www.freeality.com/findrev.htm
), kiếm việc làm, kiếm bản đồ (
www.mapquest.com ) ...
Chúng ta sẽ không đề cập sâu hơn trong phần này. (xem
như là bài tập vậy mà ... Có muốn đi tìm người yêu cũ thì tự lo kiếm lấy chứ sao nhờ tui!).
1.2.3 Các Search Engine nên biết:
- www.google.com
Được xem là search engine kiểu spider tốt nhất (4 lần thắng do
Search Engine Watch
lưạ chọn) Bằng google, bạn có thể dùng để tìm ảnh, các bàn luận đang có
trên Usenet, và newsgroups (tạm dịch -- các nhóm tin tức). Nó cũng cung cấp chức năng kiểm lỗi chính tả,
tra cứu các từ điển (hầu hết các bài viết cuả tác giả đều mượn
trang này để tra từ điển) tìm giá chứng khoáng, bản đồ đi
đường, số điện thoại và ..vv
Google đầu tiên là một đề án từ ĐH Stanford cuả các sinh viên Larry Page
và Sergey Brin lúc đó gọi là BackRub. Năm 1988, tên này đổi thành Google
và dự án đã được tung ra thị trường trở thành một công ty tư nhân tên
Google cho đến nay.
- www.yahoo.com
Xuất hiện năm 1994 ban đầu trang này thiết kế theo phương pháp thư mục.
Cho đến tháng 11 năm 2002 yahoo đã thêm vào chức năng spider lấy từ Google (để tăng sức
cạnh tranh) cho đến tháng 2 2004. Hiện nay yahoo đã tự có kĩ thuật tìm
kiếm độc lập.
Đây là trang "số 1" cho những người thích mua sắm vì cách phân loại theo
đối tượng sẽ dể cho người tiêu dùng tìm đến sản phẩm cần thiết.
Kĩ thuật spider cuả yahoo là sự kết nối kĩ thuật cuả Altavista, AllTheWeb,
và cuả Inktomi (một đề án serach engine phát khởi từ UC Berkeley)
-
www.askjeeves.com
Khởi sự từ năm 1998 đến 1999 thì trở thành seaech engin có "ngôn ngữ tự
nhiên": Nó cho phép bạn đặt câu hỏi (dĩ nhiên tiếng Anh hoặc các thứ tiếng
mà nó hổ trợ) và trả lời bạn tất cả những gì dường như có thể là đúng.
Thật ra, đằng sau bức màn "kĩ thuật cao" này là công ty đã có khoảng
một trăm
chuyên viên có nhiệm vụ khảo sát các ghi nhận khi tìm kiếm và từ đó tìm ra
những gì dường như là những trang đúng nhất cho sự tìm kiếm đó.
Ask Jeeves còn hổ trợ thêm vào đó một chức năng gọi là "smart search" (tạm
dịch dò kiếm tinh khôn) chức năng này cung cấp thêm một sự phân loại tối
thiểu về loại đối tượng mà bạn muốn tìm (hình ảnh, phim, nhạc, ....) bằng
cách chọn các biểu tượng và do đó cho ra kết quả chính xác hơn nhiều.
-
www.vivisimo.com --
meta-search engine
-
www.surfwax.com -- meta-search engine
-
www.copernic.com
-- meta-search engine
-
www.metacrawler.com -
meta-search engine
-
http://lii.org/ -- adcademic search database
-
http://www.academicinfo.net/ -- adcademic search database
-
http://infomine.ucr.edu/ -- adcademic search database
Trong bài kì tới chúng ta sẽ khảo
sát sâu hơn về các chức năng nâng cao và các kĩ năng cần thiết để tận dụng
các search engine.
©Vietssciences-Võ
Quang Nhân Ngày 01 tháng 07 năm 2004
|