Khai Thác Search Engine
Cho Nhu Cầu Học Tập và Nghiên Cứu - bài I

  vietsciences-Võ Quang Nhân         ngày 01 tháng 07 năm 2004
        

 

Các bạn thân mến,

Trong đời sống ngày nay, một phương tiện không thể thiếu cho việc học tập và nghiên cứu khoa học là biết tận dụng khả năng cuả tin học. Trong đó, việc sử dụng Internet một cách hiệu quả có thể góp phần giúp các bạn đẩy nhanh tiến độ cuả các đề án cũng như nó là một công cụ không thể thiếu cho việc tự trao dồi, cập nhật hoá kiến thức và nghiên cứu. Loạt bài này được viết ra nhằm đáp ứng phần nào việc giúp các bạn có thêm kĩ năng để xử dụng đúng mức phương tiện Internet (Hi hi! 'chat' thường không có ích gì ngoại trừ dùng để tìm bạn 4 chiều!), đặc biệt là các máy truy tìm dữ liệu (search engine). Bài giảng sẽ bao gồm nhiều phần, trong phần kết chúng tôi sẽ trình lại tất cả tài liệu tham khảo chính mà tác giả đã dùng để viết nên loạt bài này. Các tài liệu này sẽ rất hữu ít nếu như các bạn có thì giờ và trình độ Anh ngữ đề nghị hãy đọc thêm chúng để có dịp hiểu chi tiết thêm những chi tiết mà chúng tôi không đề cập đến.

1. Search engine là gì: - Mụch đích cuả phần này là trình bày kiến trúc căn bản cuả các search engine. Có nắm bắt được nguyên lý hoạt động cuả các search engine thì việc xử dụng sẽ có nhiều hiệu quả và nhanh chóng hơn.

.1.1  Khái quát về search engine

Search engine (tạm dịch - máy truy tìm) -nguyên thuỷ-  là một công cụ phần mềm nhằm tìm ra các trang trên mạng dưạ vào các thông tin mà nó có. Dữ lượng thông tin cuả search engine thực chất là một loại cở sở dữ liệu (database) cực lớn. Công cụ này tìm các tài liệu dưạ trên các từ khoá (keyword) và trả về một danh mục cuả các trang có chưá từ khoá.

1.1.1 Spider:
Cơ sở dữ liệu cuả các search engine được cập nhật hoá bởi các chương trình đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các chương trình này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các nối kết (links) từ các trang và trở lại bổ xung dữ liệu cho các search engine sau khi phân tích. Các chương trình này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá mà bạn bỏ vào là để cho search engine kiếm trong bảng chỉ số cuả nó. Kết quả đúng nhất sẽ được xếp ở thứ tự đầu tiên. Trang nổi tiếng nhất là dùng nguyên tắc này là  www.google.com

1.1.2 Meta-search engine:
Trên đây là các loại search engine "nguyên thuỷ". Ngày nay,  người ta còn lợi dụng các search engine sẵn có để thiết kế thành một loại search engine mới còn gọi là meta-search engine (tạm dịch máy truy tìm ảo). Nguyên tắc cuả loại search engine này rất đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các search engine khác Một cách đồng loạt và nhận về tất cả các kết quả tìm được (Ui chao! sao giống ... mấy con kí sinh trùng quá !). Và nhiệm vụ cuả nó chỉ là phân tích hay sắp xếp lại các tài liệu tìm được cho thân chủ. Cái hay cuả loại meta-search engine  là lợi dụng cơ sở dữ liệu cuả các search engine nguyên thuỷ để tìm ra nhiều kết quả hơn. Nhưng vì loại meta-search engine này chỉ tồn tại nếu có các search engine nguyên thuỷ nên gọi là meta- (tiếp đầu ngữ meta thường dịch là 'siêu hình' hay 'ảo'). Điển hình là http://www.metacrawler.com/

Ngoài hai loại search engine này ngưòi ta còn đề cập đến

1.1.3 Thư mục đối tượng (Subject Directories):
Còn gọi là máy truy tìm theo phân lớp (
hierarchical search engine)  - search engine kiểu này sẽ phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lưạ rẻ nhánh từ từ cho đến khi tìm ra các trang WEB mà mình muốn. Kiểu này dể cho người tuy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà mình muốn kiếm ra. Hơn nưã, sự phân loại đôi khi không được đầy đủ và chính xác. (Ngoài ra, nó còn chứa cả đống trang 'shopping' chỉ phù hợp cho ... phái nữ hì hì). Điển hình cuả loại này là www.yahoo.com

Chúng ta sẽ không bàn sâu loại thư mục đối tượng.

1.1.4 Các cơ sở dữ liệu đặc biệt:
Đặc điểm cuả loại này là dữ liệu kiếm ra không thực sự có được điạ chỉ trang WEB cụ thể qua các search engine; dữ liệu này tồn tại trong các cơ sở dữ liệu cuả một computer ở đâu đó mà các trang WEB được phép sử dụng. Đặc biệt, các trang WEB nghiên cứu cuả các ĐH hay học viện như là http://lii.org/ http://www.academicinfo.net/ , và http://infomine.ucr.edu/ (Xin nhớ cho đây là cơ sở dữ liệu cuả các cơ quan nghiên cứu đó nha!)

Ngoài ra, lợi dụng google hay yahoo ta cũng có thể tìm ra các tài liệu trong các cơ sở dữ liệu bằng cách thêm vào từ khoá chữ: "database" - Nghiã là: thay vì dùng từ khoá "helium laser" thì viết thành "helium laser database".

Các trang WEB mô tả như trên gọi là invisible WEB (tạm dịch 'vô kiến WEB' )

1.2 Đặc điểm và phân loại search engine:

1.2.1  Các đặc điểm:

Như vậy, tuỳ theo keyword mà có thể tìm số trang liên hệ ít hay nhiều. Trong nhiều trường hợp, số trang tìm ra có đến hàng triệu trang thì vấn đề đặt ra cho một search engine la làm sao xếp thứ hạng các trang để người dùng có nhiều cơ hội tìm ra dữ liệu mình muốn nhất?

Cách thức xếp thứ hạng (ranking):
Hầu hết các search engine xếp hạng ưu tiên theo kiểu mà người design nghĩ rằng trang tìm thấy là phù hợp với từ khoá và các điều kiện cho thêm cuả người dùng máy (chẳng hạn như máy bên Pháp thì trang tiếng Pháp sẽ có ưu tiên hơn và tùy theo cách cho từ khoá đủ "hẹp" trong thị trường tìm kiếm). Mặc dù vậy, khi chưa quen dùng chúng ta sẽ "tìm" được cả đống những cái liên kết (links) không vưà ý và nhiều lúc ...chúng hoàn toàn vô dụng. Lý do chính có thể là do người dùng đã không hiểu rõ kĩ thuật tìm kiếm cuả máy và ngược lại cũng có thể là do kĩ thuật hiện tại cuả máy truy tìm chưa đủ sức để "hiểu" ngưòi dùng muốn gì! (bởi vậy mới phải tả rõ hơn cho 'nàng' search engine hiểu rằng 'chàng' muốn gì)

Đa số cách xếp thứ hạng là dựa vào "số lần xuất hiện" (còn gọi là tần xuất) cuả từ khoá trong 1 trang. Nghiã là trang có xuất hiện từ khoá nhiều nhất sẽ được hiển thị trước tiên khi search engine trả lời. (Người thiết kế search engine cho rằng tài liệu nào lập lại nhiều lần cái từ khoá thì chắc nó sẽ hữu dụng nên được xếp ngay ở hàng đầu tiên cuả trang trả lời!).

Bởi vậy nếu bạn tra tìm trang WEB mà lại dùng từ khoá chung chung hoặc từ có nhiều nghiã thì hầu như bạn sẽ không tìm được những trang chưá cái mình muốn. Trong trường hợp này hoặc bạn phải tìm bộ từ khoá khác hơn/chi tiết hơn  hoặc dùng những kĩ thuật hổ trợ từ search engine mà sẽ đề cập trong các phần sau cuả bài viết.

Có một số search engine ngoài việc xác định tần xuất cuả từ khoá chúng còn dựa vào khả năng xuất hiện sớm cuả từ khoá này trong một hồ sơ như là tìm thấy trong tưạ đề (title), trong đầu trang (header),... Hoặc giả, họ xác định sự quan trọng cuả trang WEB bằng cách ... đếm số trang có liên kết từ các trang khác tới nó  (Một trang WEB có hay có quan trọng thì tui mới cho 'link' và 'reference' trên trang WEB cuả tui chớ sao !)

Cũng vì lí do này, đa số các search engine lớn đều có thêm chức năng là "advanced" hay "advanced search" để giúp bạn tìm ra cái bạn cần dể hơn.

1.2.2 Phân loại search engine:

Phân loại theo kiến trúc hoạt động:
Theo phân định cuả Berkeley  thì có 3 loại công cụ tìm kiếm (search tool): các search engine tồn tại dựa trên chưong trình spider, các search engine theo thư mục đối tượng, và invisible WEB

Phân loại theo chức năng:
Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có: Kiếm địa chỉ trang WEB, kiếm điạ chỉ e-mail, hay kiếm tin tức về 1 người ( http://www.nwbuildnet.com/nwbn/fouremail.html) hay một tổ chức (http://www.freeality.com/findrev.htm ), kiếm việc làm, kiếm bản đồ ( www.mapquest.com ) ...

Chúng ta sẽ không đề cập sâu hơn trong phần này. (xem như là bài tập vậy mà ... Có muốn đi tìm người yêu cũ thì tự lo kiếm lấy chứ sao nhờ tui!).

1.2.3 Các Search Engine nên biết:

  • www.google.com  Được xem là search engine kiểu spider tốt nhất (4 lần thắng do Search Engine Watch lưạ chọn) Bằng google, bạn có thể dùng để tìm ảnh, các bàn luận đang có trên Usenet, và newsgroups (tạm dịch -- các nhóm tin tức). Nó cũng cung cấp chức năng kiểm lỗi chính tả, tra cứu các từ điển (hầu hết các bài viết cuả tác giả đều mượn trang này để tra từ điển)  tìm giá chứng khoáng, bản đồ đi đường, số điện thoại và ..vv 
    Google đầu tiên là một đề án từ ĐH Stanford cuả các sinh viên Larry Page và Sergey Brin lúc đó gọi là BackRub. Năm 1988, tên này đổi thành Google và dự án đã được tung ra thị trường trở thành một công ty tư nhân tên Google cho đến nay.
  • www.yahoo.com  Xuất hiện năm 1994 ban đầu trang này thiết kế theo phương pháp thư mục. Cho đến tháng 11 năm 2002 yahoo đã thêm vào chức năng spider lấy từ Google (để tăng sức cạnh tranh) cho đến tháng 2 2004. Hiện nay yahoo đã tự có kĩ thuật tìm kiếm độc lập.
    Đây là trang "số 1" cho những người thích mua sắm vì cách phân loại theo đối tượng sẽ dể cho người tiêu dùng tìm đến sản phẩm cần thiết.
    Kĩ thuật spider cuả yahoo là sự kết nối kĩ thuật cuả Altavista, AllTheWeb, và cuả Inktomi (một đề án serach engine phát khởi từ UC Berkeley)
  • www.askjeeves.com Khởi sự từ năm 1998 đến 1999 thì trở thành seaech engin có "ngôn ngữ tự nhiên": Nó cho phép bạn đặt câu hỏi (dĩ nhiên tiếng Anh hoặc các thứ tiếng mà nó hổ trợ) và trả lời bạn tất cả những gì dường như có thể là đúng. Thật ra, đằng sau bức màn "kĩ thuật cao" này là công ty đã có khoảng một trăm chuyên viên có nhiệm vụ khảo sát các ghi nhận khi tìm kiếm và từ đó tìm ra những gì dường như là những trang đúng nhất cho sự tìm kiếm đó.
    Ask Jeeves còn hổ trợ thêm vào đó một chức năng gọi là "smart search" (tạm dịch dò kiếm tinh khôn) chức năng này cung cấp thêm một sự phân loại tối thiểu về loại đối tượng mà bạn muốn tìm (hình ảnh, phim, nhạc, ....) bằng cách chọn các biểu tượng và do đó cho ra kết quả chính xác hơn nhiều.
  • www.vivisimo.com  -- meta-search engine

  • www.surfwax.com  -- meta-search engine

  • www.copernic.com -- meta-search engine

  • www.metacrawler.com  - meta-search engine

  • http://lii.org/  -- adcademic search database

  • http://www.academicinfo.net/ -- adcademic search database

  • http://infomine.ucr.edu/  -- adcademic search database

Trong bài kì tới chúng ta sẽ khảo sát sâu hơn về các chức năng nâng cao và các kĩ năng cần thiết để tận dụng các search engine.

©Vietssciences-Võ Quang Nhân   Ngày 01 tháng 07 năm 2004

 

`