Khai Thác Search Engine
Cho Nhu Cầu Học Tập và Nghiên Cứu - bài II

  vietsciences-Võ Quang Nhân         ngày  19 tháng 07 năm 2004
        

 

2. Các hổ trợ nâng cao và các phép toán thông dụng trong maý truy tìm: Bài giảng phần này nói nhiều về các đặc điểm chuyên biệt cuả các search engine dựa trên các đặc điểm cuả chúng mà các bạn có thể có nhiều phương pháp để tìm, tra cứu tài liệu một cách hữu hiệu hơn. Chúng tôi sẽ mổ xẻ chi tiết cá khả năng chuyên biệt cuả các thiết bị truy tìm

2.1 Các Phép Toán đơn giản: các phép này dùng để nâng cao hiệu quả cuả việc tìm kiếm. Trong hầu hết các trang truy tìm, việc dùng các dấu hổ trợ +, - và ngoặc kép đều thuận tiện.

2.1.1 Dùng dấu '+': Khi bạn muốn tìm các trang có mặt tất cả các chữ mà bạn muốn không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu + (và nhớ chưà khỏang trống giưã các chữ)

Thí dụ muốn tìm trang nói về cách thức viết Linux scrips bạn có thể điền vào ô tìm bộ từ khoá:
+Linux +script +tutor

Hình1: tự học Linux script bằng ... search engine

Làm vậy thì chỉ có những trang nào có đủ các chữ đã nêu mới được tìm ra.
Bằng cách này bạn có thể lọc bớt được một số lớn các trang không cần tìm

2.1.2 Dùng dấu '-': Nhiều lúc bạn muốn loại bỏ bớt các trang có một (hay nhiều) chữ mà bạn không muốn có thì dùng dấu  -  trong trường hợp này

Chẳng hạn tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe lọt vào thì có thể thử từ khoá:
car +hibrid -sale -Prius -Insight
(Prius and Insight là hai kiểu xe hibrid đã có bán trên thị trường cuả Toyota va Honda)

2.1.3 Dùng ngoặc kép " ": để tìm cụm từ trong nguyên văn

Nhiều khi bạn muốn tìm bài viết nguyên văn cuả một câu nói, tên cuả một người hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép. Phương pháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt (thí dụ hãy thử đánh nguyên văn một câu thơ "Quả cau nho nhỏ miếng trầu ôi" vào trong google tìm xem ai đã viết câu này? Hè hè! như zầy mà đi thi thả thơ là tui thắng chắc hết 99% còn một phần là ... xui hông ai đang bài trên In-tờ-nét)

Hình2: 0.14 giây đã tìm ra tác giả cuả câu "quả cau nho nhỏ"!

Để tìm ra các tài liệu viết về nhà khoa học Von Neumann thì gõ nguyên tên "von neumann"

Chú ý: Phương pháp này rất hiệu quả nhưng nếu bạn đánh sai chính tả thì ... kể như "bán luá giống" (hãy thử đánh tìm chữ "Quã cau" xem tui nói có đúng hông!)

2.2 Các phép toán Boolean

Các mệnh lệnh truy tìm dùng đại số boolean đã được phát triển từ nhiều năm. Mặc dù vậy, chúng đã khó xử dụng so với những trình độ người trung bình.  Hầu hết các search engine đều có chấp nhận các mệnh lệnh kiểu này.Tuy nhiên, hầu hết các trường hợp thì bạn có thể tiòm ra những gì cần mà không phải xài tới chúng

Các phép toán thông dụng thường được các search engine hổ trợ là OR, AND, NOTNEAR

Lưu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa.

2.2.1 Phép OR

Lệnh này cho phép tìm những trang WEB nào có mặt 1 trong các thành tố (hay còn gọi là toán tử cuả phép toán OR) cuả bộ từ khoá.

Thí dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng việt và tiếng nước ngoài thì có thể dùng bộ từ khoá
"Nguyễn Trãi" OR "Nguyen Trai"

Xa hơn nưã, một số các search engines sẽ dùng phép toán OR như là phép toán mặc định (nghiã là nếu tui gõ "Nguyễn Trãi" "Nguyen Trai" thì kết quả. Chẳng hạn trường hợp cuả Altavista thì sẽ tìm ra ngay cả những bài viết ... không dấu)

Lưu ý: AOL search engine không làm tốt khả năng truy tìm khi dùng toán tử OR. Trong khi google sẽ không hoạt động để tìm những cụm từ khác nhau bởi phép toán OR

Các trang có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN),  Ask Jeeves, Lycos, Northern Light, HotBot, và Gigablast

2.2.2 Phép AND

Phép toán AND nhằm yêu cầu search engine truy tìm các trang có sự hiện diện cuả tất cả thành tố. Thí dụ
"space craft" AND "health"
sẽ truy tìm các trang có chữ health chữ "space craft"

Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào search engine không có chức năng boolean

Các trang có thể dùng AND là: AltaVista, AOL Search, Excite,Inktomi (HotBot, MSN)  Northern Light, Yahoo, và Gigablast

2.2.3 Phép NOT:

Phép này hoàn toàn tương tự như cách dùng dấu -. Nghiã là, sự truy tìm sẽ loại bỏ những trang có thành tố đi cùng với phép toán NOT.

Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast

2.2.4 Phép NEAR

Dùng để truy tìm những trang WEB có các thành tố cuả từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghiã hay một lời phát biểu mà bạn không nhớ hết được nguyên văn.  Ví dụ:
Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:
"Nước đi" NEAR "thề non"

Hình 3: Không nhớ hết câu, vẩn tìm ra cụ Tản qua Altavista

Các trang cho dùng NEAR là AltaVista (10 words), AOL Search (specify number).

2.2.5 Chẻ nhánh bằng phép ( )

Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp. Thí dụ:
bootable AND (CD OR CDROM OR CD-ROM) AND (howto or instruction)
(không chơi mấy cái ví dụ... thơ với thẩn nữa vì sợ bạn đọc là phái nữ chê tui 'yêu sắc' chỉ biết có ba bài thơ cổ thì chết)

Hình4: Tìm phương pháp làm CD tự khởi động bằng bộ từ khoá có ( )

Hổ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light

Các lưu ý:

  • Trong mọi trường hợp thì từ khoá sai chính tả sẽ không thể có hiệu quả

  • Cách tốt nhất là dùng chữ in hoa cho các phép toán

  • Các trang tìm kiếm cuả Hotbot hay MSN thì bạn phải chuyển sang chọn chức năng "Boolean phrase" khi dùng các phép toán Boolean

  • Trang Lycos (www.lycos.com) có thông báo là họ trợ giúp các phép toán boolean nhưng trong thực tế, chức năng này không hoạt động đúng và hiệu quả

2.3 Các hổ trợ nâng cao khác:

Ngoài ra, nhiều search engine còn hổ trợ thêm các từ khoá qui ước. Khi dùng các từ khoá này thì search engfine sẽ chuyên biệt hoá các trang WEB, truy tìm theo ý nghiã quy ước mà từ khoá biểu tượng. Với các hổ trợ này bạn có thể kiểm soát được các loại trang nào mà bạn muốn truy tìm

Lưu ý: Đằng sau các từ khoá qui ước đều có dấu hai chấm ':'. Khi viết bộ từ khoá có các từ khóa qui ước này thì tốt nhất là viết từ tìm kiếm ngay liền sau dấu ':' và không chưà khoảng trống (space) nào (thí dụ ta viết từ khoá
link:http://cnn.com
thay vì viết
link: http://cnn.com)

2.3.1 Các từ khoá host:, site:, url.host:,domain: Dùng để thu hẹp các trang WEB tìm ra

2.3.1.1 Từ khoá host: cuả Alavista(www.altavista.com): Từ khoá này sẽ chỉ cho phép search engine tìm các trang nằm trong một WEB server (host) mà bạn muốn tìm. Thí dụ
h
ost:mars.jpl.nasa.gov mars saturn
Bộ từ khoá trên chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chưá chữ mars và chữ saturn

Kết hợp với các lệnh khác bạn có thể tìm theo cách chuyên biệt:
"carbon nanotech" -host:www.technologyreview.com
Lệnh trên cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com (Bởi vì muốn đọc bài từ trang này thì phải trả tiền đăng kí nên tui ...bảo thủ)

Hay là:
"heart transplan" +host:edu
mệnh lệnh trên sẽ tuy tìm các trang có đuôi gốc là .edu (vì tui biết rằng các trang có tận cùng edu thường là các trang cuả trường dại học )

Như là 1 bài tập, bạn hãy tìm tất cả các trang xuất phát từ vương quốc Anh viết về clonning  (Hà hà! Anh là một trong những nước dẫn đầu về kĩ thuật clonning)

2.3.1.2 Từ khoá tương tự site:, url.host:, domain:

Làm chức năng hoàn toàn tương tự với từ khoá host: cuả Altavista thì:

  • Từ khoá site: được dùng bởi Excite, Google (Netscape, Yahoo)

  • Từ khoá url.host: dùng bởi AllTheWeb

  • Từ khoá domain: dùng bởi Inktomi (HotBot, iWon, LookSmart)

2.3.2 Các từ khoá title:, intitle:, và allintitle: Dùng để tìm các trang có tưạ đề chưá từ khoá. Tuỳ theo loại search engine mà chúng ta dùng từ khoá khác nhau.
Điều này tiện lợi cho việc tìm kiếm tựa đề (hay các bài viết có chủ đề tập trung) các bài viết. thông thường các bài nghiên cứu được đăng tải sẽ có tựa đề rất rõ ràng. Do đó, nếu dùng cách này cũng có thể tìm ra nhiều tài liệu. Ngoài ra, dùng cách này bạn có thể tìm lại được các trang mà bạn chỉ nhớ một hay một phần tựa đề cuả nó.

2.3.2.1 Từ khoá title: Có thể dùng trong các trang WEB: AltaVista, AllTheWeb, Inktomi (MSN và HotBot). Để tuy tìm các trang có có tựa đề chưá 1 từ hay 1 cụm từ đặc biệt(trường hợp cụm từ thì bạn hãy để trong ngoặc kép) Thí du:
title: "Mars Landing"
sẽ giúp tuy tìm các trang nói về Hoả tinh

Trong trường hợp bạn muốt tìm nhiều hơn một chữ nằm trong cùng 1 tựa đề baì thì có thể dùng hai lần từ khoá title. Thí du:
title Mars title: water

2.3.2.1 Từ khoá intitle: allintitle: Cho phép dùng trong các trang: google và teoma.

  • Từ khoá intitle: tương tự như tư khoá title cuả altavista để tìm một từ hay 1 cụm từ dể trong ngoặc kép. Ví dụ để so sánh với 'title':
    intitle:"mars landing"

  • Từ khoá allintitle: được dùng để tìm tựa các bài mà có chưá nhiều hơn 1 từ mà bạn muốn tìm. Ví dụ để so sánh với việc dùng nhiêu lần chữ 'title':
    allintitle:Mars watwer

Hình 5: Dùng allintitle: tìm trang có tựa bao gồm chữ Mars và water trong google

2.3.3 Các từ khoá inurl:, allinurl:, orginurl:, u: Các từ khoá này dùng để tìm những địa chỉ trang WEB mà có chưá c'ac chữ cần tìm. (Rõ ràng là việc này có lợi cho những ai thích mò tới các địa chỉ khác nhau...nhưng có cùng 1 tên)

2.3.3.1 inurl: allinurl: trong google:

  • Cũng như trên muốn tìm địa chỉ các trang WEB có một chữ đặc biệt thì dùng inurl. Thí dụ:
    inurl:nasa

  • Nếu bạn tuy tìm một điạ chỉ có nhiều hơn 1 chữ thì dùng allinurl. Thí dụ:
    allinurl:vietnam thetholucbat

Lưu ý: trang google chỉ có thể tìm ra nếu như bạn gõ nguyên 1 bộ phận cuả từ (nghiã là nếu trong ví dụ trên bạn gõ thành allinurl vietnam lucbat thì bạn sẽ thất bại trong việc tìm kiếm

Ngoài ra, trong google bạn có thể lạm dụng từ khoá naỳ để tìm các trang có đuôi file riêng biệt. chẳng hạn như:
mars rover inurl:pdf
sẽ giúp tìm các trang có dạng đuôi tệp là pdf mà các trang này chứa từ khoá mars và chữ rover

2.3.3.2: originurl:, u: url:

  • Việc tìm địa chỉ trong Inktomi (AOL, GoTo, HotBot) sẽ thông qua từ khoá originurl:

  • Trong Yahoo thì dùng từ khoá u:

  • Trong exite ( www.excite.com ) dùng url:

2.3.4 Từ khoá Link:linkdomain: Dùng để tìm các trang có dòng liên kết tới trang mà được ghi trong từ khoá.

  • Từ khoá link dùng được trong google và trong yahoo.  Tuy nhiên, khi dùng yahoo bạn phải cho đủ tên trang WEB với tiền tố http://. Thí dụ:
    từ khoá link:vietsciences.free.fr sẽ tìm được một số trang bởi google. Trong khi đó, nếu đánh link:http://vietsciences.free.fr thì sẽ tìm ra nhiều kết quả hơn trong yahoo

  • Từ khoá linkdomain: được dùng để tìm các liên kết nếu dùng MSN.

2.3.5 từ khoá filetype: Khi cần tìm các tư liệu nằm dưới các dạng tệp khác nhau thì từ khoá filetype: sẽ giúp đỡ ít nhiều.  Tuy nhiên, tuỳ theo trang mà chúng ta truy kiếm sẽ có các giới hạn khác nhau.

  • Trang google: sẽ hổ trợ truy tìm các kiểu tệp:  PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt), Rich Text Format (.rtf) cũng như là PostScript (.ps), Text (.txt), HTML (.htm hay .html), WordPerfect (.wpd), các file extensions khác ...
    ví dụ:   laser filetype:pdf sẽ giúp tìm các trang kiểu đuôi .pdf

  • Trang yahoo cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML  (.xml), and Text Format (.txt)

  • Trang MSN chỉ chuyên biệt tìm các loại tệp: HTML,  PDF, PowerPoint, Word, or Excel

Lưu ý: Dưới "con mắt" cuả các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Dó đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html

2.3.6: Dùng các loại kí tự phỏng định (wildcard character): Các dấu này được hiểu tương tự như khi ta dùng lệnh có dấu phỏng định trong DOS, Windows, hay Linux

  • Dấu *: dùng thay cho dãy không kể độ dài các kí tự (từ zero trở lên).  hổ trợ dấu này trong các tư khoá có AltaVista, Inktomi (iWon), Northern Light, Gigablast, google, Yahoo, MSN ... Thí dụ:
    *chnology +laser*

  • Dấu ?: Dùng thay cho một kí tự bất kì. Hổ trợ kiểu tìm này có AOL Search, Inktomi (iWon)

2.3.7 Dùng kí tự ~: Đặc biệt trong google có một cách để tìm không những các trang có chưá từ khoá mà còn tìm các trang có chưá chữ đồng nghiã với từ khoá (trong tiếng Anh). Ví dụ:
~food facts
sẽ giúp truy tìm các dữ liệu có chữ 'food facts' và các chữ tương đương như 'nutrition facts' ,...

Trong bài tới chúng ta sẽ tìm hiểu về các chế độ nâng cao cuả các trang truy tìm và vài bảng tổng kết các từ khoá qui ước

©  http://vietsciences.free.fr -  Võ Quang Nhân Ngày 19 tháng 07 năm 2004

 

`