|
Khai Thác Search
Engine
|
vietsciences-Võ Quang Nhân ngày 19 tháng 07 năm 2004 |
2. Các hổ trợ nâng cao và các phép toán thông dụng trong maý truy tìm: Bài giảng phần này nói nhiều về các đặc điểm chuyên biệt cuả các search engine dựa trên các đặc điểm cuả chúng mà các bạn có thể có nhiều phương pháp để tìm, tra cứu tài liệu một cách hữu hiệu hơn. Chúng tôi sẽ mổ xẻ chi tiết cá khả năng chuyên biệt cuả các thiết bị truy tìm 2.1 Các Phép Toán đơn giản: các phép này dùng để nâng cao hiệu quả cuả việc tìm kiếm. Trong hầu hết các trang truy tìm, việc dùng các dấu hổ trợ +, - và ngoặc kép đều thuận tiện. 2.1.1 Dùng dấu '+': Khi bạn muốn tìm các trang có mặt tất cả các chữ mà bạn muốn không theo thứ tự thì hãy viết nối các chữ này với nhau bởi dấu + (và nhớ chưà khỏang trống giưã các chữ) Thí dụ muốn tìm trang nói về cách thức viết Linux
scrips bạn có thể điền vào ô tìm bộ từ khoá: Hình1: tự học Linux script bằng ... search engine Làm vậy thì chỉ có những trang nào có đủ các chữ đã
nêu mới được tìm ra. 2.1.2 Dùng dấu '-': Nhiều lúc bạn muốn loại bỏ bớt các trang có một (hay nhiều) chữ mà bạn không muốn có thì dùng dấu - trong trường hợp này Chẳng hạn tìm tin tức về các loại xe dùng kỹ thuật lai
mới chưa có bán trên thị trường nhưng không muốn các trang bán xe lọt vào
thì có thể thử từ khoá: 2.1.3 Dùng ngoặc kép " ": để tìm cụm từ trong nguyên văn Nhiều khi bạn muốn tìm bài viết nguyên văn cuả một câu nói, tên cuả một người hay một bộ cụm từ thì có thể để tất cả vào trong ngoặc kép. Phương pháp này rất tiện lợi cho việc tìm kiếm những trang đặc biệt (thí dụ hãy thử đánh nguyên văn một câu thơ "Quả cau nho nhỏ miếng trầu ôi" vào trong google tìm xem ai đã viết câu này? Hè hè! như zầy mà đi thi thả thơ là tui thắng chắc hết 99% còn một phần là ... xui hông ai đang bài trên In-tờ-nét) Hình2: 0.14 giây đã tìm ra tác giả cuả câu "quả cau nho nhỏ"! Để tìm ra các tài liệu viết về nhà khoa học Von Neumann thì gõ nguyên tên "von neumann" Chú ý: Phương pháp này rất hiệu quả nhưng nếu bạn đánh sai chính tả thì ... kể như "bán luá giống" (hãy thử đánh tìm chữ "Quã cau" xem tui nói có đúng hông!) 2.2 Các phép toán Boolean Các mệnh lệnh truy tìm dùng đại số boolean đã được phát triển từ nhiều năm. Mặc dù vậy, chúng đã khó xử dụng so với những trình độ người trung bình. Hầu hết các search engine đều có chấp nhận các mệnh lệnh kiểu này.Tuy nhiên, hầu hết các trường hợp thì bạn có thể tiòm ra những gì cần mà không phải xài tới chúng Các phép toán thông dụng thường được các search engine hổ trợ là OR, AND, NOT và NEAR Lưu ý: khi dùng mệnh lệnh Boolean thì các toán tử phải viết bằng chữ hoa. 2.2.1 Phép OR Lệnh này cho phép tìm những trang WEB nào có mặt 1 trong các thành tố (hay còn gọi là toán tử cuả phép toán OR) cuả bộ từ khoá. Thí dụ để tìm các bài viết về Nguyễn
Trãi trong cả tiếng việt và tiếng nước ngoài thì có thể dùng bộ từ khoá Xa hơn nưã, một số các search engines sẽ dùng phép toán OR như là phép toán mặc định (nghiã là nếu tui gõ "Nguyễn Trãi" "Nguyen Trai" thì kết quả. Chẳng hạn trường hợp cuả Altavista thì sẽ tìm ra ngay cả những bài viết ... không dấu) Lưu ý: AOL search engine không làm tốt khả năng truy tìm khi dùng toán tử OR. Trong khi google sẽ không hoạt động để tìm những cụm từ khác nhau bởi phép toán OR Các trang có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot, và Gigablast 2.2.2 Phép ANDPhép toán AND nhằm yêu cầu search engine truy tìm các
trang có sự hiện diện cuả tất cả thành tố. Thí dụ Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào search engine không có chức năng boolean Các trang có thể dùng AND là: AltaVista, AOL Search, Excite,Inktomi (HotBot, MSN) Northern Light, Yahoo, và Gigablast 2.2.3 Phép NOT: Phép này hoàn toàn tương tự như cách dùng dấu -. Nghiã là, sự truy tìm sẽ loại bỏ những trang có thành tố đi cùng với phép toán NOT. Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast 2.2.4 Phép NEAR Dùng để truy tìm những trang WEB có các thành tố cuả
từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một
cụm từ, một khái niệm, một định nghiã hay một lời phát biểu mà bạn không nhớ
hết
được nguyên văn. Ví dụ: Hình 3: Không nhớ hết câu, vẩn tìm ra cụ Tản qua Altavista Các trang cho dùng NEAR là AltaVista (10 words), AOL Search (specify number). 2.2.5 Chẻ nhánh bằng phép ( ) Dùng ngoặc đơn cho phép ta tìm nhiều kết hợp phức tạp.
Thí dụ:
Hình4: Tìm phương pháp làm CD tự khởi động bằng bộ từ khoá có ( ) Hổ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light Các lưu ý:
2.3 Các hổ trợ nâng cao khác: Ngoài ra, nhiều search engine còn hổ trợ thêm các từ khoá qui ước. Khi dùng các từ khoá này thì search engfine sẽ chuyên biệt hoá các trang WEB, truy tìm theo ý nghiã quy ước mà từ khoá biểu tượng. Với các hổ trợ này bạn có thể kiểm soát được các loại trang nào mà bạn muốn truy tìm
Lưu ý: Đằng sau các từ khoá qui ước
đều có dấu hai chấm ':'. Khi viết bộ từ khoá có các từ khóa qui ước này thì
tốt nhất là viết từ tìm kiếm ngay liền sau dấu ':' và không chưà khoảng
trống (space) nào (thí dụ ta viết từ khoá 2.3.1 Các từ khoá host:, site:, url.host:, và domain: Dùng để thu hẹp các trang WEB tìm ra 2.3.1.1 Từ khoá
host: cuả Alavista(www.altavista.com):
Từ khoá này sẽ chỉ cho phép search engine tìm các trang nằm trong
một WEB server (host) mà bạn muốn tìm. Thí dụ Kết hợp với các
lệnh khác bạn có thể tìm theo cách chuyên biệt: Hay là: Như là 1 bài tập, bạn hãy tìm tất cả các trang xuất phát từ vương quốc Anh viết về clonning (Hà hà! Anh là một trong những nước dẫn đầu về kĩ thuật clonning) 2.3.1.2 Từ khoá tương tự site:, url.host:, và domain: Làm chức năng hoàn toàn tương tự với từ khoá host: cuả Altavista thì:
2.3.2 Các
từ khoá title:,
intitle:, và
allintitle:
Dùng để tìm các trang có tưạ đề chưá từ khoá.
Tuỳ theo loại search engine mà chúng ta dùng từ khoá khác nhau. 2.3.2.1 Từ
khoá title: Có
thể dùng trong các trang WEB: AltaVista,
AllTheWeb, Inktomi
(MSN và HotBot). Để tuy tìm các trang có có tựa đề chưá 1 từ hay 1
cụm từ đặc biệt(trường hợp cụm từ thì bạn hãy để trong ngoặc kép) Thí du:
Trong trường hợp bạn muốt tìm nhiều hơn một chữ nằm trong cùng 1 tựa đề baì
thì có thể dùng hai lần từ khoá title. Thí du: 2.3.2.1 Từ khoá intitle: và allintitle: Cho phép dùng trong các trang: google và teoma.
Hình 5: Dùng allintitle: tìm trang có tựa bao gồm chữ Mars và water trong google 2.3.3 Các từ khoá inurl:, allinurl:, orginurl:, và u: Các từ khoá này dùng để tìm những địa chỉ trang WEB mà có chưá c'ac chữ cần tìm. (Rõ ràng là việc này có lợi cho những ai thích mò tới các địa chỉ khác nhau...nhưng có cùng 1 tên) 2.3.3.1 inurl: và allinurl: trong google:
Lưu ý: trang google chỉ có thể tìm ra nếu như bạn gõ nguyên 1 bộ phận cuả từ (nghiã là nếu trong ví dụ trên bạn gõ thành allinurl vietnam lucbat thì bạn sẽ thất bại trong việc tìm kiếm
Ngoài ra, trong google
bạn có thể lạm dụng từ khoá naỳ để tìm các trang có đuôi file riêng
biệt. chẳng hạn như: 2.3.3.2: originurl:, u: và url:
2.3.4 Từ khoá Link: và linkdomain: Dùng để tìm các trang có dòng liên kết tới trang mà được ghi trong từ khoá.
2.3.5 từ khoá filetype: Khi cần tìm các tư liệu nằm dưới các dạng tệp khác nhau thì từ khoá filetype: sẽ giúp đỡ ít nhiều. Tuy nhiên, tuỳ theo trang mà chúng ta truy kiếm sẽ có các giới hạn khác nhau.
Lưu ý: Dưới "con mắt" cuả các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Dó đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần một riêng cho htm và một cho html 2.3.6: Dùng các loại kí tự phỏng định (wildcard character): Các dấu này được hiểu tương tự như khi ta dùng lệnh có dấu phỏng định trong DOS, Windows, hay Linux
2.3.7 Dùng kí tự
~: Đặc biệt trong
google có
một cách để tìm không những các trang có chưá từ khoá mà còn tìm các
trang có chưá chữ đồng nghiã với từ khoá (trong tiếng Anh). Ví dụ: Trong bài tới chúng ta sẽ tìm hiểu về các chế độ nâng cao cuả các trang truy tìm và vài bảng tổng kết các từ khoá qui ước © http://vietsciences.free.fr - Võ Quang Nhân Ngày 19 tháng 07 năm 2004
|
|
` |