Internet的查詢工具使用論文

時(shí)間:2022-09-17 05:25:00

導(dǎo)語:Internet的查詢工具使用論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

Internet的查詢工具使用論文

internet就像一個(gè)浩瀚的知識(shí)海洋,里面蘊(yùn)藏著取之不盡的信息寶藏。如何挖掘開采它,獲得人們需要的東西,目前還存在著兩方面的問題:首先,人們手頭的查詢工具太多,有WWW(WorldWideWeb)、Gopher、FTP以及不計(jì)其數(shù)的專題新聞組、消息表等等;其次,Internet網(wǎng)上的資源沒有確定的分類,人們要查找的是一堆毫無組織、地址不唯一的信息。同時(shí),那些熱心的程序員、廠商、經(jīng)紀(jì)人還在源源不斷地往Internet上填充著他們的東西。這無形中給檢索工作帶來了很大難度,沒有一定的方法,在Internet上查詢信息猶如大海撈針。哪種情況

下該用什么樣的工具幫你簡便快捷地找到你想要的信息,看了本文以后,或許會(huì)對(duì)你有所幫助。

目錄幫助

假如你要查找人們普遍感興趣的題目,如內(nèi)戰(zhàn)或者熱線財(cái)經(jīng)一類的消息并找到其網(wǎng)絡(luò)地址,通常這類目錄會(huì)很大,而且有按專題組織的地址表。這種情況下,我們一般喜歡用Yahoo(地址:/)查找,它列出了8萬個(gè)網(wǎng)絡(luò)地址(包括Web頁、Gophers、FTP地址以及Usenet新聞組),頂層又按藝術(shù)、計(jì)算機(jī)、衛(wèi)生、保健等分成14類子題目。用鼠標(biāo)點(diǎn)一下就可以選定子題目表,反復(fù)地查找子表,直到你找到需要的信息為止。

除了Yahoo一類人們普遍感興趣的目錄外,專題目錄則覆蓋了從古文物到青年工人等各方面的信息。找到這些專用目錄的最佳途徑是可以去密執(zhí)根大學(xué)(地址:www.lib.mich.edu/chhome.html)查找那里的Clearinghouse,那里有面向?qū)n}的Internet資源指南。

查詢引擎

當(dāng)人們意欲查詢Web提供的信息時(shí),目錄項(xiàng)是非常有用的,用戶的問題越專有,待查的目錄項(xiàng)就越少。為了取得問題的答案,人們必須使用查詢引擎。查詢引擎實(shí)際上是一些Web頁,你可以在其中輸入你想要查找的文本串。按一下按鈕,等一會(huì)兒,引擎就會(huì)識(shí)別出與輸入的關(guān)鍵字匹配的Web地址表。在最近的Web查詢掃描中,我們查到60個(gè)這樣的頁,其中只有10頁是我們覺得有用的工具,其余的用處不大,或者只有計(jì)算機(jī)科學(xué)專業(yè)的研究生對(duì)之感興趣。

每一個(gè)查詢引擎代表一個(gè)數(shù)據(jù)庫,里面含有Web頁的URL(UniversalResourceLocator或經(jīng)專門格式化后的Internet地址)地址以及其他網(wǎng)絡(luò)資源。大多數(shù)查詢引擎數(shù)據(jù)庫是由Crawler程序、漫游Web的軟件程序通過頁與頁的連接順次查找新的地址搜集而來的。這里,Crawler又被稱為機(jī)器人或蜘蛛。當(dāng)蜘蛛找到新的頁時(shí),就把新頁增加到數(shù)據(jù)庫中。

這些數(shù)據(jù)庫存有成千上萬個(gè)Web頁,在引擎頭的位置每天都在增加新的頁。其中,多數(shù)人感興趣的引擎如Lycos和Excite覆蓋面最廣,其中每個(gè)數(shù)據(jù)庫有150萬個(gè)索引Web頁,其次是OpenTextIndex,據(jù)稱也有130萬個(gè)Web頁。

每個(gè)數(shù)據(jù)庫引擎的大小對(duì)查找是否成功起著很大的作用,例如,我們想用字符串recipewheatBeer(釀啤酒秘訣)查詢每一個(gè)引擎,其結(jié)果是:最大的Lycos數(shù)據(jù)庫引擎提供給我們437個(gè)匹配頁(hit),InfoSeek和OpenTextIndex數(shù)據(jù)庫則每次提供200個(gè)頁,用其他數(shù)據(jù)庫則少于100頁,有幾種情況下,甚至查不到一個(gè)Web頁。通常的情形是,數(shù)據(jù)庫越小,查到的Web頁就越少。

大多數(shù)數(shù)據(jù)庫引擎嚴(yán)格限制其只能檢索Web本身,InfoSeek和Excite則比其他引擎更進(jìn)一步,它們增加了Usenet新聞組索引。InfoSeek還允許用戶查詢就近的一組非Internet數(shù)據(jù)庫的信息。

索引中的信息

Web的蜘蛛程序比URL采集信息做得要多一些,它們還搜集有關(guān)每一頁的信息,一旦你提交一個(gè)查詢,查詢引擎的backend軟件就建立起一個(gè)你所需信息的索引。從一個(gè)引擎到另外一個(gè)引擎,其索引技術(shù)是各不相同的,你不要因此感到奇怪。

在每個(gè)引擎中,都有一個(gè)頁的索引URL地址和題目。多數(shù)引擎還有每一段的索引標(biāo)題,其他的引擎則只是記錄了頻繁提到的詞或者文本的頭幾行。在OpenTextIndex數(shù)據(jù)庫引擎中,頁的每一個(gè)單詞都有索引,甚至包括and一類別的引擎忽略的詞也有。結(jié)果可想而知,它理所當(dāng)然成了唯一能在查找過程中返回是或者不是的查詢工具。即使不包含你所指定的關(guān)鍵字,Excite基于概念的索引也能夠幫助人們找到相關(guān)的頁。

找到匹配頁并不意味著查詢成功。一方面,數(shù)據(jù)庫的大小確定了它查到的匹配頁的多少,另一方面,索引質(zhì)量的好壞還要由有多少個(gè)匹配頁與你的查詢相關(guān)來確定。如我們通過每一個(gè)查詢引擎查找北卡羅來納三角地的房地產(chǎn)信息,然后算一算在ChapelHill地區(qū)有多少個(gè)與之相關(guān)的匹配頁數(shù)。據(jù)統(tǒng)計(jì),Web的Crawler返回19個(gè)匹配頁,我們從InfoSeek上獲得200多個(gè)匹配頁。但是實(shí)際上19個(gè)當(dāng)中只有9頁是我們所想要的東西。大多數(shù)InfoSeek的匹配頁與房地產(chǎn)有關(guān),但是又有許多東西與北卡羅來納沒有任何關(guān)系。

使用正確的工具

無論數(shù)據(jù)庫有多大,待查數(shù)據(jù)庫有多么復(fù)雜,查詢引擎是你進(jìn)行檢索的獨(dú)一無二的好工具。

有時(shí)需要進(jìn)行詞組的查詢,不同的數(shù)據(jù)庫處理詞組的方式不盡相同。InfoSeek用詞的主干部分來檢索與該部分匹配的頁,如欲查impressionism一詞,只需查找與impression匹配的頁即可。Lycos則將查詢項(xiàng)作為主干詞來處理,所以在這種引擎中,metal一詞就與metallic匹配。

有幾種引擎允許用戶檢索所有的詞組,而不只是檢索被查詢串的個(gè)別單詞,它們檢索串組合成詞組的偶然搭配。有兩種引擎可以查到一個(gè)詞組的多種變化,這兩個(gè)引擎是Aliweb(地址:web.nexor.co.uk/public/aliweb.html)和CUI的W3Catalog(地址:uiwww.unige.ch/w3catalog)。

另外,使用這些可用工具還有一個(gè)問題。在某些引擎中,允許用戶按指定的操作對(duì)用戶的查詢項(xiàng)求精。這將意味著在最基本的底層,你檢索到的地址包括待查串中的任何一個(gè)單詞或者項(xiàng)的全部,Lycos就是這樣進(jìn)行的。其他一些引擎允許用戶使用更多的布爾項(xiàng),如AND、OR,有時(shí)還用NOT。只有InfoSeek和OpenTextIndex兩個(gè)引擎允許用戶使用相近操作,它們允許你查詢與被查串相鄰的項(xiàng)。

使用這些可用的工具動(dòng)態(tài)地增加了匹配頁的查詢質(zhì)量。例如,我們使用OpenTextIndex簡單查詢頁查找釀造小麥啤酒的秘訣,可以得到90個(gè)匹配頁,這里面只有很少的幾頁與自釀小麥啤酒有關(guān)(多數(shù)頁與飲酒有關(guān))。但當(dāng)打開"Power"頁進(jìn)行小麥啤酒秘訣的相鄰項(xiàng)查詢時(shí),我們可得到6個(gè)匹配頁,其中有3個(gè)正是我們所需的東西。

分開有用和無用的信息當(dāng)你獲得匹配頁表時(shí),你的檢索工作才剛剛開始。你得將這些地址分類以找到你真正想要的東西,多數(shù)引擎可以在結(jié)果頁的頂部顯示它們確實(shí)已檢索到的詞。你可能已經(jīng)查找過好的、壞的和丑的東西,而檢索引擎也告訴你它確實(shí)是在查好的、壞的和丑的東西,記住一點(diǎn),你可以通知許多引擎查找全部詞組,而不只是關(guān)鍵字。

多數(shù)引擎返回的匹配頁與查詢項(xiàng)密切相關(guān)。即使你獲得200個(gè)以上的匹配頁,你也不用擔(dān)心要將所有的頁都搜集起來,可能頂多你只需10個(gè)。不同的引擎采用不同的方法計(jì)算查詢頁的關(guān)聯(lián)度。InfoprSeek根據(jù)被查項(xiàng)在整個(gè)數(shù)據(jù)庫出現(xiàn)頻度相近的頁中出現(xiàn)的次數(shù)來排列匹配頁,Lycos則基于項(xiàng)在頁中的出現(xiàn)次數(shù)、與其他項(xiàng)的臨近度以及在頁中的位置來排列。

大多數(shù)引擎提供了匹配頁的幾種描述。在這方面Lycos是最佳的,它不僅提供了關(guān)聯(lián)的比率、每頁的描述,而且還有文本的簡單摘要。

人們只需閱讀一下摘要,就可以判斷是否是你需要找到的匹配頁。

元級(jí)檢索(Metasearching)

人們可能不大喜歡忙忙碌碌地從一個(gè)檢索引擎到另一個(gè)去查找想要的信息,那么你應(yīng)該學(xué)習(xí)使用元級(jí)檢索地址。它們是幾個(gè)檢索引擎同時(shí)開始查詢得到的頁面。

有兩種頁面:SavvySearch(地址:www.cs.colostate.edu

/~dreiling/smartform.html)和MetaCrawler(地址:www.cs.

washington.edu/research/project/ai/metacrawler/www/home.h

tml),它們可同時(shí)在若干個(gè)引擎上查詢。SavvySearch還會(huì)覆蓋ArchiePlex(用于檢索FTP地址)和DejaNewws(用于檢索新聞組)。這種并行檢索引起的唯一問題是用戶訪問不到每一個(gè)引擎查詢工具,例如布爾和相近操作,用這種方法進(jìn)行查詢就不如實(shí)際的詞匯查詢精確。

另一些元級(jí)檢索地址允許你在某一時(shí)間查詢一個(gè)主要引擎。用戶可以想用的引擎格式填寫并啟動(dòng)它。這樣做也許會(huì)漏掉一些查詢工具,但是這些頁可被保留在文件上供將來快速查詢用。

查詢后的工作

前述工具你會(huì)喜歡用哪一種?這里,我們挑選了3種檢索引擎:Excite、InfoSeek及Lycos。這3種工具都提供了易于使用的界面,人們可以從中得到精確的結(jié)果。此外,我們還增加了一個(gè)目錄Yahoo。這是迄今我們用到的最完整的目錄,它提供了一個(gè)完美的缺省homepage。幸運(yùn)的是這些工具經(jīng)常改進(jìn)。InfoSeek已經(jīng)宣布計(jì)劃把一個(gè)目錄編入它的檢索地址。而OpenTextIndex也宣布計(jì)劃與Yahoo合作形成一個(gè)可能會(huì)令人吃驚的產(chǎn)品。

在開拓者的頭腦中,無論你最終使用哪一種工具,它們都會(huì)使得Web更有市場。

查找內(nèi)部消息Tips

一個(gè)檢索引擎數(shù)據(jù)庫實(shí)際上就是與URL地址有關(guān)的詞和詞組的索引。你要做的工作是查找與該索引匹配的詞。這里有幾條通用規(guī)則可便于用戶最大限度地進(jìn)行查詢。

1.閱讀一下引擎的指令許多檢索引擎提供了自身的操作、定義符及規(guī)則集,這些東西有助于你進(jìn)行高效查詢。試著用一用它們。

2.選擇不常用的詞檢索詞與其他詞的區(qū)別越大,對(duì)于加快搜索越有用。舉個(gè)例子,你檢索埃塞俄比亞彌猴科就比非洲的綠錢幣獲得的索引項(xiàng)要多。在檢索時(shí),應(yīng)盡量挑選能夠表達(dá)你意思的詞。

3.注意拼法如果你在查"astronut"一詞,你可以得到符合拼字正確要求的Web頁。對(duì)字符串形式看來很相似的詞,切記也要檢索一下該詞的合理變化,如你要查fly-fishing一詞,應(yīng)該試試查flyfishing和flyfishing兩個(gè)詞。

4.同義詞記住,你可能查的是一個(gè)概念,而并非只是一個(gè)單詞。例如,如果你想查找有關(guān)背包徒步旅行的地址,在你的查詢中就應(yīng)包含這些項(xiàng):徒步旅行、乘牛車旅行、背包徒步旅行以及露營。

5.勿用自然語言某些地址支持自然語言的查詢,即允許用戶以說話的方式提問。不要去用這個(gè)功能,你要將焦點(diǎn)放在能夠識(shí)別你概念的術(shù)語和詞組上。

6.重復(fù)你查詢的東西在第一次查詢過后,回到你最有希望查找的匹配頁,把其他一些你可能會(huì)快速廣泛進(jìn)行查詢的術(shù)語摘錄下來。

7.不要忘了NOT有一些查詢引擎支持NOT(非)操作,這個(gè)操作允許你進(jìn)行輸入項(xiàng)的查詢。因此,你對(duì)非重非音樂的金屬進(jìn)行查詢,就可以找到與工業(yè)金屬有關(guān)的地址,從而避免去金屬。

8.使用多個(gè)查詢引擎我們驚奇地發(fā)現(xiàn),用幾個(gè)不同的查詢引擎進(jìn)行同一個(gè)查詢,查詢結(jié)果的重疊率很小。所以為了獲得最佳的查詢效果,盡量在多個(gè)地址上查詢。

9.試試使用專有地址如果你想查找某指定公司的Web頁,可以試試OpenMarketCommercialSites索引(其地址為:/)。同樣,如果你想查找政府的集中Web地址,可在Infomine(其地址為:http:/lib-www.ucr.edu/Main.html)上進(jìn)行。如果你想查找Usenet新聞組,可以用InfoSeek或DejaNews(其地址為:/)。最后一點(diǎn),如果想查找Internet上可卸載的文件,ArchiePlex(地址為:flosun.salk.edu/archieplex.html)便可助你一臂之力。