Internet的查詢(xún)工具使用論文
時(shí)間:2022-09-17 05:25:00
導(dǎo)語(yǔ):Internet的查詢(xún)工具使用論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。
internet就像一個(gè)浩瀚的知識(shí)海洋,里面蘊(yùn)藏著取之不盡的信息寶藏。如何挖掘開(kāi)采它,獲得人們需要的東西,目前還存在著兩方面的問(wèn)題:首先,人們手頭的查詢(xún)工具太多,有WWW(WorldWideWeb)、Gopher、FTP以及不計(jì)其數(shù)的專(zhuān)題新聞組、消息表等等;其次,Internet網(wǎng)上的資源沒(méi)有確定的分類(lèi),人們要查找的是一堆毫無(wú)組織、地址不唯一的信息。同時(shí),那些熱心的程序員、廠商、經(jīng)紀(jì)人還在源源不斷地往Internet上填充著他們的東西。這無(wú)形中給檢索工作帶來(lái)了很大難度,沒(méi)有一定的方法,在Internet上查詢(xún)信息猶如大海撈針。哪種情況
下該用什么樣的工具幫你簡(jiǎn)便快捷地找到你想要的信息,看了本文以后,或許會(huì)對(duì)你有所幫助。
目錄幫助
假如你要查找人們普遍感興趣的題目,如內(nèi)戰(zhàn)或者熱線(xiàn)財(cái)經(jīng)一類(lèi)的消息并找到其網(wǎng)絡(luò)地址,通常這類(lèi)目錄會(huì)很大,而且有按專(zhuān)題組織的地址表。這種情況下,我們一般喜歡用Yahoo(地址:/)查找,它列出了8萬(wàn)個(gè)網(wǎng)絡(luò)地址(包括Web頁(yè)、Gophers、FTP地址以及Usenet新聞組),頂層又按藝術(shù)、計(jì)算機(jī)、衛(wèi)生、保健等分成14類(lèi)子題目。用鼠標(biāo)點(diǎn)一下就可以選定子題目表,反復(fù)地查找子表,直到你找到需要的信息為止。
除了Yahoo一類(lèi)人們普遍感興趣的目錄外,專(zhuān)題目錄則覆蓋了從古文物到青年工人等各方面的信息。找到這些專(zhuān)用目錄的最佳途徑是可以去密執(zhí)根大學(xué)(地址:www.lib.mich.edu/chhome.html)查找那里的Clearinghouse,那里有面向?qū)n}的Internet資源指南。
查詢(xún)引擎
當(dāng)人們意欲查詢(xún)Web提供的信息時(shí),目錄項(xiàng)是非常有用的,用戶(hù)的問(wèn)題越專(zhuān)有,待查的目錄項(xiàng)就越少。為了取得問(wèn)題的答案,人們必須使用查詢(xún)引擎。查詢(xún)引擎實(shí)際上是一些Web頁(yè),你可以在其中輸入你想要查找的文本串。按一下按鈕,等一會(huì)兒,引擎就會(huì)識(shí)別出與輸入的關(guān)鍵字匹配的Web地址表。在最近的Web查詢(xún)掃描中,我們查到60個(gè)這樣的頁(yè),其中只有10頁(yè)是我們覺(jué)得有用的工具,其余的用處不大,或者只有計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的研究生對(duì)之感興趣。
每一個(gè)查詢(xún)引擎代表一個(gè)數(shù)據(jù)庫(kù),里面含有Web頁(yè)的URL(UniversalResourceLocator或經(jīng)專(zhuān)門(mén)格式化后的Internet地址)地址以及其他網(wǎng)絡(luò)資源。大多數(shù)查詢(xún)引擎數(shù)據(jù)庫(kù)是由Crawler程序、漫游Web的軟件程序通過(guò)頁(yè)與頁(yè)的連接順次查找新的地址搜集而來(lái)的。這里,Crawler又被稱(chēng)為機(jī)器人或蜘蛛。當(dāng)蜘蛛找到新的頁(yè)時(shí),就把新頁(yè)增加到數(shù)據(jù)庫(kù)中。
這些數(shù)據(jù)庫(kù)存有成千上萬(wàn)個(gè)Web頁(yè),在引擎頭的位置每天都在增加新的頁(yè)。其中,多數(shù)人感興趣的引擎如Lycos和Excite覆蓋面最廣,其中每個(gè)數(shù)據(jù)庫(kù)有150萬(wàn)個(gè)索引Web頁(yè),其次是OpenTextIndex,據(jù)稱(chēng)也有130萬(wàn)個(gè)Web頁(yè)。
每個(gè)數(shù)據(jù)庫(kù)引擎的大小對(duì)查找是否成功起著很大的作用,例如,我們想用字符串recipewheatBeer(釀啤酒秘訣)查詢(xún)每一個(gè)引擎,其結(jié)果是:最大的Lycos數(shù)據(jù)庫(kù)引擎提供給我們437個(gè)匹配頁(yè)(hit),InfoSeek和OpenTextIndex數(shù)據(jù)庫(kù)則每次提供200個(gè)頁(yè),用其他數(shù)據(jù)庫(kù)則少于100頁(yè),有幾種情況下,甚至查不到一個(gè)Web頁(yè)。通常的情形是,數(shù)據(jù)庫(kù)越小,查到的Web頁(yè)就越少。
大多數(shù)數(shù)據(jù)庫(kù)引擎嚴(yán)格限制其只能檢索Web本身,InfoSeek和Excite則比其他引擎更進(jìn)一步,它們?cè)黾恿薝senet新聞組索引。InfoSeek還允許用戶(hù)查詢(xún)就近的一組非Internet數(shù)據(jù)庫(kù)的信息。
索引中的信息
Web的蜘蛛程序比URL采集信息做得要多一些,它們還搜集有關(guān)每一頁(yè)的信息,一旦你提交一個(gè)查詢(xún),查詢(xún)引擎的backend軟件就建立起一個(gè)你所需信息的索引。從一個(gè)引擎到另外一個(gè)引擎,其索引技術(shù)是各不相同的,你不要因此感到奇怪。
在每個(gè)引擎中,都有一個(gè)頁(yè)的索引URL地址和題目。多數(shù)引擎還有每一段的索引標(biāo)題,其他的引擎則只是記錄了頻繁提到的詞或者文本的頭幾行。在OpenTextIndex數(shù)據(jù)庫(kù)引擎中,頁(yè)的每一個(gè)單詞都有索引,甚至包括and一類(lèi)別的引擎忽略的詞也有。結(jié)果可想而知,它理所當(dāng)然成了唯一能在查找過(guò)程中返回是或者不是的查詢(xún)工具。即使不包含你所指定的關(guān)鍵字,Excite基于概念的索引也能夠幫助人們找到相關(guān)的頁(yè)。
找到匹配頁(yè)并不意味著查詢(xún)成功。一方面,數(shù)據(jù)庫(kù)的大小確定了它查到的匹配頁(yè)的多少,另一方面,索引質(zhì)量的好壞還要由有多少個(gè)匹配頁(yè)與你的查詢(xún)相關(guān)來(lái)確定。如我們通過(guò)每一個(gè)查詢(xún)引擎查找北卡羅來(lái)納三角地的房地產(chǎn)信息,然后算一算在ChapelHill地區(qū)有多少個(gè)與之相關(guān)的匹配頁(yè)數(shù)。據(jù)統(tǒng)計(jì),Web的Crawler返回19個(gè)匹配頁(yè),我們從InfoSeek上獲得200多個(gè)匹配頁(yè)。但是實(shí)際上19個(gè)當(dāng)中只有9頁(yè)是我們所想要的東西。大多數(shù)InfoSeek的匹配頁(yè)與房地產(chǎn)有關(guān),但是又有許多東西與北卡羅來(lái)納沒(méi)有任何關(guān)系。
使用正確的工具
無(wú)論數(shù)據(jù)庫(kù)有多大,待查數(shù)據(jù)庫(kù)有多么復(fù)雜,查詢(xún)引擎是你進(jìn)行檢索的獨(dú)一無(wú)二的好工具。
有時(shí)需要進(jìn)行詞組的查詢(xún),不同的數(shù)據(jù)庫(kù)處理詞組的方式不盡相同。InfoSeek用詞的主干部分來(lái)檢索與該部分匹配的頁(yè),如欲查impressionism一詞,只需查找與impression匹配的頁(yè)即可。Lycos則將查詢(xún)項(xiàng)作為主干詞來(lái)處理,所以在這種引擎中,metal一詞就與metallic匹配。
有幾種引擎允許用戶(hù)檢索所有的詞組,而不只是檢索被查詢(xún)串的個(gè)別單詞,它們檢索串組合成詞組的偶然搭配。有兩種引擎可以查到一個(gè)詞組的多種變化,這兩個(gè)引擎是Aliweb(地址:web.nexor.co.uk/public/aliweb.html)和CUI的W3Catalog(地址:uiwww.unige.ch/w3catalog)。
另外,使用這些可用工具還有一個(gè)問(wèn)題。在某些引擎中,允許用戶(hù)按指定的操作對(duì)用戶(hù)的查詢(xún)項(xiàng)求精。這將意味著在最基本的底層,你檢索到的地址包括待查串中的任何一個(gè)單詞或者項(xiàng)的全部,Lycos就是這樣進(jìn)行的。其他一些引擎允許用戶(hù)使用更多的布爾項(xiàng),如AND、OR,有時(shí)還用NOT。只有InfoSeek和OpenTextIndex兩個(gè)引擎允許用戶(hù)使用相近操作,它們?cè)试S你查詢(xún)與被查串相鄰的項(xiàng)。
使用這些可用的工具動(dòng)態(tài)地增加了匹配頁(yè)的查詢(xún)質(zhì)量。例如,我們使用OpenTextIndex簡(jiǎn)單查詢(xún)頁(yè)查找釀造小麥啤酒的秘訣,可以得到90個(gè)匹配頁(yè),這里面只有很少的幾頁(yè)與自釀小麥啤酒有關(guān)(多數(shù)頁(yè)與飲酒有關(guān))。但當(dāng)打開(kāi)"Power"頁(yè)進(jìn)行小麥啤酒秘訣的相鄰項(xiàng)查詢(xún)時(shí),我們可得到6個(gè)匹配頁(yè),其中有3個(gè)正是我們所需的東西。
分開(kāi)有用和無(wú)用的信息當(dāng)你獲得匹配頁(yè)表時(shí),你的檢索工作才剛剛開(kāi)始。你得將這些地址分類(lèi)以找到你真正想要的東西,多數(shù)引擎可以在結(jié)果頁(yè)的頂部顯示它們確實(shí)已檢索到的詞。你可能已經(jīng)查找過(guò)好的、壞的和丑的東西,而檢索引擎也告訴你它確實(shí)是在查好的、壞的和丑的東西,記住一點(diǎn),你可以通知許多引擎查找全部詞組,而不只是關(guān)鍵字。
多數(shù)引擎返回的匹配頁(yè)與查詢(xún)項(xiàng)密切相關(guān)。即使你獲得200個(gè)以上的匹配頁(yè),你也不用擔(dān)心要將所有的頁(yè)都搜集起來(lái),可能頂多你只需10個(gè)。不同的引擎采用不同的方法計(jì)算查詢(xún)頁(yè)的關(guān)聯(lián)度。InfoprSeek根據(jù)被查項(xiàng)在整個(gè)數(shù)據(jù)庫(kù)出現(xiàn)頻度相近的頁(yè)中出現(xiàn)的次數(shù)來(lái)排列匹配頁(yè),Lycos則基于項(xiàng)在頁(yè)中的出現(xiàn)次數(shù)、與其他項(xiàng)的臨近度以及在頁(yè)中的位置來(lái)排列。
大多數(shù)引擎提供了匹配頁(yè)的幾種描述。在這方面Lycos是最佳的,它不僅提供了關(guān)聯(lián)的比率、每頁(yè)的描述,而且還有文本的簡(jiǎn)單摘要。
人們只需閱讀一下摘要,就可以判斷是否是你需要找到的匹配頁(yè)。
元級(jí)檢索(Metasearching)
人們可能不大喜歡忙忙碌碌地從一個(gè)檢索引擎到另一個(gè)去查找想要的信息,那么你應(yīng)該學(xué)習(xí)使用元級(jí)檢索地址。它們是幾個(gè)檢索引擎同時(shí)開(kāi)始查詢(xún)得到的頁(yè)面。
有兩種頁(yè)面:SavvySearch(地址:www.cs.colostate.edu
/~dreiling/smartform.html)和MetaCrawler(地址:www.cs.
washington.edu/research/project/ai/metacrawler/www/home.h
tml),它們可同時(shí)在若干個(gè)引擎上查詢(xún)。SavvySearch還會(huì)覆蓋ArchiePlex(用于檢索FTP地址)和DejaNewws(用于檢索新聞組)。這種并行檢索引起的唯一問(wèn)題是用戶(hù)訪問(wèn)不到每一個(gè)引擎查詢(xún)工具,例如布爾和相近操作,用這種方法進(jìn)行查詢(xún)就不如實(shí)際的詞匯查詢(xún)精確。
另一些元級(jí)檢索地址允許你在某一時(shí)間查詢(xún)一個(gè)主要引擎。用戶(hù)可以想用的引擎格式填寫(xiě)并啟動(dòng)它。這樣做也許會(huì)漏掉一些查詢(xún)工具,但是這些頁(yè)可被保留在文件上供將來(lái)快速查詢(xún)用。
查詢(xún)后的工作
前述工具你會(huì)喜歡用哪一種?這里,我們挑選了3種檢索引擎:Excite、InfoSeek及Lycos。這3種工具都提供了易于使用的界面,人們可以從中得到精確的結(jié)果。此外,我們還增加了一個(gè)目錄Yahoo。這是迄今我們用到的最完整的目錄,它提供了一個(gè)完美的缺省homepage。幸運(yùn)的是這些工具經(jīng)常改進(jìn)。InfoSeek已經(jīng)宣布計(jì)劃把一個(gè)目錄編入它的檢索地址。而OpenTextIndex也宣布計(jì)劃與Yahoo合作形成一個(gè)可能會(huì)令人吃驚的產(chǎn)品。
在開(kāi)拓者的頭腦中,無(wú)論你最終使用哪一種工具,它們都會(huì)使得Web更有市場(chǎng)。
查找內(nèi)部消息Tips
一個(gè)檢索引擎數(shù)據(jù)庫(kù)實(shí)際上就是與URL地址有關(guān)的詞和詞組的索引。你要做的工作是查找與該索引匹配的詞。這里有幾條通用規(guī)則可便于用戶(hù)最大限度地進(jìn)行查詢(xún)。
1.閱讀一下引擎的指令許多檢索引擎提供了自身的操作、定義符及規(guī)則集,這些東西有助于你進(jìn)行高效查詢(xún)。試著用一用它們。
2.選擇不常用的詞檢索詞與其他詞的區(qū)別越大,對(duì)于加快搜索越有用。舉個(gè)例子,你檢索埃塞俄比亞彌猴科就比非洲的綠錢(qián)幣獲得的索引項(xiàng)要多。在檢索時(shí),應(yīng)盡量挑選能夠表達(dá)你意思的詞。
3.注意拼法如果你在查"astronut"一詞,你可以得到符合拼字正確要求的Web頁(yè)。對(duì)字符串形式看來(lái)很相似的詞,切記也要檢索一下該詞的合理變化,如你要查fly-fishing一詞,應(yīng)該試試查flyfishing和flyfishing兩個(gè)詞。
4.同義詞記住,你可能查的是一個(gè)概念,而并非只是一個(gè)單詞。例如,如果你想查找有關(guān)背包徒步旅行的地址,在你的查詢(xún)中就應(yīng)包含這些項(xiàng):徒步旅行、乘牛車(chē)旅行、背包徒步旅行以及露營(yíng)。
5.勿用自然語(yǔ)言某些地址支持自然語(yǔ)言的查詢(xún),即允許用戶(hù)以說(shuō)話(huà)的方式提問(wèn)。不要去用這個(gè)功能,你要將焦點(diǎn)放在能夠識(shí)別你概念的術(shù)語(yǔ)和詞組上。
6.重復(fù)你查詢(xún)的東西在第一次查詢(xún)過(guò)后,回到你最有希望查找的匹配頁(yè),把其他一些你可能會(huì)快速?gòu)V泛進(jìn)行查詢(xún)的術(shù)語(yǔ)摘錄下來(lái)。
7.不要忘了NOT有一些查詢(xún)引擎支持NOT(非)操作,這個(gè)操作允許你進(jìn)行輸入項(xiàng)的查詢(xún)。因此,你對(duì)非重非音樂(lè)的金屬進(jìn)行查詢(xún),就可以找到與工業(yè)金屬有關(guān)的地址,從而避免去金屬。
8.使用多個(gè)查詢(xún)引擎我們驚奇地發(fā)現(xiàn),用幾個(gè)不同的查詢(xún)引擎進(jìn)行同一個(gè)查詢(xún),查詢(xún)結(jié)果的重疊率很小。所以為了獲得最佳的查詢(xún)效果,盡量在多個(gè)地址上查詢(xún)。
9.試試使用專(zhuān)有地址如果你想查找某指定公司的Web頁(yè),可以試試OpenMarketCommercialSites索引(其地址為:/)。同樣,如果你想查找政府的集中Web地址,可在Infomine(其地址為:http:/lib-www.ucr.edu/Main.html)上進(jìn)行。如果你想查找Usenet新聞組,可以用InfoSeek或DejaNews(其地址為:/)。最后一點(diǎn),如果想查找Internet上可卸載的文件,ArchiePlex(地址為:flosun.salk.edu/archieplex.html)便可助你一臂之力。