99视频这里有精品老司机,波多野结衣之一区二区,www.久久17

導語：Internet的查詢工具使用論文一文來源于網(wǎng)友上傳，不代表本站觀點，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

Internet的查詢工具使用論文

internet就像一個浩瀚的知識海洋,里面蘊藏著取之不盡的信息寶藏。如何挖掘開采它,獲得人們需要的東西,目前還存在著兩方面的問題:首先,人們手頭的查詢工具太多,有WWW(WorldWideWeb)、Gopher、FTP以及不計其數(shù)的專題新聞組、消息表等等;其次,Internet網(wǎng)上的資源沒有確定的分類,人們要查找的是一堆毫無組織、地址不唯一的信息。同時,那些熱心的程序員、廠商、經(jīng)紀人還在源源不斷地往Internet上填充著他們的東西。這無形中給檢索工作帶來了很大難度,沒有一定的方法,在Internet上查詢信息猶如大海撈針。哪種情況

下該用什么樣的工具幫你簡便快捷地找到你想要的信息,看了本文以后,或許會對你有所幫助。

目錄幫助

假如你要查找人們普遍感興趣的題目,如內(nèi)戰(zhàn)或者熱線財經(jīng)一類的消息并找到其網(wǎng)絡地址,通常這類目錄會很大,而且有按專題組織的地址表。這種情況下,我們一般喜歡用Yahoo(地址:/)查找,它列出了8萬個網(wǎng)絡地址(包括Web頁、Gophers、FTP地址以及Usenet新聞組),頂層又按藝術(shù)、計算機、衛(wèi)生、保健等分成14類子題目。用鼠標點一下就可以選定子題目表,反復地查找子表,直到你找到需要的信息為止。

除了Yahoo一類人們普遍感興趣的目錄外,專題目錄則覆蓋了從古文物到青年工人等各方面的信息。找到這些專用目錄的最佳途徑是可以去密執(zhí)根大學(地址:www.lib.mich.edu/chhome.html)查找那里的Clearinghouse,那里有面向?qū)ｎ}的Internet資源指南。

查詢引擎

當人們意欲查詢Web提供的信息時,目錄項是非常有用的,用戶的問題越專有,待查的目錄項就越少。為了取得問題的答案,人們必須使用查詢引擎。查詢引擎實際上是一些Web頁,你可以在其中輸入你想要查找的文本串。按一下按鈕,等一會兒,引擎就會識別出與輸入的關(guān)鍵字匹配的Web地址表。在最近的Web查詢掃描中,我們查到60個這樣的頁,其中只有10頁是我們覺得有用的工具,其余的用處不大,或者只有計算機科學專業(yè)的研究生對之感興趣。

每一個查詢引擎代表一個數(shù)據(jù)庫,里面含有Web頁的URL(UniversalResourceLocator或經(jīng)專門格式化后的Internet地址)地址以及其他網(wǎng)絡資源。大多數(shù)查詢引擎數(shù)據(jù)庫是由Crawler程序、漫游Web的軟件程序通過頁與頁的連接順次查找新的地址搜集而來的。這里,Crawler又被稱為機器人或蜘蛛。當蜘蛛找到新的頁時,就把新頁增加到數(shù)據(jù)庫中。

這些數(shù)據(jù)庫存有成千上萬個Web頁,在引擎頭的位置每天都在增加新的頁。其中,多數(shù)人感興趣的引擎如Lycos和Excite覆蓋面最廣,其中每個數(shù)據(jù)庫有150萬個索引Web頁,其次是OpenTextIndex,據(jù)稱也有130萬個Web頁。

每個數(shù)據(jù)庫引擎的大小對查找是否成功起著很大的作用,例如,我們想用字符串recipewheatBeer(釀啤酒秘訣)查詢每一個引擎,其結(jié)果是:最大的Lycos數(shù)據(jù)庫引擎提供給我們437個匹配頁(hit),InfoSeek和OpenTextIndex數(shù)據(jù)庫則每次提供200個頁,用其他數(shù)據(jù)庫則少于100頁,有幾種情況下,甚至查不到一個Web頁。通常的情形是,數(shù)據(jù)庫越小,查到的Web頁就越少。

大多數(shù)數(shù)據(jù)庫引擎嚴格限制其只能檢索Web本身,InfoSeek和Excite則比其他引擎更進一步,它們增加了Usenet新聞組索引。InfoSeek還允許用戶查詢就近的一組非Internet數(shù)據(jù)庫的信息。

索引中的信息

Web的蜘蛛程序比URL采集信息做得要多一些,它們還搜集有關(guān)每一頁的信息,一旦你提交一個查詢,查詢引擎的backend軟件就建立起一個你所需信息的索引。從一個引擎到另外一個引擎,其索引技術(shù)是各不相同的,你不要因此感到奇怪。

在每個引擎中,都有一個頁的索引URL地址和題目。多數(shù)引擎還有每一段的索引標題,其他的引擎則只是記錄了頻繁提到的詞或者文本的頭幾行。在OpenTextIndex數(shù)據(jù)庫引擎中,頁的每一個單詞都有索引,甚至包括and一類別的引擎忽略的詞也有。結(jié)果可想而知,它理所當然成了唯一能在查找過程中返回是或者不是的查詢工具。即使不包含你所指定的關(guān)鍵字,Excite基于概念的索引也能夠幫助人們找到相關(guān)的頁。

找到匹配頁并不意味著查詢成功。一方面,數(shù)據(jù)庫的大小確定了它查到的匹配頁的多少,另一方面,索引質(zhì)量的好壞還要由有多少個匹配頁與你的查詢相關(guān)來確定。如我們通過每一個查詢引擎查找北卡羅來納三角地的房地產(chǎn)信息,然后算一算在ChapelHill地區(qū)有多少個與之相關(guān)的匹配頁數(shù)。據(jù)統(tǒng)計,Web的Crawler返回19個匹配頁,我們從InfoSeek上獲得200多個匹配頁。但是實際上19個當中只有9頁是我們所想要的東西。大多數(shù)InfoSeek的匹配頁與房地產(chǎn)有關(guān),但是又有許多東西與北卡羅來納沒有任何關(guān)系。

使用正確的工具

無論數(shù)據(jù)庫有多大,待查數(shù)據(jù)庫有多么復雜,查詢引擎是你進行檢索的獨一無二的好工具。

有時需要進行詞組的查詢,不同的數(shù)據(jù)庫處理詞組的方式不盡相同。InfoSeek用詞的主干部分來檢索與該部分匹配的頁,如欲查impressionism一詞,只需查找與impression匹配的頁即可。Lycos則將查詢項作為主干詞來處理,所以在這種引擎中,metal一詞就與metallic匹配。

有幾種引擎允許用戶檢索所有的詞組,而不只是檢索被查詢串的個別單詞,它們檢索串組合成詞組的偶然搭配。有兩種引擎可以查到一個詞組的多種變化,這兩個引擎是Aliweb(地址:web.nexor.co.uk/public/aliweb.html)和CUI的W3Catalog(地址:uiwww.unige.ch/w3catalog)。

另外,使用這些可用工具還有一個問題。在某些引擎中,允許用戶按指定的操作對用戶的查詢項求精。這將意味著在最基本的底層,你檢索到的地址包括待查串中的任何一個單詞或者項的全部,Lycos就是這樣進行的。其他一些引擎允許用戶使用更多的布爾項,如AND、OR,有時還用NOT。只有InfoSeek和OpenTextIndex兩個引擎允許用戶使用相近操作,它們允許你查詢與被查串相鄰的項。

使用這些可用的工具動態(tài)地增加了匹配頁的查詢質(zhì)量。例如,我們使用OpenTextIndex簡單查詢頁查找釀造小麥啤酒的秘訣,可以得到90個匹配頁,這里面只有很少的幾頁與自釀小麥啤酒有關(guān)(多數(shù)頁與飲酒有關(guān))。但當打開"Power"頁進行小麥啤酒秘訣的相鄰項查詢時,我們可得到6個匹配頁,其中有3個正是我們所需的東西。

分開有用和無用的信息當你獲得匹配頁表時,你的檢索工作才剛剛開始。你得將這些地址分類以找到你真正想要的東西,多數(shù)引擎可以在結(jié)果頁的頂部顯示它們確實已檢索到的詞。你可能已經(jīng)查找過好的、壞的和丑的東西,而檢索引擎也告訴你它確實是在查好的、壞的和丑的東西,記住一點,你可以通知許多引擎查找全部詞組,而不只是關(guān)鍵字。

多數(shù)引擎返回的匹配頁與查詢項密切相關(guān)。即使你獲得200個以上的匹配頁,你也不用擔心要將所有的頁都搜集起來,可能頂多你只需10個。不同的引擎采用不同的方法計算查詢頁的關(guān)聯(lián)度。InfoprSeek根據(jù)被查項在整個數(shù)據(jù)庫出現(xiàn)頻度相近的頁中出現(xiàn)的次數(shù)來排列匹配頁,Lycos則基于項在頁中的出現(xiàn)次數(shù)、與其他項的臨近度以及在頁中的位置來排列。

大多數(shù)引擎提供了匹配頁的幾種描述。在這方面Lycos是最佳的,它不僅提供了關(guān)聯(lián)的比率、每頁的描述,而且還有文本的簡單摘要。

人們只需閱讀一下摘要,就可以判斷是否是你需要找到的匹配頁。

元級檢索(Metasearching)

人們可能不大喜歡忙忙碌碌地從一個檢索引擎到另一個去查找想要的信息,那么你應該學習使用元級檢索地址。它們是幾個檢索引擎同時開始查詢得到的頁面。

有兩種頁面:SavvySearch(地址:www.cs.colostate.edu

/～dreiling/smartform.html)和MetaCrawler(地址:www.cs.

washington.edu/research/project/ai/metacrawler/www/home.h

tml),它們可同時在若干個引擎上查詢。SavvySearch還會覆蓋ArchiePlex(用于檢索FTP地址)和DejaNewws(用于檢索新聞組)。這種并行檢索引起的唯一問題是用戶訪問不到每一個引擎查詢工具,例如布爾和相近操作,用這種方法進行查詢就不如實際的詞匯查詢精確。

另一些元級檢索地址允許你在某一時間查詢一個主要引擎。用戶可以想用的引擎格式填寫并啟動它。這樣做也許會漏掉一些查詢工具,但是這些頁可被保留在文件上供將來快速查詢用。

查詢后的工作

前述工具你會喜歡用哪一種?這里,我們挑選了3種檢索引擎:Excite、InfoSeek及Lycos。這3種工具都提供了易于使用的界面,人們可以從中得到精確的結(jié)果。此外,我們還增加了一個目錄Yahoo。這是迄今我們用到的最完整的目錄,它提供了一個完美的缺省homepage。幸運的是這些工具經(jīng)常改進。InfoSeek已經(jīng)宣布計劃把一個目錄編入它的檢索地址。而OpenTextIndex也宣布計劃與Yahoo合作形成一個可能會令人吃驚的產(chǎn)品。

在開拓者的頭腦中,無論你最終使用哪一種工具,它們都會使得Web更有市場。

查找內(nèi)部消息Tips

一個檢索引擎數(shù)據(jù)庫實際上就是與URL地址有關(guān)的詞和詞組的索引。你要做的工作是查找與該索引匹配的詞。這里有幾條通用規(guī)則可便于用戶最大限度地進行查詢。

1.閱讀一下引擎的指令許多檢索引擎提供了自身的操作、定義符及規(guī)則集,這些東西有助于你進行高效查詢。試著用一用它們。

2.選擇不常用的詞檢索詞與其他詞的區(qū)別越大,對于加快搜索越有用。舉個例子,你檢索埃塞俄比亞彌猴科就比非洲的綠錢幣獲得的索引項要多。在檢索時,應盡量挑選能夠表達你意思的詞。

3.注意拼法如果你在查"astronut"一詞,你可以得到符合拼字正確要求的Web頁。對字符串形式看來很相似的詞,切記也要檢索一下該詞的合理變化,如你要查fly-fishing一詞,應該試試查flyfishing和flyfishing兩個詞。

4.同義詞記住,你可能查的是一個概念,而并非只是一個單詞。例如,如果你想查找有關(guān)背包徒步旅行的地址,在你的查詢中就應包含這些項:徒步旅行、乘牛車旅行、背包徒步旅行以及露營。

5.勿用自然語言某些地址支持自然語言的查詢,即允許用戶以說話的方式提問。不要去用這個功能,你要將焦點放在能夠識別你概念的術(shù)語和詞組上。

6.重復你查詢的東西在第一次查詢過后,回到你最有希望查找的匹配頁,把其他一些你可能會快速廣泛進行查詢的術(shù)語摘錄下來。

7.不要忘了NOT有一些查詢引擎支持NOT(非)操作,這個操作允許你進行輸入項的查詢。因此,你對非重非音樂的金屬進行查詢,就可以找到與工業(yè)金屬有關(guān)的地址,從而避免去金屬。

8.使用多個查詢引擎我們驚奇地發(fā)現(xiàn),用幾個不同的查詢引擎進行同一個查詢,查詢結(jié)果的重疊率很小。所以為了獲得最佳的查詢效果,盡量在多個地址上查詢。

9.試試使用專有地址如果你想查找某指定公司的Web頁,可以試試OpenMarketCommercialSites索引(其地址為:/)。同樣,如果你想查找政府的集中Web地址,可在Infomine(其地址為:http:/lib-www.ucr.edu/Main.html)上進行。如果你想查找Usenet新聞組,可以用InfoSeek或DejaNews(其地址為:/)。最后一點,如果想查找Internet上可卸載的文件,ArchiePlex(地址為:flosun.salk.edu/archieplex.html)便可助你一臂之力。

Internet的查詢工具使用論文

熱門標簽