議搜索引擎按其工作方式不同的三種分類及其各自的特點探析
時間:2022-03-31 10:25:00
導語:議搜索引擎按其工作方式不同的三種分類及其各自的特點探析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
[摘要]隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)的迅速普及,搜索引擎在網(wǎng)絡(luò)用戶的生活中扮演著越來越重要的地位,本文就爬蟲式的搜索引擎、目錄搜索引擎和元搜索引擎做了詳盡的分析比較,并對目前的搜索引擎的特點進行了描述。
[關(guān)鍵詞]搜索引擎分類爬蟲元搜索引擎
目前Internet上的搜索引擎按其工作方式主要可分為三種,分別是爬蟲式的搜索引擎(SpiderBasedSearchEngine),目錄搜索引擎(SearchDirectory)和元搜索引擎(MetaSearchEngine)。
一、爬蟲式的搜索引擎
基于爬蟲(也叫Spider)的搜索引擎利用一個稱為Spider的程序自動訪問Web站點,提取站點上的網(wǎng)頁,并根據(jù)網(wǎng)頁中的鏈接進一步提取其它網(wǎng)頁或轉(zhuǎn)移到其它站點上。Robot搜集的網(wǎng)頁被加入到搜索引擎的數(shù)據(jù)庫中供用戶查詢使用?;赟pider的搜索引擎山三個主要部分構(gòu)成Spider,Index和搜索軟件。爬蟲從一個事先制定好的URLs列表出發(fā),這個列表中的URLs通常是從以往訪問記錄中提取出來的,特別是一些熱門站點和“What''''sNew”網(wǎng)頁,從Usenet等地方檢索得到的URLs也常被用作起始URLs,很多搜索引擎還接受用戶提交的URLs,這些URLs也會被安排在列表中供爬蟲問列表中,如此遞歸地訪問Web。
爬蟲作為一個程序,可以用C,Perl,Java等語言來編寫,可以運行在Unix,Solaris,Windows,NT,OS2和MAC等平臺上。爬蟲設(shè)計是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質(zhì)量,另外在設(shè)計爬蟲時還必須考慮它對網(wǎng)絡(luò)和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度比較慢的目標站點,就有可能會導致該站點出現(xiàn)阻塞甚至當機。Robot還應遵守一些協(xié)議,以便被訪問站點的管理員能夠確定哪些內(nèi)容能被訪問,哪些不能。Index是一個龐大的數(shù)據(jù)庫,爬蟲提取的網(wǎng)頁將被放入到Index中以便建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內(nèi)容,還有的能處理HTML文件中的META標記或其它小可見的特殊標記。當用戶查詢一個關(guān)鍵詞時,搜索軟件將搜索Index,找出所有與關(guān)鍵詞相符合的網(wǎng)頁,有時候這些網(wǎng)頁可能有成千上萬,等級值的用途就是作為一種排序的依據(jù),搜索軟件將按照等級值從高到低的順序把搜索結(jié)果送回到用戶的瀏覽器中。
這類搜索引擎因為依靠程序搜集數(shù)據(jù),所以其數(shù)據(jù)庫相當龐大,搜索的結(jié)果查全率較高,但查準率較低。例如著名的搜索引擎Google,Baidu,A1taVista,InfoSeek等。
二、目錄搜索引擎
目錄搜索引擎的數(shù)據(jù)庫是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預先分好的類別,把站點的URL和描述放在這個類別中,當用戶查詢某個關(guān)鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當目錄的編輯人員認可該網(wǎng)站及描述后,就會將之添加到合適的類別中。目錄的結(jié)構(gòu)為樹形結(jié)構(gòu),首頁提供了最基本的幾個大類的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞。不過,由于目錄式搜索引擎只在保存了對站點的描述中進行搜索,因此站點本身的動態(tài)變化不會反映到搜索結(jié)果中來,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的一大區(qū)別。
三、元搜索引擎
元搜索引擎也叫做MultipleSearchEngine,元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結(jié)果進行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫。嚴格意義上來講,元搜索引擎只能算是一種用戶,而不是真正的搜索引擎。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時,只提取出每個搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,因此最后結(jié)果的數(shù)量可能會遠少于直接在一個搜索引擎上進行查找所得到的數(shù)量。
元搜索引擎實現(xiàn)起比較簡單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問少數(shù)幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常''''常會出現(xiàn)錯誤。著名的元搜索引擎有InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表)。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
在這幾中檢索工具中,目錄式搜索引擎雖有成本高,信息t少的缺點,但它的信息準確這一優(yōu)點是另二者所無法比擬的,故在一定的領(lǐng)域,一定的時間,它仍會被使用:機器人搜索引擎是當前各種搜索引擎的主流;但隨著網(wǎng)絡(luò)信息量的不斷增加,單一的搜索引擎已經(jīng)難已滿足其要求,結(jié)合目錄式搜索引擎,機器人搜索引擎的優(yōu)勢,以元搜索引擎核心的多層搜索引擎是搜索引擎的發(fā)展方向。
搜索引擎技術(shù)從出現(xiàn)至今已獲得了飛速的發(fā)展,現(xiàn)在的搜索引擎功能越來越強大,提供的服務(wù)也越來越全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點。
目前的搜索引擎主要有以下幾個主要特點:
1.多樣化和個性化的服務(wù)。現(xiàn)在絕大多數(shù)搜索引擎都提供多樣化的服務(wù),以吸引更多的用戶,商業(yè)搜索引擎尤其注重這一點。以Yahoo為例,用戶可以從它的首頁中查看新聞,金融證券,天氣預報等信息,還可以進行網(wǎng)上購物,拍賣或者使用Email等服務(wù)。可以說多樣化和個性化的服務(wù)既滿足了用戶更多的需求,也為搜索引擎網(wǎng)站帶來了更多的利潤。
2.強大的查詢功能。與最早的搜索引擎相比,現(xiàn)在的搜索引擎在查詢功能方面已有了很大的改進。除了簡單的AND,OR和NOT邏輯外,不少搜索引擎還支持相似查詢,例如AltaVista,Lycos等支持短語查
詢,AltaVista的高級搜索功能支持NEAR邏輯等。
3.目錄和基于Robot的搜索引擎相互結(jié)合。目錄和基于Robot的搜索引擎都具有自己的特點,在當前的技術(shù)條件下,最好的選擇是將兩種技術(shù)進行結(jié)合,同時為用戶提供這兩種類型的服務(wù)。以Yahoo為例,用戶既可以進行分類網(wǎng)站查詢也可以進行全部網(wǎng)頁查詢,這兩種不同的查詢方式很好的滿足了不同用戶的需求。雖然搜索引擎已經(jīng)為用戶提供了快捷和便利的服務(wù),但是也存在著許多問題和不足。特別是在系統(tǒng)的穩(wěn)定性,速度,易用性和返回的信息量及相關(guān)度方面還與人們的要求存在著一定的差距,搜索引擎技術(shù)的發(fā)展任重而道遠。
參考文獻:
[1]劉建國.搜索引擎概述.北京大學計算機與科學技術(shù),1999,(10):200.
[2]李曉明,劉建國.搜索引擎技術(shù)及趨勢.大學圖書館學報.2000,(16).
- 上一篇:小議全媒體語境電視編輯的角色
- 下一篇:行政事業(yè)單位會計集中核算透析