網(wǎng)頁資源采集策略論文
時間:2022-03-12 08:36:00
導(dǎo)語:網(wǎng)頁資源采集策略論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
隨著網(wǎng)絡(luò)技術(shù)的日益發(fā)展,網(wǎng)絡(luò)信息資源正以人們難以想象的速度增長,網(wǎng)絡(luò)也日漸成為人們獲取信息的主要途徑之一。搜索引擎為人們從海量網(wǎng)絡(luò)信息資源中查找所需信息提供了便捷途徑,但由于其返回的信息資源在查準率和查全率上都無法得到保證,人們經(jīng)常會得到許多無用信息,反而降低了信息資源的使用效能。因此學科信息門戶順應(yīng)時展需要應(yīng)運而生,用戶可通過學科信息門戶快捷、有效地發(fā)現(xiàn)高質(zhì)量的網(wǎng)絡(luò)信息,同時使他們盡可能多地獲得有價值的信息和信息資源。本文認為高質(zhì)量學科信息門戶建設(shè)應(yīng)注重深層網(wǎng)頁資源的收集與整合利用,并應(yīng)重視深層網(wǎng)頁資源采集的方法與策略。
1學科門戶網(wǎng)站建設(shè)現(xiàn)狀
學科信息門戶(SubjectInformationGateway,SIG)是“提供可檢索和可瀏覽的互聯(lián)網(wǎng)資源目錄的聯(lián)機服務(wù)系統(tǒng),一般集中于某一相關(guān)的學科領(lǐng)域,提供對經(jīng)圖書館工作人員遴選和按學科組織的互聯(lián)網(wǎng)資源的利用。”[1]它致力于將特定學科領(lǐng)域的信息資源、工具與服務(wù)集成到一個整體中,為用戶提供一個方便的信息檢索和服務(wù)入口。從本質(zhì)上講,學科信息門戶是含有不同分類主題的網(wǎng)頁及相關(guān)鏈接的網(wǎng)上圖書館。主要特點是有較多的人工參與,通過質(zhì)量標準規(guī)范資源的選擇,并提供對資源的豐富描述;提供依據(jù)學科體系結(jié)構(gòu)和資源類型分類的瀏覽和檢索入口;有對資源的管理和長期發(fā)展的政策、元數(shù)據(jù)應(yīng)用與標引規(guī)范、資源共享與互操作機制等[2]。
自1996年DESIRE一期工程開始,學科信息門戶就在歐洲范圍內(nèi)逐漸普及,一大批面向數(shù)學、工程科學、醫(yī)學、社會科學的學科信息門戶相繼建立,到2001年DESIRE項目進入第二期時,學科信息門戶已經(jīng)在世界范圍內(nèi)呈“燎原”之勢,在美洲、歐洲、大洋洲廣泛實施。并且在2000年以后逐漸從單個的研究項目向大規(guī)模的建設(shè)項目轉(zhuǎn)化,模塊化的功能組件又使學科信息門戶呈現(xiàn)出豐富多彩的形態(tài),并且在組織上、商業(yè)模式上同其他的企業(yè)信息門戶、知識門戶相互交融,出現(xiàn)了形式和內(nèi)容的統(tǒng)一態(tài)勢[3]。國際上比較權(quán)威的學科信息門戶網(wǎng)站有英國的RDN、SOSIG,歐洲的RENARDUS,美國的LII等。
隨著國外大規(guī)模的學科信息門戶建設(shè)以及國內(nèi)學者對學科信息門戶的研究,學科信息門戶建設(shè)的思想和理念逐步為國內(nèi)業(yè)界接受。國內(nèi)最早是上海圖書館于1999年開始建設(shè)的“數(shù)字圖書館資源總匯表”,現(xiàn)在已發(fā)展成為“數(shù)字圖書館”資源門戶。2002年3月開始至今,在中科院知識創(chuàng)新工程科技基礎(chǔ)設(shè)施建設(shè)專項“國家科學數(shù)字圖書館(CSDL)項目”的子項目資助下,我國已建成的有生命科學、化學、數(shù)字物理、資源環(huán)境、圖書情報、長江流域資源生態(tài)環(huán)境、天然藥物、微生物、科技政策與管理等9個學科信息門戶和中心門戶[4]。熱點門戶是國家科技圖書文獻中心組織建設(shè)的一個網(wǎng)絡(luò)信息資源門戶類服務(wù)欄目,目前已建成納米科技、認知科學、食物與營養(yǎng)、艾滋病預(yù)防與控制等四個熱點門戶。其它的學科信息門戶還有武漢理工大學圖書館的“材料復(fù)合新技術(shù)信息門戶”,中國林業(yè)科學研究院科技信息所和中國林科院圖書館合作建設(shè)的“林業(yè)學科信息門戶”等。
國內(nèi)學科信息門戶在軟件平臺的完善性、數(shù)據(jù)標準化、數(shù)據(jù)共享性、高質(zhì)量信息資源數(shù)量、描述對象數(shù)量等方面存在著一定的不足[5],有些學科信息門戶缺乏高質(zhì)量的有效網(wǎng)絡(luò)信息資源。除材料復(fù)合新技術(shù)信息門戶、數(shù)字圖書館資源門戶、微生物特色學科信息門戶、青藏高原研究專題信息門戶等能管理網(wǎng)絡(luò)信息資源和本地實體信息資源外,其它門戶均只鏈接網(wǎng)絡(luò)信息資源。這種現(xiàn)狀不利于信息資源的整合、服務(wù)和信息資源開發(fā),不能適應(yīng)數(shù)字圖書館集成服務(wù)的發(fā)展方向,也不能滿足用戶對信息資源一站式服務(wù)的要求。
2深層網(wǎng)頁資源的價值
由于目前標準的搜索引擎只能發(fā)現(xiàn)互聯(lián)網(wǎng)上的靜態(tài)網(wǎng)頁并建立索引,無法對被深埋在動態(tài)產(chǎn)生的網(wǎng)站之下的大量信息資源進行搜索。因此,有許多信息由于其身處網(wǎng)絡(luò)深層而無法被發(fā)現(xiàn)。對于這些處在網(wǎng)絡(luò)深層的信息資源,有學者稱其為不可視網(wǎng)絡(luò)、隱蔽網(wǎng)絡(luò)[6](invisibleweb,hiddenweb)、深層網(wǎng)頁資源(DeepWeb,DeepInternet)[7]。
自1994年Dr.JillEllswonh提出Invisibleweb這個概念以來,國外針對深層網(wǎng)頁資源的研究相當熱烈,且成果眾多。內(nèi)容涉及理論研究、檢索軟件、搜索引擎等,形式有專著、論文、軟件及博客等。深層網(wǎng)頁資源的潛在價值及商機還引起了商界的重視,2004年9月14日下午,微軟亞洲研究院負責互聯(lián)網(wǎng)搜索和數(shù)據(jù)挖掘的馬維英向記者演示微軟在網(wǎng)絡(luò)搜索技術(shù)方面的三大新近展,其中一個就是從表層萬維網(wǎng)到深層萬維網(wǎng),充分利用大量隱藏的高質(zhì)量信息[7]。雅虎推出了“內(nèi)容獲取項目”,該項目意在為公共數(shù)據(jù)庫中的數(shù)十億個網(wǎng)頁提供搜索索引[8]。與此形成鮮明對比的是,國內(nèi)學者并不太重視這個問題,相關(guān)論述較少,極少有學科信息門戶網(wǎng)站將這部分極具學術(shù)研究價值的網(wǎng)絡(luò)信息資源作為特色信息資源加以收集整合。
根據(jù)BrightPlanet對深層網(wǎng)頁資源的范圍、數(shù)量及相關(guān)性調(diào)查結(jié)果表明,深層網(wǎng)頁資源有以下特點[9]:
(1)信息量大。深層網(wǎng)頁的信息量達7500TB,是WWW資源的400~550倍。它擁有近5500億個文檔,而表層網(wǎng)絡(luò)只有10億個。2000年深層網(wǎng)頁站點已超過20萬個,2004年達到30.7萬個,其中60個最大的深層網(wǎng)頁站點收集的信息約有750GB,超過表層網(wǎng)絡(luò)范圍40倍。
(2)利用率高。深層網(wǎng)頁站點的訪問率很高,月訪問量是表層網(wǎng)絡(luò)站點的150%,且經(jīng)常被其它網(wǎng)絡(luò)資源鏈接;但是許多典型的深層網(wǎng)頁站點不為大眾所熟知。
(3)發(fā)展迅速。深層網(wǎng)頁資源是互聯(lián)網(wǎng)上新生信息增長最大的一個種類,2000年~2004年間增長了3-7倍。
(4)信息質(zhì)量高。深層網(wǎng)頁站點傾向于學科范圍更狹窄、內(nèi)容更深入的方向發(fā)展。信息內(nèi)容與每個所需信息、市場及領(lǐng)域具有較高的關(guān)聯(lián)性,且大部分(54%)深層網(wǎng)頁資源存放在專題數(shù)據(jù)庫(topic-spe-cificdatabases)中,經(jīng)統(tǒng)計分析其高質(zhì)量內(nèi)容比表層網(wǎng)絡(luò)多1000-2000倍。
(5)免費開放。95%的深層網(wǎng)頁資源對公眾免費開放,即無需支付費用或訂購使用。付費資源前3位分別是DBTOnline、Lexis-Nexis和DIALOG,占付費資源的71%;免費開放資源的前3位分別是美國國家氣象數(shù)據(jù)中心(NationalClimaticDataCentre)、美國國家航空與宇航局(NASA)和美國國家海洋數(shù)據(jù)中心(NationalOceanographicDataCenter),占開放資源的92%。
因此,將這部分資源收集整理到學科信息門戶網(wǎng)站中來,有利于進一步提升學科信息門戶網(wǎng)站的學術(shù)指導(dǎo)價值、利用價值,對于當前學科門戶網(wǎng)站的建設(shè)是非常有意義的。
3深層網(wǎng)頁資源采集的方式
學科信息門戶建設(shè),要從大量的網(wǎng)絡(luò)資源中選出有價值的資源,要在較短的期限內(nèi)達到信息的規(guī)模效應(yīng),在人員的安排上僅靠有限的學科專家和相關(guān)的專業(yè)人員是難以達到預(yù)期目的的。因此,深層網(wǎng)頁資源的采集應(yīng)遵循多元化策略,主要可采取以下措施:
3.1人工采集
由工作人員查閱各種文獻、瀏覽互聯(lián)網(wǎng)或向有關(guān)專業(yè)人員請教獲得相應(yīng)的信息源,定期對這些信息源進行跟蹤檢索獲取數(shù)據(jù)。人工采集方式的工作效率較低,而且所收集的信息不全,帶有一定的隨機性和隨意性。常用的信息源有:(1)對公眾免費開放的數(shù)據(jù)庫資源,如PubMed、GenBank、DOAJ等。(2)目錄指南(directories),如Librarians''''IndextotheIntemet中的invisibleweb資源。(3)搜索“InvisibleWeb”的網(wǎng)站,如TheInvisibleWebDirectory、Directsearch、CompletPlanet(BrightPlanet公司經(jīng)營的網(wǎng)站)、InfoMine、等。(4)專業(yè)搜索引擎:Incywincy、Singingfish、GoogleNews、Scirus、Science.gov等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,檢索策略為“主題詞或關(guān)鍵詞+database”,這樣就可以搜索到這些搜索引擎所收錄的該主題詞或關(guān)鍵詞方面的相關(guān)數(shù)據(jù)庫鏈接。如toxicchemicalsdatabase。
3.2自動化采集
即利用蜘蛛或機器人自動到網(wǎng)站去搜索。由于絕大多數(shù)深層網(wǎng)頁資源為蜘蛛程序無法訪問或索引的數(shù)據(jù)庫,自動化采集深層網(wǎng)頁資源需要使用專門的深層網(wǎng)頁數(shù)據(jù)挖掘軟件。
門戶網(wǎng)站建設(shè)可計劃自行研發(fā)具有自主知識產(chǎn)權(quán)的深層網(wǎng)頁資源采集軟件,但技術(shù)難度較大,會占用學科門戶網(wǎng)站建設(shè)過程中大量的人力資源和財政資金,對普通圖書館或機構(gòu)來說不是最佳方案。另一種方式是采用專用商業(yè)軟件,這類軟件可實現(xiàn)對深層網(wǎng)頁資源的檢索,它可以將用戶的檢索請求同時推送到多個相關(guān)網(wǎng)絡(luò)數(shù)據(jù)庫中進行檢索,而后把結(jié)果送回給用戶。如BrightPlanet開發(fā)用于檢索深層網(wǎng)頁資源的專業(yè)軟件LexiBot2.0,用戶可將其下載到自己的計算機上,采用關(guān)鍵詞串檢索,可同時對2200多個網(wǎng)站和數(shù)據(jù)庫進行檢索,檢索過程可采用后臺操作模式,不影響用戶做另外事務(wù)。目前BrightPlanet公司已停止銷售該軟件,取而代之的是DQM2(BrightPlanet''''sDeepQueryManagerTM),可根據(jù)用戶的指令對超過70000個深層網(wǎng)頁專業(yè)數(shù)據(jù)庫同時進行檢索,并實時進行跟蹤和監(jiān)測為用戶返回最新研究進展提示,用戶也可根據(jù)自己的學科特色進行限制檢索,檢索到的結(jié)果可根據(jù)用戶需要進一步管理制作,后續(xù)資料可進行追加,是一個較為理想的門戶網(wǎng)站建設(shè)深層網(wǎng)頁資源采集軟件[10]。另外可供參考的還有普渡大學(PurdueUniversity)的EduMed,專門用于搜索醫(yī)學多媒體數(shù)據(jù)庫[11],該軟件前身是一個多媒體管理系統(tǒng)VDBMS。
自動化采集的工作效率較高,可以確保查全率。但所收集的資料良莠不齊,質(zhì)量難以保證,而且所收集的信息量太大,容易使系統(tǒng)難以承載。
3.3人機結(jié)合采集
充分利用網(wǎng)上自動漫游、自動跟蹤、自動分類和自動標引技術(shù),采用人機結(jié)合的方式,提高資源采集的效率,以適應(yīng)網(wǎng)絡(luò)信息變化快、更新迅速的要求。一方面工作人員可以對軟件定期收集來的資源進行嚴格的篩選評價以保證其質(zhì)量,另一方面可以制訂一系列專業(yè)學科的檢索策略,通過軟件有針對性收集網(wǎng)絡(luò)數(shù)據(jù)資源,并將收集到的資源用元數(shù)據(jù)的規(guī)范描述與提示后存放到數(shù)據(jù)庫中,以實現(xiàn)主題瀏覽查詢、資源類型瀏覽查詢和關(guān)鍵詞查詢等多種檢索方式。
3.4用戶推薦
成立學科信息門戶建設(shè)的志愿者,建立用戶推薦資源的機制和工具,方便用戶通過Web界面或E-mail等方式推薦有價值的學科信息。教學科研人員和各類信息用戶,既是信息的利用者,也是信息的挖掘者和發(fā)現(xiàn)者,我們應(yīng)積極鼓勵科研人員和各類用戶根據(jù)網(wǎng)站確立的標準推薦新資源和權(quán)威資源,同時設(shè)立“本周新資源推薦榜”、“月或季度新資源推薦榜”和“年度新資源推薦榜”等欄目,并對量多質(zhì)優(yōu)者進行獎勵。
4深層網(wǎng)頁資源的整合
4.1網(wǎng)絡(luò)導(dǎo)航
即以網(wǎng)絡(luò)導(dǎo)航的形式將深層網(wǎng)頁資源信息到學科信息門戶網(wǎng)站,用戶通過門戶網(wǎng)站提供的鏈接即可訪問相應(yīng)的深層網(wǎng)頁搜索引擎、目錄或數(shù)據(jù)庫。網(wǎng)絡(luò)資源的組織方法有按學科、資源類型、字順、主題樹和數(shù)據(jù)庫組織等,有學者認為后兩種方式相對科學、合理,用戶可通過主題瀏覽和關(guān)鍵詞查詢找到相應(yīng)的網(wǎng)絡(luò)資源[12]。
4.2深層網(wǎng)頁資源的跨庫檢索整合
這是一種基于系統(tǒng)的整合方法,通過檢索軟件可實現(xiàn)對多種不同結(jié)構(gòu)的數(shù)據(jù)庫同時檢索并返回檢索結(jié)果。這種跨平臺或異構(gòu)平臺的開發(fā)與應(yīng)用在國內(nèi)已有一定的發(fā)展,在圖書館數(shù)字資源的集成檢索系統(tǒng)方面成功案例較多,如CALLS和北京大學圖書館共同開發(fā)的統(tǒng)一檢索平臺,該平臺提供了基于異構(gòu)系統(tǒng)的跨庫檢索服務(wù),用戶可按學科、按數(shù)據(jù)庫名稱、按文種同時檢索多個平臺上的多種資源,輸入一個檢索式,便可以看到多個數(shù)據(jù)庫的查詢結(jié)果,并可進一步得到詳細記錄和下載全文。目前,國內(nèi)的微生物特色學科信息門戶的數(shù)據(jù)庫集成檢索引擎實現(xiàn)了網(wǎng)絡(luò)數(shù)據(jù)庫跨庫檢索,它可對945個生物信息學熱門數(shù)據(jù)庫同時進行跨庫整合檢索。4.3深層網(wǎng)頁資源的保存
由于網(wǎng)絡(luò)資源的動態(tài)性,許多有價值的網(wǎng)站信息稍縱即逝,如果不加以及時保存這些信息將無法找到和再現(xiàn)。學科信息門戶網(wǎng)站如能根據(jù)學科專業(yè)特點保存相應(yīng)的深層網(wǎng)頁資源,以某種方式呈現(xiàn)給本學科專業(yè)用戶,不僅可對這部分資源起到保存作用,而且能夠提高深層網(wǎng)頁資源的利用率實現(xiàn)其真正價值。
通過自動化采集軟件獲得的深層網(wǎng)頁資源,其保存是一種基于數(shù)據(jù)的整合方式,核心是數(shù)據(jù)加工要標準化,與其它網(wǎng)絡(luò)數(shù)據(jù)的組織和處理要同步接軌,也就是要將廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)加工處理的元數(shù)據(jù)應(yīng)用到深層網(wǎng)頁資源中來,這樣有利于整個學科信息門戶資源的統(tǒng)一整合利用。2003年度ALCTS(AssociationforLibraryCollection&TechnicalService)的年度會議項目“MetadataHarvesting:UsingtheOpenArchivesInitiativeProtocoltoExposetheDeepWeb”,提出利用OAI協(xié)議把元數(shù)據(jù)的思想應(yīng)用于深層網(wǎng)頁,利用元數(shù)據(jù)來標注深層網(wǎng)頁資源,可獲得更高的檢索效率[13]。這個會議精神給學科門戶網(wǎng)站建設(shè)過程中開展深層網(wǎng)頁資源的整合工作提供了技術(shù)設(shè)想。
對深層網(wǎng)頁資源進行加工整合應(yīng)遵循以下策略:(1)標準化策略。要求提供規(guī)范和深入的知識化描述,能夠支持開發(fā)集成和個性化定制服務(wù)。標準化是實現(xiàn)跨學科信息門戶互操作和數(shù)據(jù)共享的基礎(chǔ),是實現(xiàn)學科門戶可持續(xù)發(fā)展的必然要求。(2)開放性策略。要求在信息結(jié)構(gòu)、元數(shù)據(jù)描述、知識組織體系、用戶界面、用戶使用后管理等各個層面具有良好的開放性機制,支持個性化定制和開放集成。(3)及時性策略。要求信息的更新和維護必須及時、準確、有效。(4)權(quán)威性策略。要求優(yōu)化選擇學科信息門戶的深層網(wǎng)頁資源,以保證門戶的資源質(zhì)量。
4.4深層網(wǎng)頁資源整合涉及的法律問題
因為主頁對網(wǎng)站的重要性不可低估,人們習慣于將重要的廣告放置在主頁上,以此實現(xiàn)應(yīng)有的點擊率和廣告收入。而深層網(wǎng)頁資源在學科門戶網(wǎng)站上的鏈接是直接進入他人網(wǎng)站目的網(wǎng)頁的深層鏈接。這種鏈接跳過主頁,直接進入信息所在頁面,導(dǎo)致受眾不易辨認信息的真正來源,即使文末注明作者,有學者認為也會侵害被鏈接網(wǎng)站的權(quán)利[14]。另一種學者的觀點是,深層鏈接并不會必然導(dǎo)致直接侵犯版權(quán)。由鏈接引起的版權(quán)侵權(quán)糾紛,主要涉及是否對作品專有使用權(quán)(復(fù)制權(quán)、發(fā)行權(quán)、改編權(quán)、傳播權(quán))構(gòu)成侵犯。
對于網(wǎng)站之間相互設(shè)立鏈接及網(wǎng)頁資源的保存問題,我國尚無具體的法律規(guī)范。深層鏈接是否會侵犯版權(quán),在我國也屬于理論探討階段。作者認為,盡管95%的深層網(wǎng)頁資源屬于免費開放資源,本著為學科信息門戶順利健康發(fā)展的宗旨,學科信息門戶網(wǎng)站的建設(shè)和服務(wù)應(yīng)在法律框架內(nèi)進行。
4.5解決方案
設(shè)置鏈接前事先征求被鏈者的意愿。盡管可以依據(jù)“默示同意原則”,為避免糾紛,設(shè)鏈者在設(shè)置鏈接前還是事先通知被鏈接網(wǎng)站為宜。如果后者在合理時間內(nèi)沒有明確表示反對,則視為默認鏈接[15]。采用深層鏈接的情況下,建議在設(shè)置鏈接的文字表述時盡量寫明是指向哪個網(wǎng)站的頁面,以聲明自己并非直接在使用這個網(wǎng)頁。
資源采集時注意網(wǎng)頁版權(quán)聲明項,如注有不得轉(zhuǎn)載使用這之類說明的網(wǎng)頁資源不加以收集。若采用軟件自動搜索,則要加有關(guān)這方面的濾過系統(tǒng)。
同時,國家應(yīng)盡快出臺相關(guān)政策法規(guī),對國家圖書館、公共圖書館及其他相關(guān)圖書館在網(wǎng)絡(luò)信息的復(fù)制、編輯、保存和服務(wù)權(quán)限方面給予立法支持。
【參考文獻】
1WhatisSubjectGateway?/html/subjectgateways/subjectgateways.html
2張曉林.分布式學科信息門戶中網(wǎng)絡(luò)信息導(dǎo)航系統(tǒng)的規(guī)范建設(shè).大學圖書館學報,2002(5):28-33
3毛軍.學科信息門戶發(fā)展現(xiàn)狀綜述.圖書情報工作動態(tài),2002(3):20-22
4中國科學院國家科學數(shù)字圖書館在建項目略.159.226.100.51:8080/projectcenter/Scibulletin-list.jsp
5王丹,潘淑春.國內(nèi)外數(shù)字圖書館專業(yè)信息門戶網(wǎng)站現(xiàn)狀與發(fā)展趨勢.農(nóng)業(yè)圖書情報學刊,2003(5):42-45
6吳志強,嚴貝妮.從隱蔽網(wǎng)絡(luò)到國際互聯(lián)網(wǎng)信息資源控制計劃.圖書情報工作,2004(4):80-81,86
7微軟搜索引擎突曝光亞洲研究院實現(xiàn)戰(zhàn)略調(diào)整./news/newstopic/17/17463.shtml
8雅虎新一輪對戰(zhàn)Google搜索服務(wù)進軍互聯(lián)網(wǎng)深處/news/net/story/0,3800050307,39213565,00.htm
9MichaelKBergman.TheDeepWeb:SurfacingHiddenValue.www.press.umich.edu/jep/07-01/bergman.Html
10/products/dqm.asp
11www.cs.purdue.edu/vdbms
12毛娟.網(wǎng)上免費資源的收集與整理.圖書館雜志,2004,23(7):24-28
13袁順波.隱蔽網(wǎng)絡(luò)及應(yīng)對策略研究./eprint/Upload/2005/1112714455561.doc
14董永森.深層鏈接引起的侵權(quán)責任——評析外匯幣種走勢圖引發(fā)的侵權(quán)糾紛案./second/article,asp?artno=366
15趙麗梅.鏈接引發(fā)的法律問題探析./second/article.asp?artno=370