網(wǎng)頁(yè)資源采集策略論文
時(shí)間:2022-03-12 08:36:00
導(dǎo)語(yǔ):網(wǎng)頁(yè)資源采集策略論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
隨著網(wǎng)絡(luò)技術(shù)的日益發(fā)展,網(wǎng)絡(luò)信息資源正以人們難以想象的速度增長(zhǎng),網(wǎng)絡(luò)也日漸成為人們獲取信息的主要途徑之一。搜索引擎為人們從海量網(wǎng)絡(luò)信息資源中查找所需信息提供了便捷途徑,但由于其返回的信息資源在查準(zhǔn)率和查全率上都無(wú)法得到保證,人們經(jīng)常會(huì)得到許多無(wú)用信息,反而降低了信息資源的使用效能。因此學(xué)科信息門(mén)戶順應(yīng)時(shí)展需要應(yīng)運(yùn)而生,用戶可通過(guò)學(xué)科信息門(mén)戶快捷、有效地發(fā)現(xiàn)高質(zhì)量的網(wǎng)絡(luò)信息,同時(shí)使他們盡可能多地獲得有價(jià)值的信息和信息資源。本文認(rèn)為高質(zhì)量學(xué)科信息門(mén)戶建設(shè)應(yīng)注重深層網(wǎng)頁(yè)資源的收集與整合利用,并應(yīng)重視深層網(wǎng)頁(yè)資源采集的方法與策略。
1學(xué)科門(mén)戶網(wǎng)站建設(shè)現(xiàn)狀
學(xué)科信息門(mén)戶(SubjectInformationGateway,SIG)是“提供可檢索和可瀏覽的互聯(lián)網(wǎng)資源目錄的聯(lián)機(jī)服務(wù)系統(tǒng),一般集中于某一相關(guān)的學(xué)科領(lǐng)域,提供對(duì)經(jīng)圖書(shū)館工作人員遴選和按學(xué)科組織的互聯(lián)網(wǎng)資源的利用?!盵1]它致力于將特定學(xué)科領(lǐng)域的信息資源、工具與服務(wù)集成到一個(gè)整體中,為用戶提供一個(gè)方便的信息檢索和服務(wù)入口。從本質(zhì)上講,學(xué)科信息門(mén)戶是含有不同分類主題的網(wǎng)頁(yè)及相關(guān)鏈接的網(wǎng)上圖書(shū)館。主要特點(diǎn)是有較多的人工參與,通過(guò)質(zhì)量標(biāo)準(zhǔn)規(guī)范資源的選擇,并提供對(duì)資源的豐富描述;提供依據(jù)學(xué)科體系結(jié)構(gòu)和資源類型分類的瀏覽和檢索入口;有對(duì)資源的管理和長(zhǎng)期發(fā)展的政策、元數(shù)據(jù)應(yīng)用與標(biāo)引規(guī)范、資源共享與互操作機(jī)制等[2]。
自1996年DESIRE一期工程開(kāi)始,學(xué)科信息門(mén)戶就在歐洲范圍內(nèi)逐漸普及,一大批面向數(shù)學(xué)、工程科學(xué)、醫(yī)學(xué)、社會(huì)科學(xué)的學(xué)科信息門(mén)戶相繼建立,到2001年DESIRE項(xiàng)目進(jìn)入第二期時(shí),學(xué)科信息門(mén)戶已經(jīng)在世界范圍內(nèi)呈“燎原”之勢(shì),在美洲、歐洲、大洋洲廣泛實(shí)施。并且在2000年以后逐漸從單個(gè)的研究項(xiàng)目向大規(guī)模的建設(shè)項(xiàng)目轉(zhuǎn)化,模塊化的功能組件又使學(xué)科信息門(mén)戶呈現(xiàn)出豐富多彩的形態(tài),并且在組織上、商業(yè)模式上同其他的企業(yè)信息門(mén)戶、知識(shí)門(mén)戶相互交融,出現(xiàn)了形式和內(nèi)容的統(tǒng)一態(tài)勢(shì)[3]。國(guó)際上比較權(quán)威的學(xué)科信息門(mén)戶網(wǎng)站有英國(guó)的RDN、SOSIG,歐洲的RENARDUS,美國(guó)的LII等。
隨著國(guó)外大規(guī)模的學(xué)科信息門(mén)戶建設(shè)以及國(guó)內(nèi)學(xué)者對(duì)學(xué)科信息門(mén)戶的研究,學(xué)科信息門(mén)戶建設(shè)的思想和理念逐步為國(guó)內(nèi)業(yè)界接受。國(guó)內(nèi)最早是上海圖書(shū)館于1999年開(kāi)始建設(shè)的“數(shù)字圖書(shū)館資源總匯表”,現(xiàn)在已發(fā)展成為“數(shù)字圖書(shū)館”資源門(mén)戶。2002年3月開(kāi)始至今,在中科院知識(shí)創(chuàng)新工程科技基礎(chǔ)設(shè)施建設(shè)專項(xiàng)“國(guó)家科學(xué)數(shù)字圖書(shū)館(CSDL)項(xiàng)目”的子項(xiàng)目資助下,我國(guó)已建成的有生命科學(xué)、化學(xué)、數(shù)字物理、資源環(huán)境、圖書(shū)情報(bào)、長(zhǎng)江流域資源生態(tài)環(huán)境、天然藥物、微生物、科技政策與管理等9個(gè)學(xué)科信息門(mén)戶和中心門(mén)戶[4]。熱點(diǎn)門(mén)戶是國(guó)家科技圖書(shū)文獻(xiàn)中心組織建設(shè)的一個(gè)網(wǎng)絡(luò)信息資源門(mén)戶類服務(wù)欄目,目前已建成納米科技、認(rèn)知科學(xué)、食物與營(yíng)養(yǎng)、艾滋病預(yù)防與控制等四個(gè)熱點(diǎn)門(mén)戶。其它的學(xué)科信息門(mén)戶還有武漢理工大學(xué)圖書(shū)館的“材料復(fù)合新技術(shù)信息門(mén)戶”,中國(guó)林業(yè)科學(xué)研究院科技信息所和中國(guó)林科院圖書(shū)館合作建設(shè)的“林業(yè)學(xué)科信息門(mén)戶”等。
國(guó)內(nèi)學(xué)科信息門(mén)戶在軟件平臺(tái)的完善性、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)共享性、高質(zhì)量信息資源數(shù)量、描述對(duì)象數(shù)量等方面存在著一定的不足[5],有些學(xué)科信息門(mén)戶缺乏高質(zhì)量的有效網(wǎng)絡(luò)信息資源。除材料復(fù)合新技術(shù)信息門(mén)戶、數(shù)字圖書(shū)館資源門(mén)戶、微生物特色學(xué)科信息門(mén)戶、青藏高原研究專題信息門(mén)戶等能管理網(wǎng)絡(luò)信息資源和本地實(shí)體信息資源外,其它門(mén)戶均只鏈接網(wǎng)絡(luò)信息資源。這種現(xiàn)狀不利于信息資源的整合、服務(wù)和信息資源開(kāi)發(fā),不能適應(yīng)數(shù)字圖書(shū)館集成服務(wù)的發(fā)展方向,也不能滿足用戶對(duì)信息資源一站式服務(wù)的要求。
2深層網(wǎng)頁(yè)資源的價(jià)值
由于目前標(biāo)準(zhǔn)的搜索引擎只能發(fā)現(xiàn)互聯(lián)網(wǎng)上的靜態(tài)網(wǎng)頁(yè)并建立索引,無(wú)法對(duì)被深埋在動(dòng)態(tài)產(chǎn)生的網(wǎng)站之下的大量信息資源進(jìn)行搜索。因此,有許多信息由于其身處網(wǎng)絡(luò)深層而無(wú)法被發(fā)現(xiàn)。對(duì)于這些處在網(wǎng)絡(luò)深層的信息資源,有學(xué)者稱其為不可視網(wǎng)絡(luò)、隱蔽網(wǎng)絡(luò)[6](invisibleweb,hiddenweb)、深層網(wǎng)頁(yè)資源(DeepWeb,DeepInternet)[7]。
自1994年Dr.JillEllswonh提出Invisibleweb這個(gè)概念以來(lái),國(guó)外針對(duì)深層網(wǎng)頁(yè)資源的研究相當(dāng)熱烈,且成果眾多。內(nèi)容涉及理論研究、檢索軟件、搜索引擎等,形式有專著、論文、軟件及博客等。深層網(wǎng)頁(yè)資源的潛在價(jià)值及商機(jī)還引起了商界的重視,2004年9月14日下午,微軟亞洲研究院負(fù)責(zé)互聯(lián)網(wǎng)搜索和數(shù)據(jù)挖掘的馬維英向記者演示微軟在網(wǎng)絡(luò)搜索技術(shù)方面的三大新近展,其中一個(gè)就是從表層萬(wàn)維網(wǎng)到深層萬(wàn)維網(wǎng),充分利用大量隱藏的高質(zhì)量信息[7]。雅虎推出了“內(nèi)容獲取項(xiàng)目”,該項(xiàng)目意在為公共數(shù)據(jù)庫(kù)中的數(shù)十億個(gè)網(wǎng)頁(yè)提供搜索索引[8]。與此形成鮮明對(duì)比的是,國(guó)內(nèi)學(xué)者并不太重視這個(gè)問(wèn)題,相關(guān)論述較少,極少有學(xué)科信息門(mén)戶網(wǎng)站將這部分極具學(xué)術(shù)研究?jī)r(jià)值的網(wǎng)絡(luò)信息資源作為特色信息資源加以收集整合。
根據(jù)BrightPlanet對(duì)深層網(wǎng)頁(yè)資源的范圍、數(shù)量及相關(guān)性調(diào)查結(jié)果表明,深層網(wǎng)頁(yè)資源有以下特點(diǎn)[9]:
(1)信息量大。深層網(wǎng)頁(yè)的信息量達(dá)7500TB,是WWW資源的400~550倍。它擁有近5500億個(gè)文檔,而表層網(wǎng)絡(luò)只有10億個(gè)。2000年深層網(wǎng)頁(yè)站點(diǎn)已超過(guò)20萬(wàn)個(gè),2004年達(dá)到30.7萬(wàn)個(gè),其中60個(gè)最大的深層網(wǎng)頁(yè)站點(diǎn)收集的信息約有750GB,超過(guò)表層網(wǎng)絡(luò)范圍40倍。
(2)利用率高。深層網(wǎng)頁(yè)站點(diǎn)的訪問(wèn)率很高,月訪問(wèn)量是表層網(wǎng)絡(luò)站點(diǎn)的150%,且經(jīng)常被其它網(wǎng)絡(luò)資源鏈接;但是許多典型的深層網(wǎng)頁(yè)站點(diǎn)不為大眾所熟知。
(3)發(fā)展迅速。深層網(wǎng)頁(yè)資源是互聯(lián)網(wǎng)上新生信息增長(zhǎng)最大的一個(gè)種類,2000年~2004年間增長(zhǎng)了3-7倍。
(4)信息質(zhì)量高。深層網(wǎng)頁(yè)站點(diǎn)傾向于學(xué)科范圍更狹窄、內(nèi)容更深入的方向發(fā)展。信息內(nèi)容與每個(gè)所需信息、市場(chǎng)及領(lǐng)域具有較高的關(guān)聯(lián)性,且大部分(54%)深層網(wǎng)頁(yè)資源存放在專題數(shù)據(jù)庫(kù)(topic-spe-cificdatabases)中,經(jīng)統(tǒng)計(jì)分析其高質(zhì)量?jī)?nèi)容比表層網(wǎng)絡(luò)多1000-2000倍。
(5)免費(fèi)開(kāi)放。95%的深層網(wǎng)頁(yè)資源對(duì)公眾免費(fèi)開(kāi)放,即無(wú)需支付費(fèi)用或訂購(gòu)使用。付費(fèi)資源前3位分別是DBTOnline、Lexis-Nexis和DIALOG,占付費(fèi)資源的71%;免費(fèi)開(kāi)放資源的前3位分別是美國(guó)國(guó)家氣象數(shù)據(jù)中心(NationalClimaticDataCentre)、美國(guó)國(guó)家航空與宇航局(NASA)和美國(guó)國(guó)家海洋數(shù)據(jù)中心(NationalOceanographicDataCenter),占開(kāi)放資源的92%。
因此,將這部分資源收集整理到學(xué)科信息門(mén)戶網(wǎng)站中來(lái),有利于進(jìn)一步提升學(xué)科信息門(mén)戶網(wǎng)站的學(xué)術(shù)指導(dǎo)價(jià)值、利用價(jià)值,對(duì)于當(dāng)前學(xué)科門(mén)戶網(wǎng)站的建設(shè)是非常有意義的。
3深層網(wǎng)頁(yè)資源采集的方式
學(xué)科信息門(mén)戶建設(shè),要從大量的網(wǎng)絡(luò)資源中選出有價(jià)值的資源,要在較短的期限內(nèi)達(dá)到信息的規(guī)模效應(yīng),在人員的安排上僅靠有限的學(xué)科專家和相關(guān)的專業(yè)人員是難以達(dá)到預(yù)期目的的。因此,深層網(wǎng)頁(yè)資源的采集應(yīng)遵循多元化策略,主要可采取以下措施:
3.1人工采集
由工作人員查閱各種文獻(xiàn)、瀏覽互聯(lián)網(wǎng)或向有關(guān)專業(yè)人員請(qǐng)教獲得相應(yīng)的信息源,定期對(duì)這些信息源進(jìn)行跟蹤檢索獲取數(shù)據(jù)。人工采集方式的工作效率較低,而且所收集的信息不全,帶有一定的隨機(jī)性和隨意性。常用的信息源有:(1)對(duì)公眾免費(fèi)開(kāi)放的數(shù)據(jù)庫(kù)資源,如PubMed、GenBank、DOAJ等。(2)目錄指南(directories),如Librarians''''IndextotheIntemet中的invisibleweb資源。(3)搜索“InvisibleWeb”的網(wǎng)站,如TheInvisibleWebDirectory、Directsearch、CompletPlanet(BrightPlanet公司經(jīng)營(yíng)的網(wǎng)站)、InfoMine、等。(4)專業(yè)搜索引擎:Incywincy、Singingfish、GoogleNews、Scirus、Science.gov等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,檢索策略為“主題詞或關(guān)鍵詞+database”,這樣就可以搜索到這些搜索引擎所收錄的該主題詞或關(guān)鍵詞方面的相關(guān)數(shù)據(jù)庫(kù)鏈接。如toxicchemicalsdatabase。
3.2自動(dòng)化采集
即利用蜘蛛或機(jī)器人自動(dòng)到網(wǎng)站去搜索。由于絕大多數(shù)深層網(wǎng)頁(yè)資源為蜘蛛程序無(wú)法訪問(wèn)或索引的數(shù)據(jù)庫(kù),自動(dòng)化采集深層網(wǎng)頁(yè)資源需要使用專門(mén)的深層網(wǎng)頁(yè)數(shù)據(jù)挖掘軟件。
門(mén)戶網(wǎng)站建設(shè)可計(jì)劃自行研發(fā)具有自主知識(shí)產(chǎn)權(quán)的深層網(wǎng)頁(yè)資源采集軟件,但技術(shù)難度較大,會(huì)占用學(xué)科門(mén)戶網(wǎng)站建設(shè)過(guò)程中大量的人力資源和財(cái)政資金,對(duì)普通圖書(shū)館或機(jī)構(gòu)來(lái)說(shuō)不是最佳方案。另一種方式是采用專用商業(yè)軟件,這類軟件可實(shí)現(xiàn)對(duì)深層網(wǎng)頁(yè)資源的檢索,它可以將用戶的檢索請(qǐng)求同時(shí)推送到多個(gè)相關(guān)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中進(jìn)行檢索,而后把結(jié)果送回給用戶。如BrightPlanet開(kāi)發(fā)用于檢索深層網(wǎng)頁(yè)資源的專業(yè)軟件LexiBot2.0,用戶可將其下載到自己的計(jì)算機(jī)上,采用關(guān)鍵詞串檢索,可同時(shí)對(duì)2200多個(gè)網(wǎng)站和數(shù)據(jù)庫(kù)進(jìn)行檢索,檢索過(guò)程可采用后臺(tái)操作模式,不影響用戶做另外事務(wù)。目前BrightPlanet公司已停止銷售該軟件,取而代之的是DQM2(BrightPlanet''''sDeepQueryManagerTM),可根據(jù)用戶的指令對(duì)超過(guò)70000個(gè)深層網(wǎng)頁(yè)專業(yè)數(shù)據(jù)庫(kù)同時(shí)進(jìn)行檢索,并實(shí)時(shí)進(jìn)行跟蹤和監(jiān)測(cè)為用戶返回最新研究進(jìn)展提示,用戶也可根據(jù)自己的學(xué)科特色進(jìn)行限制檢索,檢索到的結(jié)果可根據(jù)用戶需要進(jìn)一步管理制作,后續(xù)資料可進(jìn)行追加,是一個(gè)較為理想的門(mén)戶網(wǎng)站建設(shè)深層網(wǎng)頁(yè)資源采集軟件[10]。另外可供參考的還有普渡大學(xué)(PurdueUniversity)的EduMed,專門(mén)用于搜索醫(yī)學(xué)多媒體數(shù)據(jù)庫(kù)[11],該軟件前身是一個(gè)多媒體管理系統(tǒng)VDBMS。
自動(dòng)化采集的工作效率較高,可以確保查全率。但所收集的資料良莠不齊,質(zhì)量難以保證,而且所收集的信息量太大,容易使系統(tǒng)難以承載。
3.3人機(jī)結(jié)合采集
充分利用網(wǎng)上自動(dòng)漫游、自動(dòng)跟蹤、自動(dòng)分類和自動(dòng)標(biāo)引技術(shù),采用人機(jī)結(jié)合的方式,提高資源采集的效率,以適應(yīng)網(wǎng)絡(luò)信息變化快、更新迅速的要求。一方面工作人員可以對(duì)軟件定期收集來(lái)的資源進(jìn)行嚴(yán)格的篩選評(píng)價(jià)以保證其質(zhì)量,另一方面可以制訂一系列專業(yè)學(xué)科的檢索策略,通過(guò)軟件有針對(duì)性收集網(wǎng)絡(luò)數(shù)據(jù)資源,并將收集到的資源用元數(shù)據(jù)的規(guī)范描述與提示后存放到數(shù)據(jù)庫(kù)中,以實(shí)現(xiàn)主題瀏覽查詢、資源類型瀏覽查詢和關(guān)鍵詞查詢等多種檢索方式。
3.4用戶推薦
成立學(xué)科信息門(mén)戶建設(shè)的志愿者,建立用戶推薦資源的機(jī)制和工具,方便用戶通過(guò)Web界面或E-mail等方式推薦有價(jià)值的學(xué)科信息。教學(xué)科研人員和各類信息用戶,既是信息的利用者,也是信息的挖掘者和發(fā)現(xiàn)者,我們應(yīng)積極鼓勵(lì)科研人員和各類用戶根據(jù)網(wǎng)站確立的標(biāo)準(zhǔn)推薦新資源和權(quán)威資源,同時(shí)設(shè)立“本周新資源推薦榜”、“月或季度新資源推薦榜”和“年度新資源推薦榜”等欄目,并對(duì)量多質(zhì)優(yōu)者進(jìn)行獎(jiǎng)勵(lì)。
4深層網(wǎng)頁(yè)資源的整合
4.1網(wǎng)絡(luò)導(dǎo)航
即以網(wǎng)絡(luò)導(dǎo)航的形式將深層網(wǎng)頁(yè)資源信息到學(xué)科信息門(mén)戶網(wǎng)站,用戶通過(guò)門(mén)戶網(wǎng)站提供的鏈接即可訪問(wèn)相應(yīng)的深層網(wǎng)頁(yè)搜索引擎、目錄或數(shù)據(jù)庫(kù)。網(wǎng)絡(luò)資源的組織方法有按學(xué)科、資源類型、字順、主題樹(shù)和數(shù)據(jù)庫(kù)組織等,有學(xué)者認(rèn)為后兩種方式相對(duì)科學(xué)、合理,用戶可通過(guò)主題瀏覽和關(guān)鍵詞查詢找到相應(yīng)的網(wǎng)絡(luò)資源[12]。
4.2深層網(wǎng)頁(yè)資源的跨庫(kù)檢索整合
這是一種基于系統(tǒng)的整合方法,通過(guò)檢索軟件可實(shí)現(xiàn)對(duì)多種不同結(jié)構(gòu)的數(shù)據(jù)庫(kù)同時(shí)檢索并返回檢索結(jié)果。這種跨平臺(tái)或異構(gòu)平臺(tái)的開(kāi)發(fā)與應(yīng)用在國(guó)內(nèi)已有一定的發(fā)展,在圖書(shū)館數(shù)字資源的集成檢索系統(tǒng)方面成功案例較多,如CALLS和北京大學(xué)圖書(shū)館共同開(kāi)發(fā)的統(tǒng)一檢索平臺(tái),該平臺(tái)提供了基于異構(gòu)系統(tǒng)的跨庫(kù)檢索服務(wù),用戶可按學(xué)科、按數(shù)據(jù)庫(kù)名稱、按文種同時(shí)檢索多個(gè)平臺(tái)上的多種資源,輸入一個(gè)檢索式,便可以看到多個(gè)數(shù)據(jù)庫(kù)的查詢結(jié)果,并可進(jìn)一步得到詳細(xì)記錄和下載全文。目前,國(guó)內(nèi)的微生物特色學(xué)科信息門(mén)戶的數(shù)據(jù)庫(kù)集成檢索引擎實(shí)現(xiàn)了網(wǎng)絡(luò)數(shù)據(jù)庫(kù)跨庫(kù)檢索,它可對(duì)945個(gè)生物信息學(xué)熱門(mén)數(shù)據(jù)庫(kù)同時(shí)進(jìn)行跨庫(kù)整合檢索。4.3深層網(wǎng)頁(yè)資源的保存
由于網(wǎng)絡(luò)資源的動(dòng)態(tài)性,許多有價(jià)值的網(wǎng)站信息稍縱即逝,如果不加以及時(shí)保存這些信息將無(wú)法找到和再現(xiàn)。學(xué)科信息門(mén)戶網(wǎng)站如能根據(jù)學(xué)科專業(yè)特點(diǎn)保存相應(yīng)的深層網(wǎng)頁(yè)資源,以某種方式呈現(xiàn)給本學(xué)科專業(yè)用戶,不僅可對(duì)這部分資源起到保存作用,而且能夠提高深層網(wǎng)頁(yè)資源的利用率實(shí)現(xiàn)其真正價(jià)值。
通過(guò)自動(dòng)化采集軟件獲得的深層網(wǎng)頁(yè)資源,其保存是一種基于數(shù)據(jù)的整合方式,核心是數(shù)據(jù)加工要標(biāo)準(zhǔn)化,與其它網(wǎng)絡(luò)數(shù)據(jù)的組織和處理要同步接軌,也就是要將廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)加工處理的元數(shù)據(jù)應(yīng)用到深層網(wǎng)頁(yè)資源中來(lái),這樣有利于整個(gè)學(xué)科信息門(mén)戶資源的統(tǒng)一整合利用。2003年度ALCTS(AssociationforLibraryCollection&TechnicalService)的年度會(huì)議項(xiàng)目“MetadataHarvesting:UsingtheOpenArchivesInitiativeProtocoltoExposetheDeepWeb”,提出利用OAI協(xié)議把元數(shù)據(jù)的思想應(yīng)用于深層網(wǎng)頁(yè),利用元數(shù)據(jù)來(lái)標(biāo)注深層網(wǎng)頁(yè)資源,可獲得更高的檢索效率[13]。這個(gè)會(huì)議精神給學(xué)科門(mén)戶網(wǎng)站建設(shè)過(guò)程中開(kāi)展深層網(wǎng)頁(yè)資源的整合工作提供了技術(shù)設(shè)想。
對(duì)深層網(wǎng)頁(yè)資源進(jìn)行加工整合應(yīng)遵循以下策略:(1)標(biāo)準(zhǔn)化策略。要求提供規(guī)范和深入的知識(shí)化描述,能夠支持開(kāi)發(fā)集成和個(gè)性化定制服務(wù)。標(biāo)準(zhǔn)化是實(shí)現(xiàn)跨學(xué)科信息門(mén)戶互操作和數(shù)據(jù)共享的基礎(chǔ),是實(shí)現(xiàn)學(xué)科門(mén)戶可持續(xù)發(fā)展的必然要求。(2)開(kāi)放性策略。要求在信息結(jié)構(gòu)、元數(shù)據(jù)描述、知識(shí)組織體系、用戶界面、用戶使用后管理等各個(gè)層面具有良好的開(kāi)放性機(jī)制,支持個(gè)性化定制和開(kāi)放集成。(3)及時(shí)性策略。要求信息的更新和維護(hù)必須及時(shí)、準(zhǔn)確、有效。(4)權(quán)威性策略。要求優(yōu)化選擇學(xué)科信息門(mén)戶的深層網(wǎng)頁(yè)資源,以保證門(mén)戶的資源質(zhì)量。
4.4深層網(wǎng)頁(yè)資源整合涉及的法律問(wèn)題
因?yàn)橹黜?yè)對(duì)網(wǎng)站的重要性不可低估,人們習(xí)慣于將重要的廣告放置在主頁(yè)上,以此實(shí)現(xiàn)應(yīng)有的點(diǎn)擊率和廣告收入。而深層網(wǎng)頁(yè)資源在學(xué)科門(mén)戶網(wǎng)站上的鏈接是直接進(jìn)入他人網(wǎng)站目的網(wǎng)頁(yè)的深層鏈接。這種鏈接跳過(guò)主頁(yè),直接進(jìn)入信息所在頁(yè)面,導(dǎo)致受眾不易辨認(rèn)信息的真正來(lái)源,即使文末注明作者,有學(xué)者認(rèn)為也會(huì)侵害被鏈接網(wǎng)站的權(quán)利[14]。另一種學(xué)者的觀點(diǎn)是,深層鏈接并不會(huì)必然導(dǎo)致直接侵犯版權(quán)。由鏈接引起的版權(quán)侵權(quán)糾紛,主要涉及是否對(duì)作品專有使用權(quán)(復(fù)制權(quán)、發(fā)行權(quán)、改編權(quán)、傳播權(quán))構(gòu)成侵犯。
對(duì)于網(wǎng)站之間相互設(shè)立鏈接及網(wǎng)頁(yè)資源的保存問(wèn)題,我國(guó)尚無(wú)具體的法律規(guī)范。深層鏈接是否會(huì)侵犯版權(quán),在我國(guó)也屬于理論探討階段。作者認(rèn)為,盡管95%的深層網(wǎng)頁(yè)資源屬于免費(fèi)開(kāi)放資源,本著為學(xué)科信息門(mén)戶順利健康發(fā)展的宗旨,學(xué)科信息門(mén)戶網(wǎng)站的建設(shè)和服務(wù)應(yīng)在法律框架內(nèi)進(jìn)行。
4.5解決方案
設(shè)置鏈接前事先征求被鏈者的意愿。盡管可以依據(jù)“默示同意原則”,為避免糾紛,設(shè)鏈者在設(shè)置鏈接前還是事先通知被鏈接網(wǎng)站為宜。如果后者在合理時(shí)間內(nèi)沒(méi)有明確表示反對(duì),則視為默認(rèn)鏈接[15]。采用深層鏈接的情況下,建議在設(shè)置鏈接的文字表述時(shí)盡量寫(xiě)明是指向哪個(gè)網(wǎng)站的頁(yè)面,以聲明自己并非直接在使用這個(gè)網(wǎng)頁(yè)。
資源采集時(shí)注意網(wǎng)頁(yè)版權(quán)聲明項(xiàng),如注有不得轉(zhuǎn)載使用這之類說(shuō)明的網(wǎng)頁(yè)資源不加以收集。若采用軟件自動(dòng)搜索,則要加有關(guān)這方面的濾過(guò)系統(tǒng)。
同時(shí),國(guó)家應(yīng)盡快出臺(tái)相關(guān)政策法規(guī),對(duì)國(guó)家圖書(shū)館、公共圖書(shū)館及其他相關(guān)圖書(shū)館在網(wǎng)絡(luò)信息的復(fù)制、編輯、保存和服務(wù)權(quán)限方面給予立法支持。
【參考文獻(xiàn)】
1WhatisSubjectGateway?/html/subjectgateways/subjectgateways.html
2張曉林.分布式學(xué)科信息門(mén)戶中網(wǎng)絡(luò)信息導(dǎo)航系統(tǒng)的規(guī)范建設(shè).大學(xué)圖書(shū)館學(xué)報(bào),2002(5):28-33
3毛軍.學(xué)科信息門(mén)戶發(fā)展現(xiàn)狀綜述.圖書(shū)情報(bào)工作動(dòng)態(tài),2002(3):20-22
4中國(guó)科學(xué)院國(guó)家科學(xué)數(shù)字圖書(shū)館在建項(xiàng)目略.159.226.100.51:8080/projectcenter/Scibulletin-list.jsp
5王丹,潘淑春.國(guó)內(nèi)外數(shù)字圖書(shū)館專業(yè)信息門(mén)戶網(wǎng)站現(xiàn)狀與發(fā)展趨勢(shì).農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2003(5):42-45
6吳志強(qiáng),嚴(yán)貝妮.從隱蔽網(wǎng)絡(luò)到國(guó)際互聯(lián)網(wǎng)信息資源控制計(jì)劃.圖書(shū)情報(bào)工作,2004(4):80-81,86
7微軟搜索引擎突曝光亞洲研究院實(shí)現(xiàn)戰(zhàn)略調(diào)整./news/newstopic/17/17463.shtml
8雅虎新一輪對(duì)戰(zhàn)Google搜索服務(wù)進(jìn)軍互聯(lián)網(wǎng)深處/news/net/story/0,3800050307,39213565,00.htm
9MichaelKBergman.TheDeepWeb:SurfacingHiddenValue.www.press.umich.edu/jep/07-01/bergman.Html
10/products/dqm.asp
11www.cs.purdue.edu/vdbms
12毛娟.網(wǎng)上免費(fèi)資源的收集與整理.圖書(shū)館雜志,2004,23(7):24-28
13袁順波.隱蔽網(wǎng)絡(luò)及應(yīng)對(duì)策略研究./eprint/Upload/2005/1112714455561.doc
14董永森.深層鏈接引起的侵權(quán)責(zé)任——評(píng)析外匯幣種走勢(shì)圖引發(fā)的侵權(quán)糾紛案./second/article,asp?artno=366
15趙麗梅.鏈接引發(fā)的法律問(wèn)題探析./second/article.asp?artno=370
熱門(mén)標(biāo)簽
網(wǎng)頁(yè)設(shè)計(jì)論文 網(wǎng)頁(yè)制作論文 網(wǎng)頁(yè) 網(wǎng)頁(yè)設(shè)計(jì)報(bào)告 網(wǎng)頁(yè)設(shè)計(jì) 網(wǎng)頁(yè)制作 網(wǎng)頁(yè)培訓(xùn)總結(jié) 網(wǎng)頁(yè)實(shí)訓(xùn)報(bào)告 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1探究網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)
3小議網(wǎng)頁(yè)設(shè)計(jì)標(biāo)準(zhǔn)