Web數(shù)據(jù)挖掘與圖書館個性化服務(wù)
時間:2022-10-11 02:51:55
導語:Web數(shù)據(jù)挖掘與圖書館個性化服務(wù)一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
近幾年,高校數(shù)字圖書館的發(fā)展速度非常快,其數(shù)據(jù)類型和總量也顯著提升,數(shù)字資源覆蓋多個領(lǐng)域,如電子圖書、電子期刊、多媒體數(shù)據(jù)、海量的web數(shù)據(jù)庫等,這些數(shù)字化資源的出現(xiàn)為用戶查閱資料提供了方便,但由于數(shù)據(jù)信息量大,用戶在查找資料的過程中很難找準目標定位,因而會花費較多時間,而Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用則可以在很大程度上解決該問題。
1Web數(shù)據(jù)挖掘與數(shù)字圖書館的概述
1.1Web數(shù)據(jù)挖掘的概述
所謂Web數(shù)據(jù)挖掘,指的就是將有價值的、感興趣的信息從大量的Web文檔中提取出來,通常來說,可將Web數(shù)據(jù)挖掘劃分為三種類型,即Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用記錄挖掘。其中,Web結(jié)構(gòu)挖掘指的是從WWW的鏈接關(guān)系或者組織體系中推導出相關(guān)知識,通過文檔之間的相互關(guān)系,WWW可以為用戶提供文檔內(nèi)容之外的有價值數(shù)據(jù)信息,通過這些有價值信息,能夠?qū)撁婕右耘判颍M而更好地發(fā)現(xiàn)其中的關(guān)鍵頁面信息,整個Web結(jié)構(gòu)挖掘過程需要用到HITS算法以及PageRank算法。Web內(nèi)容挖掘指的是將相關(guān)知識從文檔內(nèi)容或描述中抽取出來,這項工作可被當作是基本搜索引擎所負責的工作的延伸,主要包括立足于數(shù)據(jù)庫的挖掘以及立足于的挖掘兩大部分。從性質(zhì)上看,Web內(nèi)容挖掘?qū)儆谖谋就诰虻囊环N形式,其作用的對象大部分是Web文檔的文本區(qū)域,文本挖掘涵蓋針對搜索工具的查詢結(jié)果所開展的分析、整理、歸類等工作。Web使用記錄的挖掘主要針對的是Web日志以及Web使用數(shù)據(jù),它能根據(jù)Web的訪問記錄直接定位到感興趣的模式,Web日志的涵蓋面非常廣,主要包括服務(wù)器上與Web訪問有關(guān)的各類日志文件,如日志、引用日志、訪問日志等,其中涉及到用戶的諸多訪問信息,包括訪問時間、訪問途徑、用戶的IP地址、訪問結(jié)果等。
1.2高校數(shù)字圖書館概述
隨著信息化、網(wǎng)絡(luò)化、數(shù)字化時代的到來,人們在工作和學習過程中對數(shù)據(jù)信息的需求量也逐漸上升,信息資源的類型及其表現(xiàn)形式越來越豐富,比較常見的主要包括電子圖書、期刊等,在這樣的時代背景下,數(shù)字圖書館也逐漸出現(xiàn),它是以傳統(tǒng)圖書館為基礎(chǔ)的一種新型信息系統(tǒng),它的主要功能是可以對文本、圖像、數(shù)據(jù)、聲音等多樣化的信息進行采集、分析和整理,徹底顛覆了以往圖書館中采用其他非數(shù)字化介質(zhì)來進行存儲的落后方法。數(shù)字圖書館主要采用現(xiàn)代化的先進技術(shù),把圖書館中的重要文獻進行數(shù)字化存儲,用戶可以利用互聯(lián)網(wǎng)在任意時間和空間查看信息,這就使圖書館的服務(wù)范圍突破了時空限制,能為用戶帶來更多的方便,與傳統(tǒng)的圖書館相比,數(shù)字圖書館具有多方面的優(yōu)勢,具體表現(xiàn)在以下幾點:(1)相同的數(shù)據(jù)信息可在同一時間被多個用戶查看,這就有效避免了傳統(tǒng)圖書館中紙質(zhì)書本只能在同一時間為一個人提供服務(wù)的缺陷。(2)數(shù)字圖書館的信息查詢更加方便,它能為用戶提供遠程信息檢索功能。(3)數(shù)字圖書館的數(shù)據(jù)信息存儲空間比較小,其存儲的數(shù)據(jù)信息能得到有效保護,不易被破壞。
2Web數(shù)據(jù)挖掘在高校數(shù)字圖書館個性化服務(wù)中的應(yīng)用
2.1發(fā)現(xiàn)用戶偏好,為其提供個性化的訪問區(qū)域
Web站點在設(shè)計的時候大多是采用的同一種分類形式,也就是同一個頁面內(nèi)的分頁面往往是按照其類別來組織的,用戶在對Web站點進行訪問的時候,可在很大程度上反映出其偏好,一般來說,用戶在訪問某頁面時停留的時間越長或查看的字數(shù)越多,就表明該用戶對這一頁面的內(nèi)容越感興趣,對于不感興趣的頁面,用戶停留的時間通常都比較短。對用戶感興趣程度進行計算一般采用的是收集用戶瀏覽頁面的時間信息及其途徑等方式,這些信息能充分反映出該頁面對用戶的吸引力,進而便于系統(tǒng)按照用戶的偏好,為之提供個性化的訪問區(qū)域。
2.2識別高頻率訪問路徑,提升圖書館資源的利用率
利用Web數(shù)據(jù)挖掘技術(shù),能對數(shù)字圖書館中的高頻率訪問路徑以及相關(guān)頁面的重要頁面進行精確識別,從而將一些關(guān)鍵的新書信息和分類信息放在經(jīng)常訪問的路徑或者頁面之上,便于用戶找到所需信息,進而達到提升圖書利用效率的目標。
2.3使鏈接結(jié)構(gòu)得到進一步優(yōu)化,為用戶提供便利
Web數(shù)字挖掘在高校數(shù)字圖書館中的應(yīng)用能促進鏈接結(jié)構(gòu)的進一步優(yōu)化,具體來說,主要表現(xiàn)在下列兩個方面:(1)經(jīng)過挖掘WebLog,可以了解到用戶所訪問的頁面之間的關(guān)聯(lián),進而在具有緊密關(guān)系的頁面之間加強鏈接,使用戶更加快速地找到所需信息。(2)經(jīng)過挖掘WebLog,可以精確地找到用戶的期望位置,若遇到期望位置的訪問次數(shù)比實際位置的訪問次數(shù)更多的情況,則可以采取在實際位置與期望位置之間設(shè)立導航鏈接的方式來最大限度提升Web站點的優(yōu)化效果。
3結(jié)語
總而言之,Web數(shù)據(jù)挖掘與當代高校數(shù)字圖書館的建設(shè)息息相關(guān),為了提高數(shù)字圖書館的服務(wù)質(zhì)量,最大限度滿足用戶的個性化需求,就必須學會科學地利用Web數(shù)據(jù)挖掘技術(shù),把握Web數(shù)據(jù)挖掘的類型及其特征,使其在發(fā)現(xiàn)用戶興趣愛好、識別高頻率訪問路徑以及鏈接結(jié)構(gòu)優(yōu)化等方面發(fā)揮出應(yīng)有的作用,讓用戶在訪問數(shù)字圖書館的過程中可以快速尋找到所需信息,充分感受到圖書館的人性化服務(wù)。
作者:孟玫 單位:南陽醫(yī)學高等??茖W校
參考文獻
[1]歐陽烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書館個性化服務(wù)[J].現(xiàn)代情報,2008,28(01):103-104,107.
[2]歐陽烽.基于數(shù)據(jù)挖掘的高校數(shù)字圖書館信息資源管理[D].中南大學,2009.
[3]孫士新.高校數(shù)字圖書館個性化服務(wù)的應(yīng)用研究[D].鄭州大學,2009.
[4]陳雪.WEB挖掘在高校數(shù)字圖書館個性化服務(wù)中的應(yīng)用[J].蘭臺世界,2008(24):73-74.