關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

時間:2022-02-24 11:19:00

導(dǎo)語:關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

摘要:文章根據(jù)高校圖書館的實際業(yè)務(wù)需要,運用關(guān)聯(lián)規(guī)則對高校圖書館學(xué)生的借閱數(shù)據(jù)進行了挖掘分析。首先將圖書館歷史借閱數(shù)據(jù)進行預(yù)處理,預(yù)處理包括對數(shù)據(jù)進行清理、集成、轉(zhuǎn)換以及建立事務(wù)數(shù)據(jù)庫;然后利用關(guān)聯(lián)規(guī)則挖掘算法(MFP-Miner算法)對事務(wù)數(shù)據(jù)庫進行挖掘處理,挖掘出圖書借閱的關(guān)聯(lián)規(guī)則,為圖書借閱、圖書推薦等服務(wù)提供科學(xué)的數(shù)據(jù)支持,從而提升圖書館服務(wù)質(zhì)量。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;MFP-Miner算法

0引言

在高校的教學(xué)和科研活動中圖書館發(fā)揮著重大作用,被稱作“大學(xué)心臟”。隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,圖書館也應(yīng)不斷提高圖書管理的信息化程度,完善服務(wù)功能,滿足當前用戶的需求。為了提高圖書館工作管理效率,當前,高校圖書館采用了數(shù)據(jù)庫技術(shù)實現(xiàn)圖書信息化管理。采用數(shù)據(jù)庫技術(shù)后圖書館的流通服務(wù)工作比過去有了很大的進步,但仍然存在著一些問題。學(xué)生借閱信息是圖書流通管理中最重要的數(shù)據(jù)之一,如何利用這些數(shù)據(jù),快速挖掘到有效信息,是圖書信息數(shù)據(jù)挖掘研究熱點。本文重點研究關(guān)聯(lián)規(guī)則在高校圖書館借閱信息的挖掘應(yīng)用。

1數(shù)據(jù)挖掘技術(shù)

1.1數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘就是從海量信息中挖掘出有用的數(shù)據(jù),這些海量信息模糊、隨機、不完整及有噪聲,通過數(shù)據(jù)挖掘發(fā)現(xiàn)隱蔽有規(guī)律可用的信息并轉(zhuǎn)化成可理解的知識。數(shù)據(jù)挖掘過程主要包括幾個步驟:數(shù)據(jù)預(yù)處理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)挖掘及模式評估。

1.2MFP-Miner算法

關(guān)聯(lián)規(guī)則的挖掘算法有很多種,其中MFP-Miner是一種基于FP-Tree的快速挖掘算法。它提取出事務(wù)數(shù)據(jù)庫中的每條事務(wù)所包含的頻繁項目,并按支持度降序排序,然后壓縮存儲到頻繁模式樹中,在進行最大頻繁項目集挖掘過程中只需對該樹進行搜索,而不需掃描數(shù)據(jù)庫,在挖掘過程中不需產(chǎn)生最大頻繁候選項目集,因此,本文采用MFP-Miner算法對圖書借閱關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘。

2圖書借閱數(shù)據(jù)關(guān)聯(lián)挖掘?qū)嵗治雠c應(yīng)用

2.1數(shù)據(jù)預(yù)處理

一般情況下,因于某些屬性值的空缺或不確定,可能造成數(shù)據(jù)庫中的數(shù)據(jù)不完整,因為同一個屬性在不同表中的名稱不同,相同屬性名在不同的表中有不同的含義又往往造成數(shù)據(jù)庫中的數(shù)據(jù)不一致。利用這些不完整、含噪聲、不一致的數(shù)據(jù)進行數(shù)據(jù)挖掘,挖掘質(zhì)量很難得到保證,得出的結(jié)論也往往是不準確的。并且圖書館的工作中數(shù)據(jù)庫中的數(shù)據(jù)量往往非常大,數(shù)據(jù)的冗余、不一致、不完整現(xiàn)象很難避免,數(shù)據(jù)分布也較為分散,不易進行綜合查詢。為了改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)挖掘的效率和質(zhì)量,在數(shù)據(jù)挖掘前必須對數(shù)據(jù)進行選取與清洗、集成、變換等預(yù)處理,這個階段也稱為數(shù)據(jù)準備階段,是數(shù)據(jù)挖掘過程中很重要的、必不可少的一個環(huán)節(jié),在整個過程中占有十分重要的地位,同時這個階段工作量也相當大,甚至占總工作量的4/5。從圖書館借閱數(shù)據(jù)挖掘中,數(shù)據(jù)準備階段一般包括以下幾個步驟。2.1.1數(shù)據(jù)選取數(shù)據(jù)選取是指根據(jù)用戶需求,從原始數(shù)據(jù)庫中選擇與知識發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)表項。圖書管理系統(tǒng)中數(shù)據(jù)庫的數(shù)據(jù)量往往非常巨大,涵蓋范圍相當廣泛,數(shù)據(jù)選取時應(yīng)盡量選取足以完成知識發(fā)現(xiàn)任務(wù)的最小數(shù)據(jù)表項。為了描述各類借閱圖書之間的關(guān)聯(lián)度,選取數(shù)據(jù)集應(yīng)包括讀者號(dzh)、借閱日期(jsrq)、圖書分類號(tsflh),所以只要選取包括這3項的圖書借閱表(見表1)即可。2.1.2數(shù)據(jù)篩選根據(jù)研究目標選取所需的信息,即計算機科學(xué)與技術(shù)專業(yè)學(xué)生的讀者號(dzh)和圖書分類號(tsflh)。查詢語句為:SELECTdzh,tsflhINTOjsjtbFROMltkWHERE(SUBSTRING(dzh,1,3)=′310′)說明:計算機科學(xué)與技術(shù)專業(yè)讀者號以310開始。執(zhí)行后,得到所需的計算機專業(yè)讀者借閱表(見表2)。從表2中可以看出,表中的每一條記錄描述了讀者的一次借閱行為,包含讀者號和圖書分類號,從圖書分類的角度分析,這里的圖書分類號指的是某一種圖書,分類太細,信息分布是分散的,這種格式的數(shù)據(jù)不符合基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的輸入要求,但可以利用MicrosoftSQLServer2000的DTS工具將數(shù)據(jù)轉(zhuǎn)換成所需要的布爾型事務(wù)數(shù)據(jù)庫。2.1.3數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換主要是對數(shù)據(jù)進行規(guī)格化操作?!皥D書分類號”屬性不是針對某一本書,而是針對某一類或者某一大類,因此應(yīng)該采用較高層次的類來替換圖書分類號。在這里,只取分類號中的大類,忽略小類。如TP368-44取為TP368。查詢語句為:UPDATEjsjtbSETtsflh=LEFT(tsflh,CHARINDEX(′-′,tsflh)-1)WHERE(CHARINDEX(′-′,tsflh)>0)2.1.4刪除重復(fù)記錄讀者借閱的同一類圖書的記錄只需保留一條即可,使用語句如下:SELECTdzh,tsflhINTOjsjtb2FROMjsjtbGROUPBYdzh,tsflh2.1.5刪除無效數(shù)據(jù)在圖書借閱中,讀者在只借閱一本書的記錄的情況下,不存在圖書類別關(guān)聯(lián),所以要將此類數(shù)據(jù)刪除。使用語句:SELECTdzh,tsflhINTOjsjtb3FROMjsjtb2WHERE(dzhIN(SELECTdzhFROMjsjtb2ASjsjtb2_1GROUPBYdzhHAVING(COUNT(*)>1)))2.1.6用DTS工具將數(shù)據(jù)轉(zhuǎn)換成算法所需要的布爾型事務(wù)數(shù)據(jù)庫(見表3)

2.2基于MFP-Miner算法的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘

構(gòu)造FP-Tree的步驟如下:(1)根據(jù)圖書分類對事務(wù)數(shù)據(jù)庫進行分類統(tǒng)計,求出各類圖書的支持計數(shù),并篩選出大于等于最小支持計數(shù)的頻繁項目(在此假定最小支持計數(shù)為120),對結(jié)果按支持計數(shù)降序排列,生成頻繁項目列表L1(見表4)。第一列屬性名proj指的是項目,第二列屬性名pronum指的是項目的支持計數(shù)。(2)第二次掃描排序后的事務(wù)數(shù)據(jù)庫,以NULL作為根節(jié)點構(gòu)造頻繁模式樹,步驟如下:①掃描第一個事務(wù),事務(wù)中的頻繁項目以第一列作為關(guān)鍵字排序,得到項目列表〈(TP311.13∶1),(TP368.3∶1)〉,該分支具有2個節(jié)點,其中TP311.13是根的子節(jié)點,TP368.3鏈接到TP311.13。②同理,依次掃描事務(wù)數(shù)據(jù)庫中其他事務(wù),遍歷樹并搜索與該項節(jié)點同名的節(jié)點,如果不存在同名節(jié)點,那么就新建頻繁模式樹分支;若某項目列表與FP-Tree的路徑具有相同的前綴,則對公共前綴各節(jié)點計數(shù)累加1而無須另外創(chuàng)建新節(jié)點。這樣,第二遍掃描完事務(wù)數(shù)據(jù)庫后,F(xiàn)P-tree建立完成。生成關(guān)聯(lián)規(guī)則表(見表5)。2.3數(shù)據(jù)分析本文通過數(shù)據(jù)挖掘方法找出類似于“讀者借閱了A文獻也會借閱B文獻”的規(guī)律,挖掘出如下規(guī)則:(1)有15.8%的讀者在借閱國際互聯(lián)網(wǎng)類圖書的同時有63.8%的可能再借閱操作系統(tǒng)類圖書。(2)有16.2%的讀者在借閱計算機網(wǎng)絡(luò)類圖書的同時有60.2%的可能再借閱模式識別與裝置類圖書。(3)有17.6%的讀者在借閱BASIC編程語言類圖書的同時有58.9%的可能再借閱信息處理類圖書。(4)有17.9%的讀者在借閱表格處理系統(tǒng)類圖書的同時有56.5%的可能再借閱C編程語言類圖書。

3結(jié)語

本文基于高校圖書館的海量借閱信息,引入數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則技術(shù),建立了基于MFP-Miner算法的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘,快速、準確地挖掘出隱藏在圖書借閱數(shù)據(jù)背后有價值的規(guī)則和潛在的信息,為圖書借閱、圖書推薦等服務(wù)提供科學(xué)的數(shù)據(jù)支持,從而提升高校圖書館的讀者服務(wù)工作質(zhì)量。面對信息化的浪潮,充分利用數(shù)據(jù)挖掘來擴充圖書館數(shù)據(jù)庫的實際應(yīng)用,是圖書館數(shù)據(jù)庫高層應(yīng)用的必然趨勢,數(shù)據(jù)挖掘技術(shù)在圖書館信息管理方面必定會發(fā)揮更大的作用。

作者:吳玉春 龍小建 單位:井岡山大學(xué)

參考文獻

[1]JochenHipp,UlrichGuntzer,Gholamreza.AlgorithmsforAssociationRuleMining-AGeneralSurveyandComparison[J].SIGKDDExplo-rations,2000(1):58-64.

[2]KleinbergLetal.Amicroecnomicviewofdatamining[J].DataminingandKnowledgeDiseovery,1998(2):311-324.

[3]J.Han,M.Kamber.DataMining:ConceptsandTechniques[M].SanFrancisco:MorganKaufman,2001.(