關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

時(shí)間:2022-02-24 11:19:00

導(dǎo)語:關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

摘要:文章根據(jù)高校圖書館的實(shí)際業(yè)務(wù)需要,運(yùn)用關(guān)聯(lián)規(guī)則對高校圖書館學(xué)生的借閱數(shù)據(jù)進(jìn)行了挖掘分析。首先將圖書館歷史借閱數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理包括對數(shù)據(jù)進(jìn)行清理、集成、轉(zhuǎn)換以及建立事務(wù)數(shù)據(jù)庫;然后利用關(guān)聯(lián)規(guī)則挖掘算法(MFP-Miner算法)對事務(wù)數(shù)據(jù)庫進(jìn)行挖掘處理,挖掘出圖書借閱的關(guān)聯(lián)規(guī)則,為圖書借閱、圖書推薦等服務(wù)提供科學(xué)的數(shù)據(jù)支持,從而提升圖書館服務(wù)質(zhì)量。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;MFP-Miner算法

0引言

在高校的教學(xué)和科研活動中圖書館發(fā)揮著重大作用,被稱作“大學(xué)心臟”。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,圖書館也應(yīng)不斷提高圖書管理的信息化程度,完善服務(wù)功能,滿足當(dāng)前用戶的需求。為了提高圖書館工作管理效率,當(dāng)前,高校圖書館采用了數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)圖書信息化管理。采用數(shù)據(jù)庫技術(shù)后圖書館的流通服務(wù)工作比過去有了很大的進(jìn)步,但仍然存在著一些問題。學(xué)生借閱信息是圖書流通管理中最重要的數(shù)據(jù)之一,如何利用這些數(shù)據(jù),快速挖掘到有效信息,是圖書信息數(shù)據(jù)挖掘研究熱點(diǎn)。本文重點(diǎn)研究關(guān)聯(lián)規(guī)則在高校圖書館借閱信息的挖掘應(yīng)用。

1數(shù)據(jù)挖掘技術(shù)

1.1數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘就是從海量信息中挖掘出有用的數(shù)據(jù),這些海量信息模糊、隨機(jī)、不完整及有噪聲,通過數(shù)據(jù)挖掘發(fā)現(xiàn)隱蔽有規(guī)律可用的信息并轉(zhuǎn)化成可理解的知識。數(shù)據(jù)挖掘過程主要包括幾個(gè)步驟:數(shù)據(jù)預(yù)處理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)挖掘及模式評估。

1.2MFP-Miner算法

關(guān)聯(lián)規(guī)則的挖掘算法有很多種,其中MFP-Miner是一種基于FP-Tree的快速挖掘算法。它提取出事務(wù)數(shù)據(jù)庫中的每條事務(wù)所包含的頻繁項(xiàng)目,并按支持度降序排序,然后壓縮存儲到頻繁模式樹中,在進(jìn)行最大頻繁項(xiàng)目集挖掘過程中只需對該樹進(jìn)行搜索,而不需掃描數(shù)據(jù)庫,在挖掘過程中不需產(chǎn)生最大頻繁候選項(xiàng)目集,因此,本文采用MFP-Miner算法對圖書借閱關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。

2圖書借閱數(shù)據(jù)關(guān)聯(lián)挖掘?qū)嵗治雠c應(yīng)用

2.1數(shù)據(jù)預(yù)處理

一般情況下,因于某些屬性值的空缺或不確定,可能造成數(shù)據(jù)庫中的數(shù)據(jù)不完整,因?yàn)橥粋€(gè)屬性在不同表中的名稱不同,相同屬性名在不同的表中有不同的含義又往往造成數(shù)據(jù)庫中的數(shù)據(jù)不一致。利用這些不完整、含噪聲、不一致的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,挖掘質(zhì)量很難得到保證,得出的結(jié)論也往往是不準(zhǔn)確的。并且圖書館的工作中數(shù)據(jù)庫中的數(shù)據(jù)量往往非常大,數(shù)據(jù)的冗余、不一致、不完整現(xiàn)象很難避免,數(shù)據(jù)分布也較為分散,不易進(jìn)行綜合查詢。為了改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)挖掘的效率和質(zhì)量,在數(shù)據(jù)挖掘前必須對數(shù)據(jù)進(jìn)行選取與清洗、集成、變換等預(yù)處理,這個(gè)階段也稱為數(shù)據(jù)準(zhǔn)備階段,是數(shù)據(jù)挖掘過程中很重要的、必不可少的一個(gè)環(huán)節(jié),在整個(gè)過程中占有十分重要的地位,同時(shí)這個(gè)階段工作量也相當(dāng)大,甚至占總工作量的4/5。從圖書館借閱數(shù)據(jù)挖掘中,數(shù)據(jù)準(zhǔn)備階段一般包括以下幾個(gè)步驟。2.1.1數(shù)據(jù)選取數(shù)據(jù)選取是指根據(jù)用戶需求,從原始數(shù)據(jù)庫中選擇與知識發(fā)現(xiàn)任務(wù)相關(guān)的數(shù)據(jù)表項(xiàng)。圖書管理系統(tǒng)中數(shù)據(jù)庫的數(shù)據(jù)量往往非常巨大,涵蓋范圍相當(dāng)廣泛,數(shù)據(jù)選取時(shí)應(yīng)盡量選取足以完成知識發(fā)現(xiàn)任務(wù)的最小數(shù)據(jù)表項(xiàng)。為了描述各類借閱圖書之間的關(guān)聯(lián)度,選取數(shù)據(jù)集應(yīng)包括讀者號(dzh)、借閱日期(jsrq)、圖書分類號(tsflh),所以只要選取包括這3項(xiàng)的圖書借閱表(見表1)即可。2.1.2數(shù)據(jù)篩選根據(jù)研究目標(biāo)選取所需的信息,即計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)生的讀者號(dzh)和圖書分類號(tsflh)。查詢語句為:SELECTdzh,tsflhINTOjsjtbFROMltkWHERE(SUBSTRING(dzh,1,3)=′310′)說明:計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)讀者號以310開始。執(zhí)行后,得到所需的計(jì)算機(jī)專業(yè)讀者借閱表(見表2)。從表2中可以看出,表中的每一條記錄描述了讀者的一次借閱行為,包含讀者號和圖書分類號,從圖書分類的角度分析,這里的圖書分類號指的是某一種圖書,分類太細(xì),信息分布是分散的,這種格式的數(shù)據(jù)不符合基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的輸入要求,但可以利用MicrosoftSQLServer2000的DTS工具將數(shù)據(jù)轉(zhuǎn)換成所需要的布爾型事務(wù)數(shù)據(jù)庫。2.1.3數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換主要是對數(shù)據(jù)進(jìn)行規(guī)格化操作?!皥D書分類號”屬性不是針對某一本書,而是針對某一類或者某一大類,因此應(yīng)該采用較高層次的類來替換圖書分類號。在這里,只取分類號中的大類,忽略小類。如TP368-44取為TP368。查詢語句為:UPDATEjsjtbSETtsflh=LEFT(tsflh,CHARINDEX(′-′,tsflh)-1)WHERE(CHARINDEX(′-′,tsflh)>0)2.1.4刪除重復(fù)記錄讀者借閱的同一類圖書的記錄只需保留一條即可,使用語句如下:SELECTdzh,tsflhINTOjsjtb2FROMjsjtbGROUPBYdzh,tsflh2.1.5刪除無效數(shù)據(jù)在圖書借閱中,讀者在只借閱一本書的記錄的情況下,不存在圖書類別關(guān)聯(lián),所以要將此類數(shù)據(jù)刪除。使用語句:SELECTdzh,tsflhINTOjsjtb3FROMjsjtb2WHERE(dzhIN(SELECTdzhFROMjsjtb2ASjsjtb2_1GROUPBYdzhHAVING(COUNT(*)>1)))2.1.6用DTS工具將數(shù)據(jù)轉(zhuǎn)換成算法所需要的布爾型事務(wù)數(shù)據(jù)庫(見表3)

2.2基于MFP-Miner算法的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘

構(gòu)造FP-Tree的步驟如下:(1)根據(jù)圖書分類對事務(wù)數(shù)據(jù)庫進(jìn)行分類統(tǒng)計(jì),求出各類圖書的支持計(jì)數(shù),并篩選出大于等于最小支持計(jì)數(shù)的頻繁項(xiàng)目(在此假定最小支持計(jì)數(shù)為120),對結(jié)果按支持計(jì)數(shù)降序排列,生成頻繁項(xiàng)目列表L1(見表4)。第一列屬性名proj指的是項(xiàng)目,第二列屬性名pronum指的是項(xiàng)目的支持計(jì)數(shù)。(2)第二次掃描排序后的事務(wù)數(shù)據(jù)庫,以NULL作為根節(jié)點(diǎn)構(gòu)造頻繁模式樹,步驟如下:①掃描第一個(gè)事務(wù),事務(wù)中的頻繁項(xiàng)目以第一列作為關(guān)鍵字排序,得到項(xiàng)目列表〈(TP311.13∶1),(TP368.3∶1)〉,該分支具有2個(gè)節(jié)點(diǎn),其中TP311.13是根的子節(jié)點(diǎn),TP368.3鏈接到TP311.13。②同理,依次掃描事務(wù)數(shù)據(jù)庫中其他事務(wù),遍歷樹并搜索與該項(xiàng)節(jié)點(diǎn)同名的節(jié)點(diǎn),如果不存在同名節(jié)點(diǎn),那么就新建頻繁模式樹分支;若某項(xiàng)目列表與FP-Tree的路徑具有相同的前綴,則對公共前綴各節(jié)點(diǎn)計(jì)數(shù)累加1而無須另外創(chuàng)建新節(jié)點(diǎn)。這樣,第二遍掃描完事務(wù)數(shù)據(jù)庫后,F(xiàn)P-tree建立完成。生成關(guān)聯(lián)規(guī)則表(見表5)。2.3數(shù)據(jù)分析本文通過數(shù)據(jù)挖掘方法找出類似于“讀者借閱了A文獻(xiàn)也會借閱B文獻(xiàn)”的規(guī)律,挖掘出如下規(guī)則:(1)有15.8%的讀者在借閱國際互聯(lián)網(wǎng)類圖書的同時(shí)有63.8%的可能再借閱操作系統(tǒng)類圖書。(2)有16.2%的讀者在借閱計(jì)算機(jī)網(wǎng)絡(luò)類圖書的同時(shí)有60.2%的可能再借閱模式識別與裝置類圖書。(3)有17.6%的讀者在借閱BASIC編程語言類圖書的同時(shí)有58.9%的可能再借閱信息處理類圖書。(4)有17.9%的讀者在借閱表格處理系統(tǒng)類圖書的同時(shí)有56.5%的可能再借閱C編程語言類圖書。

3結(jié)語

本文基于高校圖書館的海量借閱信息,引入數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則技術(shù),建立了基于MFP-Miner算法的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘,快速、準(zhǔn)確地挖掘出隱藏在圖書借閱數(shù)據(jù)背后有價(jià)值的規(guī)則和潛在的信息,為圖書借閱、圖書推薦等服務(wù)提供科學(xué)的數(shù)據(jù)支持,從而提升高校圖書館的讀者服務(wù)工作質(zhì)量。面對信息化的浪潮,充分利用數(shù)據(jù)挖掘來擴(kuò)充圖書館數(shù)據(jù)庫的實(shí)際應(yīng)用,是圖書館數(shù)據(jù)庫高層應(yīng)用的必然趨勢,數(shù)據(jù)挖掘技術(shù)在圖書館信息管理方面必定會發(fā)揮更大的作用。

作者:吳玉春 龍小建 單位:井岡山大學(xué)

參考文獻(xiàn)

[1]JochenHipp,UlrichGuntzer,Gholamreza.AlgorithmsforAssociationRuleMining-AGeneralSurveyandComparison[J].SIGKDDExplo-rations,2000(1):58-64.

[2]KleinbergLetal.Amicroecnomicviewofdatamining[J].DataminingandKnowledgeDiseovery,1998(2):311-324.

[3]J.Han,M.Kamber.DataMining:ConceptsandTechniques[M].SanFrancisco:MorganKaufman,2001.(