国产欧美一区二区三区四区,国产做受在区,成人手机AV免费观看

導語：關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘一文來源于網(wǎng)友上傳，不代表本站觀點，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

摘要：文章根據(jù)高校圖書館的實際業(yè)務需要，運用關(guān)聯(lián)規(guī)則對高校圖書館學生的借閱數(shù)據(jù)進行了挖掘分析。首先將圖書館歷史借閱數(shù)據(jù)進行預處理，預處理包括對數(shù)據(jù)進行清理、集成、轉(zhuǎn)換以及建立事務數(shù)據(jù)庫；然后利用關(guān)聯(lián)規(guī)則挖掘算法（MFP-Miner算法）對事務數(shù)據(jù)庫進行挖掘處理，挖掘出圖書借閱的關(guān)聯(lián)規(guī)則，為圖書借閱、圖書推薦等服務提供科學的數(shù)據(jù)支持，從而提升圖書館服務質(zhì)量。

關(guān)鍵詞：數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；MFP-Miner算法

0引言

在高校的教學和科研活動中圖書館發(fā)揮著重大作用，被稱作“大學心臟”。隨著計算機技術(shù)和網(wǎng)絡技術(shù)的廣泛應用，圖書館也應不斷提高圖書管理的信息化程度，完善服務功能，滿足當前用戶的需求。為了提高圖書館工作管理效率，當前，高校圖書館采用了數(shù)據(jù)庫技術(shù)實現(xiàn)圖書信息化管理。采用數(shù)據(jù)庫技術(shù)后圖書館的流通服務工作比過去有了很大的進步，但仍然存在著一些問題。學生借閱信息是圖書流通管理中最重要的數(shù)據(jù)之一，如何利用這些數(shù)據(jù)，快速挖掘到有效信息，是圖書信息數(shù)據(jù)挖掘研究熱點。本文重點研究關(guān)聯(lián)規(guī)則在高校圖書館借閱信息的挖掘應用。

1數(shù)據(jù)挖掘技術(shù)

1.1數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘就是從海量信息中挖掘出有用的數(shù)據(jù)，這些海量信息模糊、隨機、不完整及有噪聲，通過數(shù)據(jù)挖掘發(fā)現(xiàn)隱蔽有規(guī)律可用的信息并轉(zhuǎn)化成可理解的知識。數(shù)據(jù)挖掘過程主要包括幾個步驟：數(shù)據(jù)預處理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)挖掘及模式評估。

1.2MFP-Miner算法

關(guān)聯(lián)規(guī)則的挖掘算法有很多種，其中MFP-Miner是一種基于FP-Tree的快速挖掘算法。它提取出事務數(shù)據(jù)庫中的每條事務所包含的頻繁項目，并按支持度降序排序，然后壓縮存儲到頻繁模式樹中，在進行最大頻繁項目集挖掘過程中只需對該樹進行搜索,而不需掃描數(shù)據(jù)庫，在挖掘過程中不需產(chǎn)生最大頻繁候選項目集，因此，本文采用MFP-Miner算法對圖書借閱關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘。

2圖書借閱數(shù)據(jù)關(guān)聯(lián)挖掘?qū)嵗治雠c應用

2.1數(shù)據(jù)預處理

一般情況下，因于某些屬性值的空缺或不確定，可能造成數(shù)據(jù)庫中的數(shù)據(jù)不完整，因為同一個屬性在不同表中的名稱不同，相同屬性名在不同的表中有不同的含義又往往造成數(shù)據(jù)庫中的數(shù)據(jù)不一致。利用這些不完整、含噪聲、不一致的數(shù)據(jù)進行數(shù)據(jù)挖掘，挖掘質(zhì)量很難得到保證，得出的結(jié)論也往往是不準確的。并且圖書館的工作中數(shù)據(jù)庫中的數(shù)據(jù)量往往非常大，數(shù)據(jù)的冗余、不一致、不完整現(xiàn)象很難避免，數(shù)據(jù)分布也較為分散，不易進行綜合查詢。為了改善數(shù)據(jù)質(zhì)量，提高數(shù)據(jù)挖掘的效率和質(zhì)量，在數(shù)據(jù)挖掘前必須對數(shù)據(jù)進行選取與清洗、集成、變換等預處理，這個階段也稱為數(shù)據(jù)準備階段，是數(shù)據(jù)挖掘過程中很重要的、必不可少的一個環(huán)節(jié)，在整個過程中占有十分重要的地位，同時這個階段工作量也相當大，甚至占總工作量的4/5。從圖書館借閱數(shù)據(jù)挖掘中，數(shù)據(jù)準備階段一般包括以下幾個步驟。2.1.1數(shù)據(jù)選取數(shù)據(jù)選取是指根據(jù)用戶需求，從原始數(shù)據(jù)庫中選擇與知識發(fā)現(xiàn)任務相關(guān)的數(shù)據(jù)表項。圖書管理系統(tǒng)中數(shù)據(jù)庫的數(shù)據(jù)量往往非常巨大，涵蓋范圍相當廣泛，數(shù)據(jù)選取時應盡量選取足以完成知識發(fā)現(xiàn)任務的最小數(shù)據(jù)表項。為了描述各類借閱圖書之間的關(guān)聯(lián)度，選取數(shù)據(jù)集應包括讀者號（dzh）、借閱日期（jsrq）、圖書分類號（tsflh），所以只要選取包括這3項的圖書借閱表（見表1）即可。2.1.2數(shù)據(jù)篩選根據(jù)研究目標選取所需的信息，即計算機科學與技術(shù)專業(yè)學生的讀者號（dzh）和圖書分類號（tsflh）。查詢語句為：SELECTdzh，tsflhINTOjsjtbFROMltkWHERE（SUBSTRING（dzh，1，3）=′310′）說明：計算機科學與技術(shù)專業(yè)讀者號以310開始。執(zhí)行后，得到所需的計算機專業(yè)讀者借閱表（見表2）。從表2中可以看出，表中的每一條記錄描述了讀者的一次借閱行為，包含讀者號和圖書分類號，從圖書分類的角度分析，這里的圖書分類號指的是某一種圖書，分類太細，信息分布是分散的，這種格式的數(shù)據(jù)不符合基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的輸入要求，但可以利用MicrosoftSQLServer2000的DTS工具將數(shù)據(jù)轉(zhuǎn)換成所需要的布爾型事務數(shù)據(jù)庫。2.1.3數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換主要是對數(shù)據(jù)進行規(guī)格化操作?！皥D書分類號”屬性不是針對某一本書，而是針對某一類或者某一大類，因此應該采用較高層次的類來替換圖書分類號。在這里，只取分類號中的大類，忽略小類。如TP368-44取為TP368。查詢語句為：UPDATEjsjtbSETtsflh=LEFT（tsflh，CHARINDEX（′-′，tsflh）-1）WHERE（CHARINDEX（′-′，tsflh）>0）2.1.4刪除重復記錄讀者借閱的同一類圖書的記錄只需保留一條即可，使用語句如下：SELECTdzh，tsflhINTOjsjtb2FROMjsjtbGROUPBYdzh，tsflh2.1.5刪除無效數(shù)據(jù)在圖書借閱中，讀者在只借閱一本書的記錄的情況下，不存在圖書類別關(guān)聯(lián)，所以要將此類數(shù)據(jù)刪除。使用語句：SELECTdzh，tsflhINTOjsjtb3FROMjsjtb2WHERE（dzhIN（SELECTdzhFROMjsjtb2ASjsjtb2_1GROUPBYdzhHAVING（COUNT（*）>1）））2.1.6用DTS工具將數(shù)據(jù)轉(zhuǎn)換成算法所需要的布爾型事務數(shù)據(jù)庫（見表3）

2.2基于MFP-Miner算法的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘

構(gòu)造FP-Tree的步驟如下：（1）根據(jù)圖書分類對事務數(shù)據(jù)庫進行分類統(tǒng)計,求出各類圖書的支持計數(shù)，并篩選出大于等于最小支持計數(shù)的頻繁項目（在此假定最小支持計數(shù)為120），對結(jié)果按支持計數(shù)降序排列，生成頻繁項目列表L1（見表4）。第一列屬性名proj指的是項目，第二列屬性名pronum指的是項目的支持計數(shù)。（2）第二次掃描排序后的事務數(shù)據(jù)庫，以NULL作為根節(jié)點構(gòu)造頻繁模式樹，步驟如下：①掃描第一個事務，事務中的頻繁項目以第一列作為關(guān)鍵字排序，得到項目列表〈（TP311.13∶1），（TP368.3∶1）〉，該分支具有2個節(jié)點，其中TP311.13是根的子節(jié)點，TP368.3鏈接到TP311.13。②同理，依次掃描事務數(shù)據(jù)庫中其他事務，遍歷樹并搜索與該項節(jié)點同名的節(jié)點，如果不存在同名節(jié)點，那么就新建頻繁模式樹分支；若某項目列表與FP-Tree的路徑具有相同的前綴，則對公共前綴各節(jié)點計數(shù)累加1而無須另外創(chuàng)建新節(jié)點。這樣，第二遍掃描完事務數(shù)據(jù)庫后，F(xiàn)P-tree建立完成。生成關(guān)聯(lián)規(guī)則表（見表5）。2.3數(shù)據(jù)分析本文通過數(shù)據(jù)挖掘方法找出類似于“讀者借閱了A文獻也會借閱B文獻”的規(guī)律，挖掘出如下規(guī)則：（1）有15.8%的讀者在借閱國際互聯(lián)網(wǎng)類圖書的同時有63.8%的可能再借閱操作系統(tǒng)類圖書。（2）有16.2%的讀者在借閱計算機網(wǎng)絡類圖書的同時有60.2%的可能再借閱模式識別與裝置類圖書。（3）有17.6%的讀者在借閱BASIC編程語言類圖書的同時有58.9%的可能再借閱信息處理類圖書。（4）有17.9%的讀者在借閱表格處理系統(tǒng)類圖書的同時有56.5%的可能再借閱C編程語言類圖書。

3結(jié)語

本文基于高校圖書館的海量借閱信息，引入數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則技術(shù)，建立了基于MFP-Miner算法的圖書借閱數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘，快速、準確地挖掘出隱藏在圖書借閱數(shù)據(jù)背后有價值的規(guī)則和潛在的信息，為圖書借閱、圖書推薦等服務提供科學的數(shù)據(jù)支持，從而提升高校圖書館的讀者服務工作質(zhì)量。面對信息化的浪潮，充分利用數(shù)據(jù)挖掘來擴充圖書館數(shù)據(jù)庫的實際應用，是圖書館數(shù)據(jù)庫高層應用的必然趨勢，數(shù)據(jù)挖掘技術(shù)在圖書館信息管理方面必定會發(fā)揮更大的作用。

作者:吳玉春龍小建單位:井岡山大學

參考文獻

［1］JochenHipp，UlrichGuntzer，Gholamreza.AlgorithmsforAssociationRuleMining-AGeneralSurveyandComparison［J］.SIGKDDExplo-rations，2000（1）：58-64.

［2］KleinbergLetal.Amicroecnomicviewofdatamining［J］.DataminingandKnowledgeDiseovery，1998（2）:311-324.

［3］J.Han，M.Kamber.DataMining：ConceptsandTechniques［M］.SanFrancisco：MorganKaufman，2001.（

關(guān)聯(lián)規(guī)則下的圖書借閱數(shù)據(jù)挖掘

熱門標簽

相關(guān)文章

精品范文