數(shù)據(jù)挖掘檔案管理應(yīng)用研究

時(shí)間:2022-06-04 03:03:12

導(dǎo)語:數(shù)據(jù)挖掘檔案管理應(yīng)用研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘檔案管理應(yīng)用研究

一、數(shù)據(jù)挖掘技術(shù)

當(dāng)今社會(huì)科技迅速發(fā)展,以往收集數(shù)據(jù)的模式已經(jīng)無法適應(yīng)當(dāng)代社會(huì)發(fā)展需要。而數(shù)據(jù)挖掘技術(shù)的誕生,提高了數(shù)據(jù)收集的速度和質(zhì)量,且在某種程度上還促進(jìn)了社會(huì)的發(fā)展。

(一)數(shù)據(jù)挖掘技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)是從許多的、不完全的、相對(duì)模糊的、存在噪聲的、任意的實(shí)際數(shù)據(jù)當(dāng)中,找出其中隱藏的、人們?cè)炔涣私獾?、但又是?shí)際存在的、有用的信息和知識(shí)的過程[1]。數(shù)據(jù)挖掘所得信息具有先前未知、有效和實(shí)用三個(gè)特征。決策者對(duì)挖掘所得信息進(jìn)行分析,從中提取出隱藏的關(guān)系和模式,來對(duì)未來發(fā)生的行為進(jìn)行預(yù)測(cè)。

(二)數(shù)據(jù)挖掘技術(shù)的運(yùn)用

在使用數(shù)據(jù)挖掘技術(shù)的過程中,數(shù)學(xué)方法經(jīng)常被用到,但在一些特殊的時(shí)候,也會(huì)用到非數(shù)學(xué)的方法。另外,使用數(shù)據(jù)挖掘技術(shù)過程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數(shù)據(jù)。在使用數(shù)據(jù)挖掘技術(shù)過程中,利用對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘、收集和分析得出相應(yīng)的結(jié)果,并且這個(gè)結(jié)果在某些情況下,恰好能被用在管理信息、優(yōu)化查詢、過程控制、決策支持及數(shù)據(jù)維護(hù)等方面[2]。然而,由于數(shù)據(jù)挖掘技術(shù)特性,其在使用的過程中,涉及學(xué)科比較廣,并且還涉及數(shù)據(jù)庫、數(shù)理統(tǒng)計(jì)、人工智能、并行計(jì)算、機(jī)器學(xué)習(xí)、可視化等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)中,常用到的有規(guī)則歸納、決策數(shù)、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及可視化等技術(shù)。

二、數(shù)據(jù)挖掘技術(shù)的形式

數(shù)據(jù)挖掘分為描述型與預(yù)測(cè)型兩種形式。描述型是對(duì)數(shù)據(jù)中存在的規(guī)則進(jìn)行描述,并且依據(jù)數(shù)據(jù)具有微觀性的特點(diǎn)找出其表征的、普遍性強(qiáng)的、概念層次較高的、比較宏觀的知識(shí),并對(duì)數(shù)據(jù)進(jìn)行概括總結(jié)和抽象來描述出同一類事物的相同屬性。預(yù)測(cè)型是分析和處理現(xiàn)有的數(shù)據(jù),來獲得某類事物中某些屬性的內(nèi)容,或者是預(yù)測(cè)出某類事物將來形成的規(guī)律等。在使用這兩種挖掘技術(shù)時(shí),經(jīng)常用到的方法有分類方法、關(guān)聯(lián)方法和粗糙集方法。

(一)分類

在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過程中,分類是挖掘技術(shù)里的重點(diǎn)部分。數(shù)據(jù)收集的好壞,以及收集的數(shù)據(jù)的屬性分析都是由分類決定的。因此,分類在運(yùn)用挖掘技術(shù)的過程中具有非常重要的作用。分類是對(duì)數(shù)據(jù)庫屬性進(jìn)行分析,把元組劃分成不同種類的過程。并且在其劃分過程中,根據(jù)數(shù)據(jù)形成的訓(xùn)練集,來集中對(duì)部分?jǐn)?shù)據(jù)進(jìn)行處理劃分。然后,再對(duì)余下的部分?jǐn)?shù)據(jù)做測(cè)試,在測(cè)試滿足要求以后,遵守對(duì)應(yīng)的規(guī)則對(duì)其分類。在實(shí)際分類過程中,比較有代表性的分類過程是:明確分類的范圍、找出目標(biāo)屬性、組成訓(xùn)練集、研究屬性、算法選取、分類計(jì)算、結(jié)果顯示、選出測(cè)試集、分類規(guī)則驗(yàn)證、輸出分類規(guī)則等[2]。

(二)相關(guān)規(guī)則

相關(guān)規(guī)則是數(shù)據(jù)挖掘技術(shù)中,比較簡(jiǎn)單實(shí)用的關(guān)聯(lián)分析規(guī)則。它可以準(zhǔn)確地將相關(guān)數(shù)據(jù)進(jìn)行描述,并且能夠?qū)?shù)據(jù)進(jìn)行嚴(yán)格分析。在相關(guān)規(guī)則使用過程中,主要是對(duì)具體事物進(jìn)行描寫,并按照相同屬性進(jìn)行結(jié)合,然后對(duì)其進(jìn)行總結(jié)概括,找出其共同屬性和模式。一般會(huì)將關(guān)聯(lián)規(guī)則直接應(yīng)用到數(shù)據(jù)庫中,統(tǒng)一地記錄下每個(gè)事物得出的數(shù)據(jù),不但可以正確地記錄數(shù)據(jù),同時(shí)消減了數(shù)據(jù)的搜索空間,使得整個(gè)運(yùn)行系統(tǒng)得到改善和提高。

(三)粗糙集

數(shù)據(jù)挖掘技術(shù)中的粗糙集是被用作對(duì)不精確和不確定性知識(shí)進(jìn)行研究的一種數(shù)學(xué)工具,在系統(tǒng)整個(gè)使用中占的優(yōu)勢(shì)比較大[3]。首先,在使用粗糙集方法時(shí),相應(yīng)的信息不需要了解,并且在運(yùn)算的時(shí)候,算法比較簡(jiǎn)單且容易控制,得到大量的計(jì)算機(jī)用戶的喜愛。其次,在運(yùn)行粗糙集的過程中,能從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識(shí)發(fā)現(xiàn)過程中的噪聲干擾,同時(shí)還能將這類數(shù)據(jù)的規(guī)律在最短時(shí)間內(nèi)找出,并利用表格對(duì)其進(jìn)行歸納總結(jié),將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應(yīng)用有些規(guī)則的過程中也會(huì)出現(xiàn)不確定性。應(yīng)用數(shù)據(jù)庫的時(shí)候會(huì)產(chǎn)生許多不確定性的信息,而這些不確定性都得依賴粗糙集對(duì)其進(jìn)行處理,這樣就使得數(shù)據(jù)挖掘的效率得到大大提高。

三、挖掘技術(shù)在檔案管理中應(yīng)用的意義

記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,在管理檔案信息的實(shí)際應(yīng)用中,引入挖掘技術(shù)可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理中是具有非常重要意義的。

(一)提高檔案信息管理的安全性

檔案信息是記載一些比較寶貴的資料,由此可知其價(jià)值的表現(xiàn)就是檔案信息的實(shí)體。對(duì)檔案管理者來講,保存有歷史意義的檔案信息的時(shí)間應(yīng)越長(zhǎng)越好。保存得越長(zhǎng)遠(yuǎn),越體現(xiàn)了檔案信息的價(jià)值。其使用價(jià)值相對(duì)應(yīng)地增大了,被使用的頻率也相應(yīng)地增加,使保管工作非常困難,使用次數(shù)越頻繁,就越容易縮短檔案信息的壽命。同時(shí),保密性是檔案信息管理的另一項(xiàng)重要工作,萬一檔案信息外漏,不僅相關(guān)人員的隱私權(quán)受到侵犯,還有可能對(duì)其以后生活造成消極負(fù)面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中,可以很好地避免這種情況的發(fā)生,從而保護(hù)檔案信息實(shí)體和內(nèi)容的安全。

(二)加快檔案管理的效率,降低檔案管理的成本

檔案管理工作中引用數(shù)據(jù)挖掘技術(shù),能夠有效改變以往傳統(tǒng)的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數(shù)據(jù)挖掘技術(shù),工作人員的管理時(shí)間被大量節(jié)省,處理檔案信息的速度得到提高。同時(shí),還可以加快檔案鑒定工作的發(fā)展。檔案管理工作中的一個(gè)重要環(huán)節(jié)就是檔案的鑒定,傳統(tǒng)的檔案鑒定工作是由檔案管理人員憑借多年經(jīng)驗(yàn)來實(shí)現(xiàn)的,具有主觀性。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價(jià)值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據(jù)可依。

四、數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用

隨著計(jì)算機(jī)信息化的迅猛發(fā)展,檔案管理工作也需要進(jìn)一步的完善。過去的檔案管理方式已經(jīng)不能適應(yīng)當(dāng)代社會(huì)的需要,很多數(shù)據(jù)信息無法有效地使用。要想有效地利用現(xiàn)有的檔案數(shù)據(jù),使其價(jià)值得到充分發(fā)揮,使用數(shù)據(jù)挖掘技術(shù)把那些隱含的信息挖掘出來,對(duì)其總結(jié)和使用是非常有必要的。檔案信息管理中使用數(shù)據(jù)挖掘技術(shù),能讓挖掘出的知識(shí)信息得到發(fā)揮,并且能使檔案數(shù)據(jù)信息價(jià)值被充分地利用。檔案管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的方法有以下幾種:

(一)檔案分類法

檔案分類法是按照不同的種類把許多檔案進(jìn)行整理的方法。把檔案中屬性相似的放在同一個(gè)類別中,把那些檔案屬性不同的放在不同的類別當(dāng)中。在檔案進(jìn)行分類的過程中,數(shù)據(jù)挖掘技術(shù)能夠詳細(xì)地劃分這些檔案的類別,幫助管理員進(jìn)行檔案歸類,檔案的檢索效率和速度得到有效提高。

(二)檔案收集法

檔案收集法是先分析數(shù)據(jù)庫中的數(shù)據(jù),并通過對(duì)這些數(shù)據(jù)做詳細(xì)的描述建立模型。然后用這些模型和所有的測(cè)試樣本進(jìn)行對(duì)比,一旦經(jīng)測(cè)試后有一個(gè)模型與樣本相符合,就可以依據(jù)這個(gè)模型對(duì)管理對(duì)象進(jìn)行分類。

(三)檔案保留法

檔案保留法其實(shí)就留住老的人員,使其檔案不流失的過程。對(duì)某個(gè)單位來講,使用新人員的成本比留住一個(gè)老人員的成本要高很多。因此,在研究保留老人員時(shí)的一項(xiàng)很重要的工作是找出人員檔案流失的原因。并且通過數(shù)據(jù)挖掘技術(shù),來對(duì)人員檔案流失的現(xiàn)象進(jìn)行詳細(xì)分析,并采取相應(yīng)的辦法,留住老的人員,避免其檔案的流失。檔案管理中,不同使用者所需檔案使用程度和需求也不一樣[4]。但把數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中之后,利用數(shù)據(jù)挖掘技術(shù)對(duì)檔案進(jìn)行分類,提高檔案檢索效率,利用對(duì)檔案目錄和信息的挖掘找出檔案收集工作的重點(diǎn),利用對(duì)檔案數(shù)據(jù)的挖掘,找出檔案管理人員和檔案使用人員與檔案實(shí)體之間的關(guān)系,利用對(duì)檔案使用情況的挖掘找出檔案內(nèi)容與檔案使用人員之間的關(guān)系,針對(duì)不同人員提供不同的個(gè)性化服務(wù),為使用人員快速查詢出所需檔案信息提供了方便,同時(shí)也使得檔案管理工作變得更加順利。隨著數(shù)據(jù)挖掘技術(shù)在學(xué)術(shù)界和工業(yè)界的影響越來越大,數(shù)據(jù)挖掘的研究向著更深入和實(shí)用技術(shù)方向發(fā)展。由此可知,未來數(shù)據(jù)挖掘技術(shù)和檔案管理的結(jié)合也會(huì)更加緊密。數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案管理中,改變了傳統(tǒng)的檔案管理模式,且為未來的檔案信息管理提供了良好的平臺(tái)和技術(shù)支持,是開發(fā)信息化檔案管理系統(tǒng)必不可少的技術(shù)。(本文來自于《黑河學(xué)院學(xué)報(bào)》雜志?!逗诤訉W(xué)院學(xué)報(bào)》雜志簡(jiǎn)介詳見.)

作者:索向峰工作單位:黑河學(xué)院計(jì)算機(jī)科學(xué)與信息工程系