數(shù)據(jù)挖掘預(yù)處理技術(shù)研究
時(shí)間:2022-05-14 10:32:10
導(dǎo)語(yǔ):數(shù)據(jù)挖掘預(yù)處理技術(shù)研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:21世紀(jì)以來(lái)隨著互聯(lián)網(wǎng)的迅猛發(fā)展,我們進(jìn)入了一個(gè)信息大爆炸的時(shí)代。信息經(jīng)過(guò)記錄與存儲(chǔ)成了海量的數(shù)據(jù),如何在這海量的數(shù)據(jù)中有效地挖掘出有價(jià)值的知識(shí)成了數(shù)據(jù)挖掘的主要解決的問(wèn)題。不同的數(shù)據(jù)預(yù)處理技術(shù)影響著數(shù)據(jù)挖掘的質(zhì)量,我們將分析幾種常用的數(shù)據(jù)預(yù)處理技術(shù)對(duì)于數(shù)據(jù)挖掘的影響程度。
關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)挖掘;數(shù)據(jù)挖掘質(zhì)量
數(shù)據(jù)挖掘作為近幾年十分熱門(mén)的學(xué)科,隨著人工智能和數(shù)據(jù)庫(kù)的發(fā)展而崛起的一種數(shù)據(jù)技術(shù),普遍應(yīng)用于金融、軍事、農(nóng)業(yè)、航空航天、科學(xué)探討以及其他范疇。它的出現(xiàn)可以說(shuō)讓人們對(duì)于數(shù)據(jù)價(jià)值的利用率提高到了新的高度,許多未解之謎或許可以因此得以破解。常見(jiàn)的數(shù)據(jù)挖掘核心步驟包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段和結(jié)果分析階段。數(shù)據(jù)準(zhǔn)備階段占據(jù)了大約60%的工作量,它將多種不同的數(shù)據(jù)集合到一塊,消除噪聲點(diǎn)數(shù)據(jù)、不一致數(shù)據(jù)和不清楚完整的數(shù)據(jù),并從中提取出對(duì)我們有用的數(shù)據(jù),并通過(guò)一定的規(guī)則變換,組成我們所需要的數(shù)據(jù)倉(cāng)庫(kù)。我們的研究重點(diǎn)就是這個(gè)數(shù)據(jù)準(zhǔn)備階段。
一、數(shù)據(jù)挖掘相關(guān)概念
(一)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是經(jīng)過(guò)了分析大量的有關(guān)數(shù)據(jù)來(lái)揭示有意義的新的相關(guān)聯(lián)系、趨向和形式的過(guò)程。它融匯了人工智能、數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)范疇的理論和技巧。該技術(shù)的涌現(xiàn)的崛起是現(xiàn)代信息技術(shù)發(fā)展到必然階段的產(chǎn)物,它能夠飛快探求數(shù)據(jù)之間的潛伏相關(guān)聯(lián)系和規(guī)則。所起到作用類似于科學(xué)家們經(jīng)過(guò)不斷的科學(xué)分析所發(fā)現(xiàn)的科學(xué)規(guī)律。(二)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是為了處理原始數(shù)據(jù)中所存在的“臟數(shù)據(jù)”現(xiàn)象,是數(shù)據(jù)挖掘中重要的一環(huán)。數(shù)據(jù)預(yù)處理的效果好,則可以提高數(shù)據(jù)挖掘的效率,從而提高挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的一個(gè)非常重要的數(shù)據(jù)準(zhǔn)備工作,是知識(shí)挖掘過(guò)程的關(guān)鍵所在,它保證挖掘數(shù)據(jù)的正確性和有效性,通過(guò)對(duì)數(shù)據(jù)格式和實(shí)質(zhì)的調(diào)整,使數(shù)據(jù)更符合挖掘的需求。為什么原始數(shù)據(jù)中會(huì)存在有“臟數(shù)據(jù)”呢?重要的原因有以下三點(diǎn),一是數(shù)據(jù)采集時(shí)和數(shù)據(jù)分析時(shí),咱們所思考的要素和成分不一致,搜集到了缺失值,即缺乏完整性;二是數(shù)據(jù)傳輸過(guò)程中會(huì)出現(xiàn)操作失誤產(chǎn)生了某些噪聲值,即缺乏準(zhǔn)確性;三是數(shù)據(jù)在收集過(guò)程不限來(lái)源導(dǎo)致了不一致性的值,比如序號(hào)“1”、“2”、“3”和序號(hào)“A”、“B”、“C”其實(shí)所代表的含義是一致但表達(dá)不一致,即缺乏一致性。常見(jiàn)的缺失值填充算法包括EM最大期望值算法、MI算法和KNNI算法等。數(shù)據(jù)預(yù)處理技術(shù)的重點(diǎn)功能有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)簡(jiǎn)化。而預(yù)處理方法可以大致分為,基于粗糙集(RS)理論的約簡(jiǎn)方法、基于概念層次樹(shù)的數(shù)據(jù)濃縮方法思想和普化知識(shí)發(fā)現(xiàn)和基于統(tǒng)計(jì)分析的屬性選擇方法。本文主要測(cè)試了基于粗糙集(RS)的理論的簡(jiǎn)約方法和基于概念層次樹(shù)的數(shù)據(jù)濃縮方法。
二、數(shù)據(jù)預(yù)處理實(shí)現(xiàn)方法
下面我們簡(jiǎn)單介紹一下,我們的數(shù)據(jù)預(yù)處理技術(shù)的幾個(gè)方法。(一)基于粗糙集(RS)理論的約簡(jiǎn)方法。對(duì)于研究對(duì)于不精確、不確定性知識(shí)的十分有效的數(shù)學(xué)工具,由于它的易用性,目前是國(guó)內(nèi)外研究的重點(diǎn)之一?;诖植诩≧S)的理論約簡(jiǎn)方法處理過(guò)程如下:(1)大批量無(wú)順序的數(shù)據(jù)通過(guò)泛化后,整頓成一個(gè)二維表,構(gòu)成一個(gè)知識(shí)系統(tǒng);(2)根據(jù)我們所要定義形成二進(jìn)制可識(shí)別矩陣;(3)依據(jù)算法對(duì)矩陣進(jìn)行規(guī)約化簡(jiǎn),并得到屬性的約簡(jiǎn);(4)評(píng)判歸約集,選擇具備較少屬性的歸約集,而不改變?cè)镜囊蕾囮P(guān)系,約簡(jiǎn)不是唯一的;(5)從約簡(jiǎn)表抽取規(guī)則。(二)基于概念層次樹(shù)的數(shù)據(jù)濃縮方法。概念層次樹(shù)是數(shù)據(jù)分類的方法之一,它可以將總結(jié)好的數(shù)據(jù)提升到較高的概念層,為數(shù)據(jù)挖掘的各個(gè)環(huán)節(jié)提供背景,從而提高知識(shí)的準(zhǔn)確性和可理解性。比較適用于挖掘用戶特征等場(chǎng)景,他的實(shí)現(xiàn)步驟如下:(1)定義概念層次樹(shù)和相關(guān)語(yǔ)義表,作為概念分層的依據(jù);(2)對(duì)數(shù)據(jù)進(jìn)行概念提升;(3)進(jìn)行類組計(jì)算;(4)得出規(guī)則特征。
三、結(jié)語(yǔ)
根據(jù)我們的測(cè)試結(jié)果可知,粗糙集(RS)理論的約簡(jiǎn)方法的正確率比概念層次樹(shù)的數(shù)據(jù)濃縮方法稍高,但是一組測(cè)試數(shù)據(jù)并不容易比較出兩者的區(qū)別。粗糙集(RS)理論適用于不確定的信息和不完整信息的處理,概念層次樹(shù)適用于對(duì)特征值的挖掘分析。在未來(lái)一段時(shí)間里,數(shù)據(jù)挖掘技術(shù)將會(huì)是世界主流技術(shù)的研究熱門(mén)之一,我相信在不遠(yuǎn)的將來(lái)數(shù)據(jù)挖掘技術(shù)將會(huì)助力人工智能技術(shù)的發(fā)展,進(jìn)而推動(dòng)社會(huì)的科技水平。
作者:蔡念慈 柯 敏 單位:福州外語(yǔ)外貿(mào)學(xué)院
熱門(mén)標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論