機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘的應(yīng)用
時(shí)間:2022-12-07 10:22:08
導(dǎo)語(yǔ):機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘的應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:在互聯(lián)網(wǎng)高速發(fā)展的今天,產(chǎn)生的數(shù)據(jù)量也與日俱增,伴隨大數(shù)據(jù)而來(lái)的是數(shù)據(jù)處理問(wèn)題。數(shù)據(jù)挖掘旨在通過(guò)對(duì)數(shù)據(jù)的研究,通過(guò)一系列算法來(lái)充分挖掘隱藏信息,使數(shù)據(jù)的價(jià)值最大化。目前,數(shù)據(jù)挖掘在商業(yè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用。機(jī)器學(xué)習(xí),是數(shù)據(jù)挖掘最為核心,也是應(yīng)用最為廣泛的數(shù)據(jù)處理方法。本文通過(guò)研究機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用,總結(jié)目前在數(shù)據(jù)挖掘領(lǐng)域較為活躍的幾種機(jī)器學(xué)習(xí)算法,并對(duì)未來(lái)的發(fā)展趨勢(shì)以及可能出現(xiàn)的問(wèn)題進(jìn)行了展望。
關(guān)鍵詞:數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);大數(shù)據(jù)
隨著Web2.0時(shí)代的到來(lái),互聯(lián)網(wǎng)數(shù)據(jù)量激增,衍生了各種數(shù)據(jù)相關(guān)的方向,其中數(shù)據(jù)挖掘是數(shù)據(jù)處理方向的新生學(xué)科。通過(guò)對(duì)數(shù)據(jù)隱藏信息的研究,挖掘大量數(shù)據(jù)背后的潛在價(jià)值,這些已經(jīng)在商業(yè)應(yīng)用中占有了相當(dāng)重要的位置。傳統(tǒng)的數(shù)據(jù)挖掘中多應(yīng)用統(tǒng)計(jì)學(xué)方法,但是在大數(shù)據(jù)量面前,單純地使用傳統(tǒng)統(tǒng)計(jì)學(xué)方法略顯不足。機(jī)器學(xué)習(xí)算法是一種能夠從數(shù)據(jù)中學(xué)習(xí)的算法。它產(chǎn)生于20世紀(jì),那時(shí)互聯(lián)網(wǎng)還不夠發(fā)達(dá),導(dǎo)致網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù)量還很有限,另一方面,硬件限制了數(shù)據(jù)的收集存儲(chǔ)。如今,這些限制都已被大大削弱,機(jī)器學(xué)習(xí)作為一門以數(shù)據(jù)驅(qū)動(dòng)的學(xué)科,成為數(shù)據(jù)挖掘中最為重要的方法。本文注重機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中算法的應(yīng)用部分,首先介紹數(shù)據(jù)挖掘的基本需求及過(guò)程,然后對(duì)常用在數(shù)據(jù)挖掘中的機(jī)器學(xué)習(xí)算法進(jìn)行分類、研究、總結(jié),最后在對(duì)比和綜述的基礎(chǔ)上,提出了未來(lái)的發(fā)展可能面臨的問(wèn)題以及潛在的研究方向。
1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘作為一門全新的研究領(lǐng)域,代替了傳統(tǒng)的數(shù)據(jù)分析,以新興的方法和理論挖掘數(shù)據(jù)的潛在價(jià)值。數(shù)據(jù)挖掘主要是經(jīng)由以下幾個(gè)步驟來(lái)處理數(shù)據(jù)。(1)選取或構(gòu)造數(shù)據(jù)集,為了方便后續(xù)的處理,關(guān)于數(shù)據(jù)集的格式、內(nèi)容等的界定條件需要慎重選取。(2)數(shù)據(jù)預(yù)處理工作。這一步是為了統(tǒng)一數(shù)據(jù)集內(nèi)部數(shù)據(jù)的格式和內(nèi)容,具體包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)離散化等,其中特征工程是數(shù)據(jù)處理中最為重要的部分。(3)數(shù)據(jù)建模和特征篩選階段。綜合考慮需求和模型等因素,通過(guò)模型的反饋,在調(diào)整參數(shù)的同時(shí),對(duì)比選取相對(duì)最優(yōu)特征集。這個(gè)階段的具體任務(wù)根據(jù)選取的模型不同而形式各異。(4)形成結(jié)論。模型在實(shí)際測(cè)試數(shù)據(jù)中表現(xiàn)出的泛化能力,往往能定向的反饋出有價(jià)值的信息,此時(shí)需要數(shù)據(jù)工程師根據(jù)結(jié)果分析并得出結(jié)論,甚至可能會(huì)重新開(kāi)始一輪挖掘過(guò)程的迭代。
2機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用
機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要分支,其自動(dòng)化獲取的特性,幫助人們?cè)诩姺睆?fù)雜的數(shù)據(jù)中高效的提煉出潛在的價(jià)值。本文根據(jù)經(jīng)典的機(jī)器學(xué)習(xí)分類,從監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)兩個(gè)方面,來(lái)介紹幾大典型的機(jī)器學(xué)習(xí)算法。2.1監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是指能夠?qū)θ我饨o定的輸入,能給出相應(yīng)的輸出模型的統(tǒng)稱。監(jiān)督學(xué)習(xí)是極其重要的統(tǒng)計(jì)學(xué)習(xí)分支,也是統(tǒng)計(jì)學(xué)習(xí)中內(nèi)容最豐富,應(yīng)用最廣泛的部分。(1)樸素貝葉斯分類器樸素貝葉斯算法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的一種分類方法。貝葉斯定理,是關(guān)于條件和邊緣概率分布的轉(zhuǎn)換公式。在模型中用來(lái)將先驗(yàn)概率計(jì)算轉(zhuǎn)化為后驗(yàn)條件概率,也因此貝葉斯模型被稱為生成模型,即模型的目的在于求得定義在輸入和輸出空間上的聯(lián)合概率分布,進(jìn)而得到極大化的后驗(yàn)概率。貝葉斯模型的數(shù)學(xué)表達(dá)式如下:其中P(Xi)和P(A|Xi)由先驗(yàn)分布直接計(jì)算得出。實(shí)際上同,P(A|Xi)中的估計(jì)參數(shù)是指數(shù)級(jí)別的,假設(shè)Xi可能取值有Si個(gè),Y可能取值有K個(gè),那么參數(shù)個(gè)數(shù)為。想要同時(shí)估計(jì)出如此巨量的參數(shù),幾乎是不可能的,而且很難保證參數(shù)的全局最優(yōu)性甚至很難保證局部最優(yōu),如此一來(lái),參數(shù)的估計(jì)和預(yù)期效果不成正比。樸素貝葉斯法對(duì)上述出現(xiàn)的問(wèn)題給出了一個(gè)較強(qiáng)的假設(shè):用于分類的特征在類確定的條件下都是條件獨(dú)立的。這個(gè)條件獨(dú)立性大大簡(jiǎn)化了參數(shù)的數(shù)量和估計(jì)的計(jì)算量,但有時(shí)會(huì)犧牲一定的分類準(zhǔn)確率。在上述兩個(gè)理論的基礎(chǔ)上,樸素貝葉斯的算法過(guò)程如下。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸入和輸出的聯(lián)合概率分布,然后基于此模型對(duì)于給定的輸入X,利用貝葉斯定理求出后驗(yàn)概率最大的輸出Y。(2)決策樹(shù)決策樹(shù)模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹(shù)形結(jié)構(gòu)。決策樹(shù)由結(jié)點(diǎn)和有向邊組成。其中,內(nèi)部節(jié)點(diǎn)表示劃分特征,葉結(jié)點(diǎn)表示一個(gè)類。決策樹(shù)的學(xué)習(xí)過(guò)程中,最為核心的步驟是特征選擇。對(duì)于給定的損失函數(shù),在決策樹(shù)的假設(shè)空間中選出一個(gè)最優(yōu)化模型是個(gè)NP完全問(wèn)題,所以現(xiàn)實(shí)中決策樹(shù)學(xué)習(xí)算法通常采用啟發(fā)式。即每次遞歸的選擇一個(gè)最優(yōu)屬性,由此分割數(shù)據(jù),構(gòu)建子樹(shù)。這里的最優(yōu)屬性選擇就是特征選擇過(guò)程,通常采用比較信息增益的策略。信息增益是指信息熵的差或信息熵之比,信息熵是從某一個(gè)特定的角度描述數(shù)據(jù)混亂程度的量。信息熵的計(jì)算公式如下:其中H(X)代表樣本集合X的信息熵,Ai代表屬性A中第i個(gè)取值的先驗(yàn)概率。由上述理論的基礎(chǔ),給出決策樹(shù)算法的過(guò)程。針對(duì)每個(gè)樣本集合,依次按每個(gè)屬性取值劃分集合,取使信息熵減少最多或增益比最大的屬性來(lái)劃分下一級(jí)葉節(jié)點(diǎn)。在每個(gè)集合中迭代以上步驟,直至子集合的熵為0或到達(dá)某一閾值,分類結(jié)束。決策樹(shù)聚類算法尤其適合多樣本情況下的離散屬性值數(shù)據(jù)處理,但在屬性分類較多的樣本集中,需要追加剪枝的算法來(lái)優(yōu)化模型。(3)提升方法提升方法基于這樣一種思想:對(duì)于一個(gè)復(fù)雜任務(wù)來(lái)說(shuō),將多個(gè)專家的判斷進(jìn)行適當(dāng)?shù)木C合所得出的判斷,要比其中任何一個(gè)專家單獨(dú)的判斷好。這里的專家即指如上所述的決策樹(shù)等弱分類器。具體來(lái)說(shuō),算法有這樣兩個(gè)關(guān)鍵的步驟。其一是樣本權(quán)值調(diào)整。初始為每個(gè)樣本設(shè)置相等的初值,在一次弱分類器學(xué)習(xí)之后,將分類錯(cuò)誤的樣本點(diǎn)權(quán)值增大。算法認(rèn)為,分類錯(cuò)誤的數(shù)據(jù)是因?yàn)闃颖颈旧聿](méi)有被分類器完全學(xué)習(xí),所以需要增加權(quán)重來(lái)引起分類器的重視,進(jìn)而向著正確的分類結(jié)果靠近。這就是樣本權(quán)值調(diào)整。第二個(gè)是弱分類器權(quán)值的調(diào)整。算法整體是對(duì)多個(gè)弱分類器的加權(quán),在每一次弱分類器執(zhí)行完畢之后,算法除了調(diào)整樣本權(quán)重以外,還通過(guò)交叉驗(yàn)證的方法對(duì)當(dāng)前的弱分類器進(jìn)行測(cè)試,以其損失函數(shù)和已有的弱分類器之間損失函數(shù)的大小差距來(lái)調(diào)整權(quán)值。通過(guò)上述兩個(gè)關(guān)鍵步驟的理論介紹,給出提升方法的步驟。對(duì)于給定的數(shù)據(jù)集,確定樣本權(quán)重和初始弱分類器權(quán)重,然后通過(guò)弱分類器的一次分類,調(diào)整樣本權(quán)值和分類器權(quán)重,完成一次迭代。算法迭代至給定的輪次或損失函數(shù)降低至目標(biāo)水平時(shí)結(jié)束。提升方法結(jié)合了傳統(tǒng)的弱分類器,通過(guò)一系列結(jié)合方法將數(shù)據(jù)和分類器的誤差降到最小。與強(qiáng)化思想的不同結(jié)合最大化了模型的決策能力,且都表現(xiàn)出了優(yōu)異的性能,在各種競(jìng)賽和商業(yè)方面有著廣泛的應(yīng)用。2.2無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)是指算法學(xué)習(xí)的環(huán)境為缺失標(biāo)簽的數(shù)據(jù)集。從概率學(xué)的角度來(lái)說(shuō),數(shù)據(jù)缺乏足夠的先驗(yàn)知識(shí),因此難以利用標(biāo)注來(lái)擬合輸入和輸出之間的聯(lián)合概率模型。最為常用的監(jiān)督學(xué)習(xí)方法為K-Means算法。這是一種利用樣本點(diǎn)在特征空間中的距離分布進(jìn)行多次迭代實(shí)現(xiàn)自動(dòng)標(biāo)注樣本類別的算法。算法中涉及距離公式的使用:(公式),其中j為1時(shí)稱為曼哈頓距離,j為2時(shí)稱為歐幾里得距離。以二維空間為例,歐式距離即兩點(diǎn)之間的直線距離,而曼哈頓距離為兩點(diǎn)之間在與坐標(biāo)軸垂直方向上的距離之和。通常根據(jù)數(shù)據(jù)集的特點(diǎn)由數(shù)據(jù)工程師選擇合適的計(jì)算公式,必要時(shí)j可以取3或以上的值。由上述理論基礎(chǔ),給出K-Means的算法計(jì)算過(guò)程。對(duì)于給定的數(shù)據(jù)集,確定距離計(jì)算公式和初值K。首先根據(jù)樣本的特征空間隨機(jī)給定K個(gè)初值坐標(biāo)分別作為類中心點(diǎn),計(jì)算樣本點(diǎn)到每個(gè)類中心店的距離,針對(duì)每個(gè)樣本點(diǎn),按照其與類中心點(diǎn)的距離排序,將其劃分至距離最近的類中心點(diǎn)所屬類中,取每個(gè)類中所有坐標(biāo)的均值作為新的類中心點(diǎn)坐標(biāo)。至此完成一次迭代,算法重復(fù)迭代至每個(gè)類中的樣本點(diǎn)不再發(fā)生變化時(shí)結(jié)束。在實(shí)際應(yīng)用中,無(wú)監(jiān)督學(xué)習(xí)從數(shù)據(jù)的某一角度試圖去概括數(shù)據(jù)整體特征。所以對(duì)于單一的聚類算法來(lái)說(shuō),無(wú)論從數(shù)據(jù)的特征維度還是樣本數(shù)量維度都很難直接給出定性的結(jié)論,僅為數(shù)據(jù)分析提供一定的參考意義。
本文從機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的算法分類、機(jī)器學(xué)習(xí)的優(yōu)勢(shì)分類等方面探討了機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中點(diǎn)典型應(yīng)用。但是目前由于傳統(tǒng)機(jī)器學(xué)習(xí)本身建立在模型本身的函數(shù)假設(shè)之上,效果存在瓶頸。神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)算法的一種,又稱為深度學(xué)習(xí),在計(jì)算資源和數(shù)據(jù)量的支撐下,通常能比傳統(tǒng)機(jī)器學(xué)習(xí)算法表現(xiàn)出更加優(yōu)異的效果,目前廣泛應(yīng)用于自然語(yǔ)言數(shù)據(jù)處理和圖像數(shù)據(jù)處理中。但是對(duì)電腦性能的要求和消耗更加巨大,不過(guò)相信隨著芯片集成度以摩爾定律的幾何速度增長(zhǎng)的,電腦性能也會(huì)進(jìn)一步提升,深度學(xué)習(xí)會(huì)打破這個(gè)限制,結(jié)合數(shù)據(jù)挖掘和各個(gè)其他方面的應(yīng)用,更好的應(yīng)用于實(shí)踐。
參考文獻(xiàn)
[1]張紹成,孫時(shí)光,曲洋,等.大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,44(1):15-17.
[2]黃林軍,張勇,郭冰榕.機(jī)器學(xué)習(xí)技術(shù)在數(shù)據(jù)挖掘中的商業(yè)應(yīng)用[J].邏輯學(xué)研究,2005,25(6):145-148.
[3]陳小燕.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015(20):11-14.
[4]張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[5]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[6]楊善林.機(jī)器學(xué)習(xí)與智能決策支持系統(tǒng)[M].北京:科學(xué)出版社,2004.
[7]李慶中,苑春法,黃錦輝.基于小規(guī)模標(biāo)注語(yǔ)料的機(jī)器學(xué)習(xí)方法研究[J].計(jì)算機(jī)應(yīng)用,2004,24(2):56-58.
作者:王泓正 單位:山東省濟(jì)寧市任城區(qū)李營(yíng)街道匯翠園B區(qū)