決策樹算法與電力營(yíng)銷數(shù)據(jù)挖掘探討
時(shí)間:2022-02-07 09:38:23
導(dǎo)語(yǔ):決策樹算法與電力營(yíng)銷數(shù)據(jù)挖掘探討一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:為了對(duì)電力企業(yè)中不同部門的運(yùn)行數(shù)據(jù)進(jìn)行有效的挖掘,提出利用C5.0決策樹算法對(duì)數(shù)據(jù)進(jìn)行深層次分析,為管理人員提供有價(jià)值的決策支持。首先,對(duì)數(shù)據(jù)挖掘中先進(jìn)的C5.0決策樹算法原理進(jìn)行分析,并通過(guò)引入信息熵對(duì)原有的屬性選擇方式進(jìn)行改進(jìn),提高了信息增益比率計(jì)算的速度。然后根據(jù)設(shè)計(jì)的售電量關(guān)系模型進(jìn)行對(duì)電廠管理信息系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘。在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集和電力營(yíng)銷數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的改進(jìn)C5.0決策樹算法具有良好的分類性能,能夠?qū)κ垭娛袌?chǎng)進(jìn)行快速、準(zhǔn)確的用戶分類,準(zhǔn)確率達(dá)到86.5%。
關(guān)鍵詞:數(shù)據(jù)挖掘;C5.0決策樹;電力營(yíng)銷;信息熵;分類預(yù)測(cè)
隨著我國(guó)信息產(chǎn)業(yè)的爆發(fā)式發(fā)展,各行業(yè)的企業(yè)都開始使用信息集成系統(tǒng)進(jìn)行管理。如何對(duì)所產(chǎn)生的海量數(shù)據(jù)進(jìn)行有效利用成為新時(shí)代人們最關(guān)注的問(wèn)題之一[1]。電力企業(yè)作為直接影響社會(huì)民生的重要部門,在使用管理信息系統(tǒng)的過(guò)程中產(chǎn)生了大量的運(yùn)行狀況和銷售數(shù)據(jù)[2],電力企業(yè)管理人員迫切需要合理的方式去處理這些海量數(shù)據(jù),以便獲得有價(jià)值的信息[3]。數(shù)據(jù)挖掘技術(shù)作為計(jì)算機(jī)領(lǐng)域的熱門方向,一直和社會(huì)實(shí)際應(yīng)用緊密結(jié)合。使用合理的數(shù)據(jù)挖掘技術(shù)可以解決電力企業(yè)的數(shù)據(jù)分析問(wèn)題,為管理人員提供有價(jià)值的決策支撐信息,從而提高電網(wǎng)運(yùn)行的可靠性[4]。例如,劉建飛等[5]提出了一種基于電力側(cè)大數(shù)據(jù)挖掘的營(yíng)銷效果評(píng)價(jià)方法,其中使用了C4.5決策樹算法。VictorD等[6]利用BP神經(jīng)網(wǎng)絡(luò)對(duì)電力企業(yè)營(yíng)銷數(shù)據(jù)進(jìn)行快速挖掘。黃文思等提出了一種基于決策樹算法的電力客戶欠費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)。但是,上述方法采用的決策樹算法仍舊是ID3算法以及在其基礎(chǔ)上發(fā)展起來(lái)的C4.5方法。而C5.0決策樹算法作為其后續(xù)的最新版本,綜合性能有了明顯提升。因此,為了對(duì)電力企業(yè)提供更加準(zhǔn)確、有效的營(yíng)銷數(shù)據(jù)決策支撐,本文提出利用C5.0決策樹算法對(duì)電力營(yíng)銷管理系統(tǒng)的營(yíng)銷數(shù)據(jù)進(jìn)行深層次分析。通過(guò)引入信息熵對(duì)原有的C5.0決策樹算法進(jìn)行了改進(jìn),提高了其分類速度和精度。在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集和電力營(yíng)銷數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的改進(jìn)C5.0決策樹算法具有良好的分類性能,能夠滿足電力營(yíng)銷工作中的分類預(yù)測(cè)需求。
1C5.0決策樹算法原理
作為從ID3決策樹算法發(fā)展出來(lái)的后續(xù)算法,RossQuinlan提出了C4.5算法能夠?qū)傩砸暈檫B續(xù)型的[7],并提出了2個(gè)新的屬性:分離信息(SplitInformation)和信息增益率(Informationgainratio),可用于生成多分支決策樹。C5.0算法與C4.5算法的核心是一樣的,但是在內(nèi)存管理等方面做出不少改進(jìn),更加適合商業(yè)應(yīng)用。1.1分裂屬性的確定本文假設(shè)S表示一個(gè)訓(xùn)練樣本集,其樣本數(shù)量為s個(gè),包括m個(gè)不同的種類xi(i=1,2,…,m)。D表示訓(xùn)練樣本集S的一個(gè)屬性且取值范圍為[1,k]。vi表示屬于不同種類xi的樣本總數(shù)。根據(jù)屬性D的不同,能夠?qū)⒂?xùn)練樣本集S區(qū)分成k個(gè)小的子集。si為上述子集中的第i個(gè)子集,i=1,2,…,k,[Si]表示子集si中的樣本個(gè)數(shù)。首先,信息增益Gain(S,D)的計(jì)算式[8]如式(1)。Gain(S,D)=I(s1,s2,…,sk)-E(S,D)(1)其中,E(S,D)表示根據(jù)屬性D劃分出的k個(gè)子集的熵加權(quán)和,I(s1,s2,…,sk)則表示訓(xùn)練樣本集S的熵。1.2分裂屬性的確定在分裂屬性的選取過(guò)程中,C5.0決策樹算法會(huì)挑選出具有最高增益比率的屬性,并將其定義成分裂屬性[12]。在確定分裂屬性后,C5.0決策樹算法會(huì)執(zhí)行最佳分割點(diǎn)的確定步驟,組成了決策樹的k個(gè)分枝。當(dāng)最佳分裂屬性是連續(xù)型變量時(shí),會(huì)利用分箱策略設(shè)置劃分值,從而對(duì)大于該劃分值的樣本進(jìn)行再劃分[13]。在循環(huán)執(zhí)行分裂屬性的確定和最佳分割點(diǎn)的確定后,生成了一棵完整的決策樹。
2改進(jìn)的C5.0決策樹算法
通過(guò)上節(jié)C5.0決策樹算法原理分析,可以看出該決策樹算法需要根據(jù)每一個(gè)屬性在所有結(jié)點(diǎn)上,對(duì)信息的增益比率GainRatio(S,D)進(jìn)行計(jì)算,以便為后續(xù)分裂屬性的確定做支持。但是式(4)中信息增益比率GainRatio(S,D)計(jì)算需要對(duì)數(shù)運(yùn)算,因此計(jì)算時(shí)間較長(zhǎng)且精度不夠理想[14]。因此,本文通過(guò)引入信息熵對(duì)原有的屬性選擇方式進(jìn)行改進(jìn)。假設(shè)正例屬性的個(gè)數(shù)為p,且反例屬性的個(gè)數(shù)為n,則信息量的計(jì)算方式如式(6)從式(13)可以看出,計(jì)算過(guò)程僅包含簡(jiǎn)單的加減和乘除運(yùn)算,大大縮減了計(jì)算時(shí)間。
3改進(jìn)C5.0決策樹在電力營(yíng)銷中的應(yīng)用
3.1數(shù)據(jù)模型設(shè)計(jì)
在將改進(jìn)的C5.0決策樹應(yīng)用于電廠管理信息系統(tǒng)中時(shí),需要以售電量為中心,構(gòu)建各部門數(shù)據(jù)庫(kù)表格之間的映射關(guān)系,本文構(gòu)建的數(shù)據(jù)模型如圖1所示。
3.2數(shù)據(jù)挖掘流程
改進(jìn)C5.0決策樹在電力營(yíng)銷中的數(shù)據(jù)挖掘流程如圖2所示。
4實(shí)驗(yàn)結(jié)果與分析
4.1實(shí)驗(yàn)環(huán)境
為了對(duì)本文提出的視頻分類方法進(jìn)行分析和驗(yàn)證,進(jìn)行具體實(shí)驗(yàn)。實(shí)驗(yàn)硬件環(huán)境:處理器為IntelCorei72.2GHz,圖形圖像處理設(shè)備為GTX970@2G顯存,內(nèi)存為8G。實(shí)驗(yàn)軟件環(huán)境:Windows7操作系統(tǒng)、MATLAB7.0仿真軟件。
4.2改進(jìn)算法性能驗(yàn)證
為了驗(yàn)證所提改進(jìn)的C5.0決策樹算法的性能,用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集[15]進(jìn)行了分類測(cè)試驗(yàn)證。選擇20組小數(shù)據(jù)集,共2400個(gè)樣本進(jìn)行了測(cè)試。訓(xùn)練樣本為隨機(jī)選取的1000個(gè)樣本,其余為測(cè)試樣本。每組實(shí)驗(yàn)重復(fù)10次并去平均值作為最終結(jié)果。標(biāo)準(zhǔn)C5.0決策樹算法和改進(jìn)后C5.0決策樹算法的分類準(zhǔn)確率對(duì)比和時(shí)間對(duì)比分別如圖3、圖4所示。從圖3可以看出,隨著測(cè)試樣本數(shù)量的不斷增多,2種算法分類的準(zhǔn)確率幾乎一致。從圖4可以看出,隨著測(cè)試樣本數(shù)量的不斷增多,2種算法分類的時(shí)間均有所增加,但是改進(jìn)后C5.0決策樹算法所需的時(shí)間明顯更少,分類效率更高。
4.3電力營(yíng)銷應(yīng)用結(jié)果
以某電力企業(yè)的2019年期間營(yíng)銷數(shù)據(jù)為測(cè)試數(shù)據(jù)集,對(duì)改進(jìn)后C5.0決策樹算法進(jìn)行實(shí)際案例分析。該電力營(yíng)銷測(cè)試數(shù)據(jù)集共包括100名不同地區(qū)、不同年齡和不同崗位的用戶用電樣本數(shù)據(jù)。隨機(jī)選取其中50個(gè)樣本作為訓(xùn)練樣本,如表1所示。利用改進(jìn)的C5.0決策樹算法,選擇具有最大信息增益屬性值作為葉節(jié)點(diǎn),循環(huán)上述決策樹執(zhí)行步驟,最終產(chǎn)生客戶分類決策樹及其分類規(guī)則,然后在電力營(yíng)銷數(shù)據(jù)集的測(cè)試樣本中對(duì)得到的分類決策樹模型進(jìn)行驗(yàn)證。此外,為了對(duì)比分析,還使用了BP神經(jīng)網(wǎng)絡(luò)和ID3.0決策樹分別建立分類模型。各種分類模型結(jié)果比較如表2所示。從表2可以看出,相比于BP神經(jīng)網(wǎng)絡(luò)、ID3.0決策樹,C5.0決策樹和改進(jìn)的C5.0決策樹算法在分類準(zhǔn)確率方面提升較為明顯,C5.0決策樹最優(yōu)(87.6%),改進(jìn)C5.0決策樹算法次之(86.5%)。而在分類效率方面,改進(jìn)C5.0決策樹算法表現(xiàn)較為突出,僅需1.86s。綜合來(lái)看,改進(jìn)C5.0決策樹算法在客戶及時(shí)準(zhǔn)確分類應(yīng)用中具有最佳的綜合分類性能,可以有效滿足實(shí)際的電力營(yíng)銷工作需要。
5總結(jié)
本文提出了一種基于改進(jìn)C5.0決策樹算法的電力營(yíng)銷數(shù)據(jù)挖掘技術(shù)。通過(guò)引入信息熵對(duì)原有的屬性選擇方式進(jìn)行改進(jìn),提高了信息增益比率計(jì)算的速度。此外,根據(jù)設(shè)計(jì)的售電量關(guān)系模型進(jìn)行對(duì)電廠管理信息系統(tǒng)中的數(shù)據(jù)進(jìn)行挖掘。數(shù)據(jù)集和實(shí)際案例應(yīng)用結(jié)果均驗(yàn)證了提出改進(jìn)算法的有效性和可行性。但是電力營(yíng)銷訓(xùn)練和測(cè)試樣本集中用戶屬性的數(shù)量(維度)較少,后續(xù)將考慮增加更多的屬性,來(lái)進(jìn)一步驗(yàn)證C5.0決策樹算法的性能。
作者:卜曉陽(yáng) 蔡巖 王宗偉 趙郭燚 單位:國(guó)家電網(wǎng)公司 河北師范大學(xué)