ClementineC5.0模型預(yù)測CDMA客戶流失
時間:2022-08-11 11:22:00
導(dǎo)語:ClementineC5.0模型預(yù)測CDMA客戶流失一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:該文針對目前電信行業(yè)中一個日益嚴峻的問題:客戶離網(wǎng)進行研究,通過收集客戶的基本數(shù)據(jù)、消費數(shù)據(jù)和繳費行為等數(shù)據(jù),建立客戶流失預(yù)測模型,進行客戶流失分析及預(yù)測。通過對大量相關(guān)技術(shù)和統(tǒng)計方法的研究,最終確定了clementine的C5.0模型作為電信客戶流失的預(yù)測模型。此模型對客戶流失預(yù)測有較高的準確性,為電信經(jīng)營分析系統(tǒng)作了有益的嘗試與探索。
關(guān)鍵詞:數(shù)據(jù)挖掘;客戶流失;統(tǒng)計分析;C5.0模型;cdma客戶
1概述
以中國電信云南某公司的項目支撐為基礎(chǔ),從統(tǒng)計數(shù)據(jù)來看,維持5%的老用戶增長,給電信公司帶來的利潤將遠遠超過85%,而要想把一位非電信用戶發(fā)展成客戶,其成本將比保留一位老客戶的成本高得多,統(tǒng)計數(shù)據(jù)表明成本是4倍左右,此時,客戶對電信的忠實程序也將發(fā)生強烈的變化,由此給企業(yè)造成的損失將大大增加。從項目的實施情況來看,為了保證成功向客戶推銷運營商的產(chǎn)品,多數(shù)人都只愿意向老客戶推銷。因為由此付出的代價比用戶要小得多,成功率也要高得多。通過這些數(shù)據(jù)我們可以看到防范老客戶的流失相比發(fā)展新用戶來說就顯得尤為重要了,這也是普遍企業(yè)最為關(guān)注的問題之一。
2研究現(xiàn)狀及C5.0模型特點
在我們國內(nèi),很多運營商為了應(yīng)對市場的競爭,多數(shù)都己經(jīng)建立了“電信經(jīng)營分析系統(tǒng)”,這在一定程序上為深層次的數(shù)據(jù)分析提供了良好的數(shù)據(jù)處理分析平臺。而目前國內(nèi)在數(shù)據(jù)利用上確遠遠不及國外的層次深,國內(nèi)的數(shù)據(jù)應(yīng)用主要集中在固定報表處理、查詢分析和個人的主觀探索,在更高領(lǐng)域的應(yīng)用如數(shù)據(jù)挖掘還不太成熟,更談不上深層次的應(yīng)用。而這些在國外,很多知名的電信運營商卻已經(jīng)能夠很好地利用數(shù)據(jù)挖掘技術(shù),以便通過建立客戶流失的模型,提升利潤空間及對一些流失概率比較高的客戶進行有針對的保留工作,這樣做的目的可能有效地控制入網(wǎng)用戶的流失。
Clementine作為一個數(shù)據(jù)挖掘軟件,給運營商創(chuàng)造了很好的數(shù)據(jù)處理應(yīng)用平臺,在此平臺下,運營商可以有效地使用一些商業(yè)技術(shù)準確、快捷地建立預(yù)測的模型,而后把由此模型生成的數(shù)據(jù)使用在推銷應(yīng)用領(lǐng)域。參照行業(yè)執(zhí)行標準CRISP-DM模型,我們可以有效地改進決策過程,這不僅可以數(shù)據(jù)到更優(yōu)商業(yè)成果的數(shù)據(jù)挖掘。而且還可以這樣可以分析出哪些屬性是影響客戶流失的重要因素?,F(xiàn)在比較流行的流程包括決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、聚類關(guān)聯(lián)性分析等。本文選擇的是C5.0模型節(jié)點來進行電信的客戶流失預(yù)測。該模型的工作原理是根據(jù)在每個級別提供最大信息收獲的字段分割樣本,目標字段必須為分類字段,允許進行多次多于兩個子組的分割。它通常會根據(jù)不同的字段再次分割由第一次分割定義的每個子樣本,且此過程會重復(fù)下去直到無法繼續(xù)分割子樣本。
C5.0可以生成兩種模型:
1)決策樹是對由算法建立的分割的簡單描述,每個終端(或“葉”)節(jié)點可描述訓(xùn)練數(shù)據(jù)的特定子集,而訓(xùn)練數(shù)據(jù)中的每個觀測值都完全屬于樹中的某個終端節(jié)點。
2)規(guī)則集則是嘗試對單個記錄進行預(yù)測的一組規(guī)則,規(guī)則集源自決策樹,并且在某種程度上表示在決策樹中建立的經(jīng)簡化或提取的信息版本。對于所存在的問題,例如缺失數(shù)據(jù)和大量輸入字段,C5.0模型十分穩(wěn)健,通常不需要花費很長的訓(xùn)練時間用于估計。同時C5.0模型與其他模型類型相比更容易理解,解釋起來更簡明易懂。
3建構(gòu)并應(yīng)用C5.0模型
在clementine中使用C5.0模型進行電信客戶流失預(yù)測的過程包括:找到數(shù)據(jù)源:本例中數(shù)據(jù)源為基于Excel的電子表格,打開Clementine,在對話框中選擇數(shù)據(jù)源項,可以直接雙擊我們要使用的Excel進行編輯,在導(dǎo)入文件中選擇要用的數(shù)據(jù)源。然后在選項板中選擇字段節(jié)點,進行類型編輯,設(shè)置客戶流失項為輸出項。接下來在建模里根據(jù)需要選擇合適的特征選項,此時,該節(jié)點會根據(jù)設(shè)置的條件(如缺失的百分比)篩選出可刪除的字段,如預(yù)測變量,依據(jù)我們的挖掘需求,保留的預(yù)測變量,并按重要性進行排序。生成過濾節(jié)點后,在里面可看到保留了對輸出(也就是客戶的流失標志)有影響的項,去掉了對輸出沒什么影響的項??偟耐诰蜻^程和過濾如圖1-圖2所示。
接著我們在模型里面選擇C5.0模型,編輯模型的選項,有四種用于構(gòu)建C5.0模型的訓(xùn)練方法:1.輸出類型:指定希望生成的結(jié)果模型是決策樹還是規(guī)則集,根據(jù)CDMA客戶的性質(zhì)和要預(yù)測的是流失項,在此選用決策樹模型。2.群體字符:如果選中此選項,C5.0將試圖組合輸出字段中具有相似樣式的符號值。3.使用推進:這是C5.0算法的一個特殊方法用于提高其準確率。工作原理是在序列中構(gòu)建多個模型,第一個模型按常規(guī)方式進行構(gòu)建;構(gòu)建第二個模型時,將焦點集中于由第一個模型誤分類的記錄;構(gòu)建第三個模型時,將焦點集中于第二個模型的錯誤,依此類推。最后,通過將整個模型集應(yīng)用到觀測值,并使用加權(quán)投票過程將單獨的預(yù)測組合為一個總預(yù)測來分類觀測值。推進可以顯著提高C5.0模型的準確性,但也需要更長的訓(xùn)練時間。4.交互驗證:此項使用一組模型(根據(jù)訓(xùn)練數(shù)據(jù)的子集構(gòu)建)來估計某個模型(根據(jù)全部數(shù)據(jù)集構(gòu)建)的準確性,可以指定用于交互驗證的折疊次數(shù)或模型數(shù)。
C5.0有兩種模式提供選擇:1.簡單模式:將試圖生成盡可能精確的樹,但有時可能會導(dǎo)致過度擬合,從而在將此模型應(yīng)用于新數(shù)據(jù)時導(dǎo)致性能偏低。2.專家模式有以下幾點:a.修剪嚴重性:確定對生成的決策樹或規(guī)則集的修剪程度,增加該值可獲得一個更簡潔的小型樹,減小該值可獲得一個更精確的樹。b.每個子分支的最小記錄數(shù):可使用子組的大小限制樹的任何分支中的分割數(shù),增加該值有助于防止使用噪聲數(shù)據(jù)進行過度訓(xùn)練。c.使用全局修剪:分兩個階段修剪樹,第一個階段是本地修剪,此時將檢查子樹并折疊分支以提高模型的準確性。第二個階段是全局修剪,在此階段中將把樹視作一個整體并折疊虛弱的子樹。d.辨別屬性:此項將在開始構(gòu)建模型之前檢查預(yù)測變量的有效性,如果發(fā)現(xiàn)不相關(guān)的預(yù)測變量,系統(tǒng)會自動把它從模型構(gòu)建過程中排除。這個選項對于那些具有很多預(yù)測變量字段的模型非常有效,而且還可以有效地防止數(shù)據(jù)過于擬合。
單擊對話框下面的“執(zhí)行”按鈕后,這樣會在右面的窗口中生成的C5.0的模型,打開此模型,我們可看到統(tǒng)計后的數(shù)據(jù)及此模型的準確度和時間等信息,另外我們還可以在該模型中導(dǎo)出PMML或者SQL等。如果模型的準確度已經(jīng)達到我們的要求,接下來將生成的模型導(dǎo)入到業(yè)務(wù)支撐系統(tǒng)中,根據(jù)需要在導(dǎo)出模板中選擇數(shù)據(jù)庫,輸入服務(wù)器地址及數(shù)據(jù)庫名稱。模型選項和導(dǎo)入SQL數(shù)據(jù)庫如圖3-圖4所示。
4數(shù)據(jù)分析和總結(jié)
經(jīng)過上面的操作,再對其進行分析整理后,可以看出CDMA客戶流失的一些特征,如在使用彩鈴的客戶群中,有24%的流失率,遠遠超過不使用彩鈴的用戶,而在這些客戶群中,使用彩鈴并且在網(wǎng)時長大于25的客戶,其流失率更高,達46%以上。這是要重點關(guān)注的用戶群。分析結(jié)果如圖5所示。
而在FEE_ALL這一項中,高端客戶的流失率較低,CDMA流失最嚴重的客戶群在月消費為10至40的客戶,流失率在22%以上,這也是占比最多的一部分。如果CDMA用戶捆綁有其他業(yè)務(wù),如我的e家等,則流失率較低。而在網(wǎng)時長這一項中,在網(wǎng)時長小于15的客戶是流失率較小。
由本研究不難看出,目前電信的客戶流失率是一個非常值得關(guān)注的問題,對運營商造成影響是非常大的,因此電信運營商應(yīng)該特別注意容易流失的客戶群。挽留老客戶,發(fā)展新用戶。經(jīng)過多個數(shù)據(jù)樣本分析處理得出本文整體的技術(shù)路線是非??尚械?,C5.0模型對電信客戶流失預(yù)測的準確性是相當高的,可以為該電信分公司的經(jīng)營分析支撐系統(tǒng)提供很好的參考實施價值。