隨機森林個人信用風險評估研究

時間:2022-12-18 03:32:20

導語:隨機森林個人信用風險評估研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

隨機森林個人信用風險評估研究

一、文獻綜述

近年來,隨著消費金融市場的迅速發(fā)展,越來越多的消費金融機構(gòu)涌入,以螞蟻花唄、借唄、京東白條為代表的消費金融服務(wù)盛行。從受眾群體來看,消費貸款的發(fā)放對象是個人,還款來源主要為工資、獎金、投資收益、生產(chǎn)經(jīng)營性收入等。這些來源易受多種外部因素影響,包括宏觀經(jīng)濟變化、所在企業(yè)經(jīng)營狀況、個人健康及意外等。與此同時,與企業(yè)相比個人的流動性和不確定性更高,借款人還款行為易受個體思想觀念、態(tài)度、行為習慣等主觀因素的影響。因此,個人信用風險成為風控的核心,如何把各借款人紛繁復雜的信息數(shù)據(jù)映射成其自身詳細的信用水平成為這一行業(yè)亟待解決的問題。在個人信用風險評估領(lǐng)域,國內(nèi)外的研究主要集中在個人信用風險的指標選取和個人信用風險評估方法及模型構(gòu)建兩個方面,后者居多。信用風險指標的選取,主要基于傳統(tǒng)信貸的指標選擇和基于消費場景多樣性對指標體系的補充優(yōu)化。BillFair和Earllsaac(2015)提出的FICO信用分模型是個人信用評估領(lǐng)域最早且在銀行使用最廣泛的。FICO模型根據(jù)違約風險來計算客戶的信譽,它所選用的指標主要有五類:信用償還歷史、信用賬戶數(shù)、使用信用的年限、正在使用的信用類型以及新開立的信用賬戶[1]。MariolaChrzanowska(2008)以一家在波蘭經(jīng)營的外資銀行中的個人客戶貸款為例,通過單一和集成的方法,發(fā)現(xiàn)“已償還貸款的份額”是體現(xiàn)個人信用等級最重要的指標[2]。龍新庭、王曉華(2013)指出德國國際項目咨詢IPC公司通過客戶的信用歷史、貸款申請書信息、個人聲譽等方面綜合評估其還款意愿[3]。消費場景的多樣性使得實踐中基于互聯(lián)網(wǎng)的個人信用風險指標在構(gòu)成上與傳統(tǒng)的金融機構(gòu)有所不同,在其基礎(chǔ)上更多地獲取關(guān)于個人生活消費的指標。國內(nèi)首個個人信用評分——阿里巴巴芝麻信用分的評分標準主要由五部分組成:信用歷史(35%)、行為偏好(25%)、履約能力(20%)、身份特征(15%)和人脈關(guān)系(5%)[4]。不同于阿里巴巴的是,京東與騰訊達成深度合作,將自身的電商數(shù)據(jù)和騰訊的社交數(shù)據(jù)結(jié)合,所以京東白條能更精確地把握用戶的信用信息[5]。信用風險評估方法的實質(zhì)是將一個數(shù)據(jù)樣本總體按不同特征分為若干組的方法,個人信用評估模型構(gòu)建主要包括統(tǒng)計和非統(tǒng)計方法。統(tǒng)計方法主要包括判別分析法、Logistic回歸、K近鄰判別分析法等。何曉群等(2015)認為信用風險評估模型是金融機構(gòu)開展信貸工作的核心,模型結(jié)果則是信用評級的依據(jù)來源[6]。李萌(2005)將不良貸款率、T檢驗、主成分分析相結(jié)合,基于Logistic回歸建立判斷信用風險的評估模型[7]。姚路(2017)在對個人基本信息、信貸擔保交易信息等認知的基礎(chǔ)上建立多元線性回歸模型,間接地對信息主體進行信用評價[8]。姜明輝等(2004)通過確定相應(yīng)的評估指標體系,建立了基于K近鄰判別分析法的個人信用評估模型,并對模型應(yīng)用中需要注意的問題進行了分析[9]。基于統(tǒng)計方法的信用風險評估模型需要對樣本數(shù)據(jù)進行嚴格的假設(shè),如線性關(guān)系、正態(tài)分布等,這些都在一定程度上影響模型的適用性及使用效果[10]。非統(tǒng)計方法主要包括依托計算機技術(shù)的人工智能方法,以人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVM)、決策樹(DT)和隨機森林(RF)著名。HussainAliBekhet(2014)設(shè)計了兩種信用評分模型,并采用人工神經(jīng)網(wǎng)絡(luò)方法為約旦商業(yè)銀行貸款決策提供技術(shù)支持,證實人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用將改善信貸決策效率,幫助金融機構(gòu)節(jié)省分析時間和成本[11]。TonyBellottti和JonathanCrook(2008)運用大型信用卡數(shù)據(jù)庫的信息,將支持向量機與Logistic回歸等傳統(tǒng)方法進行對比研究,表明支持向量機更具競爭力,還可用作特征選擇方法來分辨出決定違約風險大小最重要的特征[12]。姚瀟和余樂安(2012)將模糊隸屬度引入支持向量機進行實證研究,結(jié)論表明模糊近似支持向量機能夠顯著地提高信用風險分類精度[13]。龐素琳和鞏吉璋(2009)以德國銀行個人信貸數(shù)據(jù)為樣本,采用C5.0算法(DT模型的一種)構(gòu)建信用評估模型,并使用了Boosting算法技術(shù)提升模型對樣本數(shù)據(jù)的擬合度,最后通過參數(shù)調(diào)節(jié)進一步提高分類精確率[14]。GasparCano等(2017)對不同的數(shù)據(jù)集用RF算法進行特征選擇并用其對數(shù)據(jù)集分類,結(jié)果表明由RF選出相關(guān)變量并據(jù)此進行分類的性能效果比SVM和ANN更具優(yōu)勢[15]。戴昕琦(2018)把更加適合處理不平衡數(shù)據(jù)的SMOTE算法改進,再與RF模型結(jié)合運用于供應(yīng)鏈金融信用風險管理研究中,發(fā)現(xiàn)C-SMOTE-RF模型在很大程度上減少了銀行的“取偽”概率,從而能幫助銀行更好地對風險企業(yè)進行識別[16]。隨機森林(RF)的提出者BreimanLeo(2001)指出RF明顯優(yōu)于單個分類決策樹模型[17]。方匡南等(2010)將RF算法用于零售信貸領(lǐng)域的信用卡違約風險識別,并發(fā)現(xiàn)RF算法無須對數(shù)據(jù)樣本標準化預處理,且比SVM、單一決策樹以及Logistic回歸有更高的準確率[18]。綜上所述,RF算法是基于決策樹的集成式算法,一般無須對數(shù)據(jù)標準化預處理,且分類性能優(yōu)于傳統(tǒng)統(tǒng)計方法和SVM等智能算法。大數(shù)據(jù)技術(shù)使得用于個人信用風險評估的數(shù)據(jù)指標的可獲得性變強,數(shù)據(jù)維度變大,導致風險預測時間變長,成本變高。而RF算法是采用多棵決策樹分類產(chǎn)生結(jié)果并以加法投票的方式得出最終結(jié)果。RF算法中單棵決策樹每個節(jié)點的選擇與分裂都是基于該節(jié)點隨機選取的特征確定的,因此信用指標之間的自相關(guān)性會使決策樹之間的選擇與分裂規(guī)則相似;各決策樹選擇的相似性會使得以加法投票方式確定的最終分類結(jié)果呈現(xiàn)“一邊倒”,這樣會極大地降低分類準確度。因此,考慮到個人信用風險評估時數(shù)據(jù)維度及數(shù)據(jù)的預測能力,在傳統(tǒng)隨機森林模型的基礎(chǔ)上加入XGBoost算法來對指標進行降維,剔除關(guān)系密切和對預測信用風險影響小的指標,并采用實際的數(shù)據(jù)集驗證了模型的合理性和有效性,為個人信用風險評估提供更好的決策支持。

二、改進的隨機森林模型建立

構(gòu)建的改進的隨機森林模型(即XGBoost-RF模型)如圖1所示。第一階段運用XGBoost算法進行特征選擇,輸出數(shù)據(jù)樣本中的特征重要性柱狀圖,這樣不僅能最直觀地看到每個指標的特征重要性得分,而且能提升模型的解釋性;此外,從中篩選出的影響較大的特征指標,也能為個人信用評估指標選擇提供參考。第二階段運用隨機森林(RF)算法對第一階段篩選出的指標進行分類。XGBoost算法是基于梯度提升樹(GBDT)模型原理改進后的算法。與RF算法在特征選擇時運用Gini指數(shù)計算節(jié)點不純度不同的是,XGBoost是通過該特征每棵樹中分裂次數(shù)的和計算的。與神經(jīng)網(wǎng)絡(luò)的“黑箱操作”相反,XGBoost所用決策樹內(nèi)在的可解釋性降低了算法計算的復雜度,提升了整個模型的可解釋性。可解釋性也是信用評估的一個重要組成部分,因此將其用于對各個特征指標的重要性進行估計十分合適,一般重要性分數(shù)越高則該特征指標越重要,該特征指標在數(shù)據(jù)集中的貢獻越大。RF算法是由LeoBreiman和AdeleCutler[17]提出的一種集成分類器,但它摒棄了單棵決策樹容易產(chǎn)生過擬合現(xiàn)象的缺點,RF算法最終的分類決策fRF(x)由式(1)得出:fRF(x)=argmaxΣnk=1I(hk(x,θk)=Y)Y(1)其中,hk(x,θk)是單棵決策樹分類器,是用CART算法構(gòu)建的未剪枝的分類樹,其中θk是服從獨立同分布的隨機變量,決定單棵樹的生長過程;Y為目標變量,表示是否違約,在本文中用1(違約)和0(未違約)分別表示;I(•)表示滿足括號中表達式的樣本個數(shù)。式(1)為使用多數(shù)投票法來確定最終分類結(jié)果的表達式。對于隨機森林算法中的單棵決策樹,首先在每一節(jié)點隨機選擇m個特征,再從這m個特征中根據(jù)Gini指數(shù)最優(yōu)分割選擇最優(yōu)特征進行該節(jié)點的分裂。Gini指數(shù)由式(2)得出:Gini(Q)=Σjj=1Pj(1-Pj)=1-Σjj=1Pj2(2)其中,Q為S個數(shù)據(jù)樣本的集合;Pj為隨機數(shù)據(jù)樣本屬于j類別的概率,近似值可用SjJS表示;J為數(shù)據(jù)集的類別總數(shù),本文中J包括違約與未違約兩類。通過求Gini(Q,F(xiàn))的最小值得到Gini指數(shù)最優(yōu)分割,Gini(Q,F(xiàn))表達式如式(3)所示:Gini(Q,F(xiàn))=SSjGini(Qj)+SSjGini(Q-j)(3)因此,使得Gini(Q,F(xiàn))值最小的特征即為該節(jié)點應(yīng)選擇的最優(yōu)特征。其中,Sj為屬于j類別的樣本個數(shù),S-j為不屬于j類別的樣本個數(shù),F(xiàn)為分裂特征。

三、數(shù)據(jù)選擇與處理

本文采用著名的德國信用數(shù)據(jù)集(數(shù)據(jù)集網(wǎng)址為http://archive.ics.uci.edu/)來驗證模型的可行性和有效性。因為德國信用數(shù)據(jù)集的指標比較全面,對個人信用風險評估指標的構(gòu)建具有借鑒意義;基于互聯(lián)網(wǎng)的信貸也大多以此信用指標體系為根基,在其基礎(chǔ)上進行細分補充。德國信用數(shù)據(jù)集是德國一銀行記錄使用信用卡的個人特征及違約與否的數(shù)據(jù)集,一共有1000個客戶的基本信息,包含了700個好客戶(客戶信用良好,沒有信用違約記錄)和300個壞客戶(客戶信用較差,有違約記錄)。每個客戶的信息都包含24個屬性指標,由7個離散型指標、13個連續(xù)型指標構(gòu)成,其他4個指標未知,以及每個客戶的類別,取“1”代表“好”客戶,“0”代表“壞”客戶。該數(shù)據(jù)集指標可分為個人指標、信用指標和經(jīng)濟指標三大類。個人指標主要是描述個人自然信息,包括婚姻狀況、性別、年齡等信息,透過這些信息商業(yè)銀行能夠間接獲悉申請人的還款意愿和還款能力;信用指標包括貸款信息、信用卡信息、歷史信用信息等,從中可了解貸款申請人的信用風險、債務(wù)壓力及其歷史信用;經(jīng)濟指標包括貸款申請人的職位、工齡、收入等信息,是衡量貸款申請人還款能力的重要指標。而4個未知指標對信用分類預測能力非常小,因此將其作為無關(guān)指標剔除。

四、結(jié)果分析

經(jīng)濟金融領(lǐng)域中的指標錯綜復雜,個人信用指標更是如此,指標變量間的相關(guān)性等降低了模型預測及信用風險評估的有效性。因此,對數(shù)據(jù)樣本的原始指標進行篩選來建立風險評估指標體系,有助于個人信用的審核以及風險的重點監(jiān)控。(一)基于XGBoost的信用指標篩選。首先采用XGBoost算法用Python軟件進行編程計算,得到所有指標的特征重要性分數(shù)。圖2是德國數(shù)據(jù)集指標的特征重要性分數(shù)柱狀圖。再根據(jù)XGBoost特征重要性得分進行指標篩選。從圖2可以看出,f3(信貸用途)、f1(信貸期限)、f9(擔保人)、f5(儲蓄賬戶情況)、f2(信用歷史)、f0(經(jīng)常性賬戶情況)這幾個指標的特征重要性得分較高,可見這些指標對借款人違約風險影響較大;而f19(是否為外籍工作者)、f12(年齡)和f13(其他分期付款方式)重要性得分較低,影響較小,這與實際經(jīng)驗基本吻合。同時,考慮到德國數(shù)據(jù)集樣本量較多,進入分類步驟的指標不能過少,同時從排名第15位的特征指標開始,其重要性得分大幅度下降,因此根據(jù)特征重要性柱狀圖選取特征重要性,得分前14位的指標進入第二階段的RF算法對數(shù)據(jù)樣本進行分類,所選指標包括f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f15、f16、f17。由圖2可以發(fā)現(xiàn),除f3(信貸用途)、f1(信貸期限)等顯性指標對個人信用風險影響重大外,f9(擔保人)對個人信用風險的影響不容忽視。擔保人的資金實力、信用水平對貸款申請者個人信用風險影響重大,而擔保人的選擇體現(xiàn)了貸款申請者的“人脈關(guān)系”。但國內(nèi)現(xiàn)有的個人信用評分機制,鮮少選擇諸如“擔保人”等“人脈關(guān)系”相關(guān)指標。因此,評估個人信用風險時,在不違背保護隱私的前提下,應(yīng)完善對“人脈關(guān)系”的調(diào)查與審核,以降低貸款申請者個人信用風險。(二)基于RF算法的個人信用分類分析。依據(jù)得到的14個屬性指標,運用隨機森林(RF)算法對1000條數(shù)據(jù)樣本進行分類測試,并將結(jié)果與傳統(tǒng)RF算法對比,得到以下結(jié)果及結(jié)論。(1)利用未經(jīng)XGBoost篩選的原始數(shù)據(jù)集建立100棵決策樹分類可以發(fā)現(xiàn):在5倍交叉驗證下,節(jié)點分裂時隨機選取的指標個數(shù)m為15時,平均分類準確率為68.6%;當m取10時,平均分類準確率為70.6%;當m取5時,平均分類準確率為64.2%。結(jié)論1:在交叉驗證倍數(shù)不變的情況下使用德國信用數(shù)據(jù)集進行分類,當把每一節(jié)點分裂時隨機選取的指標個數(shù)設(shè)置較大時,那么在一定范圍內(nèi)減小指標個數(shù),分類效果會變好,而如果指標選取的個數(shù)過少,分類效果會減弱。結(jié)論1的得出表明德國信用數(shù)據(jù)集中存在對預測個人信用風險影響較小的冗余指標或者某些指標間存在自相關(guān)性。(2)利用原始數(shù)據(jù)集和經(jīng)XGBoost篩選后的數(shù)據(jù)集建立100棵決策樹分類可以發(fā)現(xiàn):在5倍交叉驗證下,每一節(jié)點分裂時隨機選取的指標個數(shù)均為10時,篩選后數(shù)據(jù)集的分類準確率分別為0.73、0.735、0.63、0.72、0.69,與之對應(yīng)的原始數(shù)據(jù)集的分類準確率分別為0.73、0.715、0.67、0.69、0.72;而且,在大部分子樣本中,經(jīng)XGBoost篩選過的數(shù)據(jù)集得出的分類準確率比原始數(shù)據(jù)集得出的準確率高;當選取的指標個數(shù)m取5時,原始數(shù)據(jù)集的平均分類準確率為64.2%,而新數(shù)據(jù)集的平均分類準確率為69.7%。

2:利用XGBoost特征選擇后建立的新數(shù)據(jù)集在同樣的倍數(shù)交叉驗證下,不論是單次的分類準確率還是平均分類準確率都不亞于原始數(shù)據(jù)集的分類結(jié)果,甚至更高。(三)基于ROC曲線的模型性能比較ROC曲線是用于展示試驗中效果是否優(yōu)良的一種圖形,一般通過ROC曲線下的面積AUC來衡量模型效果,曲線下面積AUC的值越大,可認為效果越好。對改進前后兩種方案的性能進行ROC曲線分析,其ROC曲線及其比較結(jié)果如圖3所示。將(a)和(b)放于同一坐標軸進行比較如(c)圖所示,發(fā)現(xiàn)除左上角兩曲線有所偏差之外其余基本重疊;從(d)圖可以看出明顯的差別:新數(shù)據(jù)集ROC曲線位于原數(shù)據(jù)集ROC曲線的上方,即利用新數(shù)據(jù)集的分類性能比原始數(shù)據(jù)集要好,更具有準確性?;谏鲜龇治觯梢缘贸龈倪M后的XGBoost-RF模型通過優(yōu)化數(shù)據(jù)指標而使模型性能比改進前更好,分類準確度更高。五、啟示與展望通過分析研究,可以發(fā)現(xiàn)以德國信用數(shù)據(jù)集為樣本,改進后的隨機森林模型通過優(yōu)化特征選擇從而降低指標維數(shù),最終提高了分類準確率,因此本文所構(gòu)建的XGBoost-RF模型具有一定的合理性和有效性。進一步,研究得出的結(jié)論對互聯(lián)網(wǎng)金融下個人信用風險評估的啟示如下:(1)在對德國信用數(shù)據(jù)集進行特征選擇時發(fā)現(xiàn)“擔保人”對個人信用有較大影響,但國內(nèi)現(xiàn)有的個人信用評分機制對于貸款申請者的諸如“擔保人”等“人脈關(guān)系”指標缺乏重視,因此相關(guān)企業(yè)在保護個人隱私的前提下可以完善“人脈關(guān)系”相關(guān)指標的信息采集。(2)在個人信用風險評估領(lǐng)域,大數(shù)據(jù)帶來了豐富的數(shù)據(jù)信息,更完整地勾勒出個人信用狀況。利用所有的數(shù)據(jù)進行評估成本高且效率低,因此應(yīng)該探索更有效的方法進行個人信用指標的篩選,文中提出的XGBoost-RF模型是一個很好的嘗試。(3)近年的研究集中在分類算法的改進上,而算法的推陳出新花費時間成本很高。本文指出選擇好度量指標會達到事半功倍的效果,因此改善現(xiàn)有的個人信用評估指標體系具有根本性的作用。企業(yè)需要審視現(xiàn)有指標體系,積極探索挖掘?qū)€人信用具有重大影響的其他因素。本文將XGBoost算法引入傳統(tǒng)的隨機森林算法(RF)來優(yōu)化信用指標的選擇,突破了以往研究中數(shù)據(jù)維數(shù)大、關(guān)聯(lián)性強所帶來的局限性,不足之處在于有些因素卻未能充分考慮。鑒于國內(nèi)相關(guān)個人信用數(shù)據(jù)的保密性,本文利用了公開的德國信用數(shù)據(jù)集??紤]到互聯(lián)網(wǎng)的個人信用數(shù)據(jù)指標在構(gòu)成上有所差異,并且在現(xiàn)實中個人信用水平往往被分為多個等級,不僅限于“好”客戶和“壞”客戶,因此研究效果有所減弱,但構(gòu)建的個人信用風險評估模型以及研究成果對現(xiàn)階段工作仍有借鑒作用。未來的研究可以考慮在信用等級細分情況下多元分類的問題,以及大數(shù)據(jù)背景下對個人信用風險影響重大的其余指標。

作者:周永圣 崔佳麗 周琳云 孫紅霞 劉淑芹 單位:北京工商大學