日韩丝袜制服在线播放,韩日成人电影一区

導(dǎo)語(yǔ)：隨機(jī)森林個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究一文來(lái)源于網(wǎng)友上傳，不代表本站觀點(diǎn)，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

隨機(jī)森林個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究

一、文獻(xiàn)綜述

近年來(lái)，隨著消費(fèi)金融市場(chǎng)的迅速發(fā)展，越來(lái)越多的消費(fèi)金融機(jī)構(gòu)涌入，以螞蟻花唄、借唄、京東白條為代表的消費(fèi)金融服務(wù)盛行。從受眾群體來(lái)看，消費(fèi)貸款的發(fā)放對(duì)象是個(gè)人，還款來(lái)源主要為工資、獎(jiǎng)金、投資收益、生產(chǎn)經(jīng)營(yíng)性收入等。這些來(lái)源易受多種外部因素影響，包括宏觀經(jīng)濟(jì)變化、所在企業(yè)經(jīng)營(yíng)狀況、個(gè)人健康及意外等。與此同時(shí)，與企業(yè)相比個(gè)人的流動(dòng)性和不確定性更高，借款人還款行為易受個(gè)體思想觀念、態(tài)度、行為習(xí)慣等主觀因素的影響。因此，個(gè)人信用風(fēng)險(xiǎn)成為風(fēng)控的核心，如何把各借款人紛繁復(fù)雜的信息數(shù)據(jù)映射成其自身詳細(xì)的信用水平成為這一行業(yè)亟待解決的問(wèn)題。在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域，國(guó)內(nèi)外的研究主要集中在個(gè)人信用風(fēng)險(xiǎn)的指標(biāo)選取和個(gè)人信用風(fēng)險(xiǎn)評(píng)估方法及模型構(gòu)建兩個(gè)方面，后者居多。信用風(fēng)險(xiǎn)指標(biāo)的選取，主要基于傳統(tǒng)信貸的指標(biāo)選擇和基于消費(fèi)場(chǎng)景多樣性對(duì)指標(biāo)體系的補(bǔ)充優(yōu)化。BillFair和Earllsaac（2015）提出的FICO信用分模型是個(gè)人信用評(píng)估領(lǐng)域最早且在銀行使用最廣泛的。FICO模型根據(jù)違約風(fēng)險(xiǎn)來(lái)計(jì)算客戶的信譽(yù)，它所選用的指標(biāo)主要有五類：信用償還歷史、信用賬戶數(shù)、使用信用的年限、正在使用的信用類型以及新開立的信用賬戶［1］。MariolaChrzanowska（2008）以一家在波蘭經(jīng)營(yíng)的外資銀行中的個(gè)人客戶貸款為例，通過(guò)單一和集成的方法，發(fā)現(xiàn)“已償還貸款的份額”是體現(xiàn)個(gè)人信用等級(jí)最重要的指標(biāo)［2］。龍新庭、王曉華（2013）指出德國(guó)國(guó)際項(xiàng)目咨詢IPC公司通過(guò)客戶的信用歷史、貸款申請(qǐng)書信息、個(gè)人聲譽(yù)等方面綜合評(píng)估其還款意愿［3］。消費(fèi)場(chǎng)景的多樣性使得實(shí)踐中基于互聯(lián)網(wǎng)的個(gè)人信用風(fēng)險(xiǎn)指標(biāo)在構(gòu)成上與傳統(tǒng)的金融機(jī)構(gòu)有所不同，在其基礎(chǔ)上更多地獲取關(guān)于個(gè)人生活消費(fèi)的指標(biāo)。國(guó)內(nèi)首個(gè)個(gè)人信用評(píng)分——阿里巴巴芝麻信用分的評(píng)分標(biāo)準(zhǔn)主要由五部分組成：信用歷史（35%）、行為偏好（25%）、履約能力（20%）、身份特征（15%）和人脈關(guān)系（5%）［4］。不同于阿里巴巴的是，京東與騰訊達(dá)成深度合作，將自身的電商數(shù)據(jù)和騰訊的社交數(shù)據(jù)結(jié)合，所以京東白條能更精確地把握用戶的信用信息［5］。信用風(fēng)險(xiǎn)評(píng)估方法的實(shí)質(zhì)是將一個(gè)數(shù)據(jù)樣本總體按不同特征分為若干組的方法，個(gè)人信用評(píng)估模型構(gòu)建主要包括統(tǒng)計(jì)和非統(tǒng)計(jì)方法。統(tǒng)計(jì)方法主要包括判別分析法、Logistic回歸、K近鄰判別分析法等。何曉群等（2015）認(rèn)為信用風(fēng)險(xiǎn)評(píng)估模型是金融機(jī)構(gòu)開展信貸工作的核心，模型結(jié)果則是信用評(píng)級(jí)的依據(jù)來(lái)源［6］。李萌（2005）將不良貸款率、T檢驗(yàn)、主成分分析相結(jié)合，基于Logistic回歸建立判斷信用風(fēng)險(xiǎn)的評(píng)估模型［7］。姚路（2017）在對(duì)個(gè)人基本信息、信貸擔(dān)保交易信息等認(rèn)知的基礎(chǔ)上建立多元線性回歸模型，間接地對(duì)信息主體進(jìn)行信用評(píng)價(jià)［8］。姜明輝等（2004）通過(guò)確定相應(yīng)的評(píng)估指標(biāo)體系，建立了基于K近鄰判別分析法的個(gè)人信用評(píng)估模型，并對(duì)模型應(yīng)用中需要注意的問(wèn)題進(jìn)行了分析［9］?；诮y(tǒng)計(jì)方法的信用風(fēng)險(xiǎn)評(píng)估模型需要對(duì)樣本數(shù)據(jù)進(jìn)行嚴(yán)格的假設(shè)，如線性關(guān)系、正態(tài)分布等，這些都在一定程度上影響模型的適用性及使用效果［10］。非統(tǒng)計(jì)方法主要包括依托計(jì)算機(jī)技術(shù)的人工智能方法，以人工神經(jīng)網(wǎng)絡(luò)（ANN）、支持向量機(jī)（SVM）、決策樹（DT）和隨機(jī)森林（RF）著名。HussainAliBekhet（2014）設(shè)計(jì)了兩種信用評(píng)分模型，并采用人工神經(jīng)網(wǎng)絡(luò)方法為約旦商業(yè)銀行貸款決策提供技術(shù)支持，證實(shí)人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用將改善信貸決策效率，幫助金融機(jī)構(gòu)節(jié)省分析時(shí)間和成本［11］。TonyBellottti和JonathanCrook（2008）運(yùn)用大型信用卡數(shù)據(jù)庫(kù)的信息，將支持向量機(jī)與Logistic回歸等傳統(tǒng)方法進(jìn)行對(duì)比研究，表明支持向量機(jī)更具競(jìng)爭(zhēng)力，還可用作特征選擇方法來(lái)分辨出決定違約風(fēng)險(xiǎn)大小最重要的特征［12］。姚瀟和余樂(lè)安（2012）將模糊隸屬度引入支持向量機(jī)進(jìn)行實(shí)證研究，結(jié)論表明模糊近似支持向量機(jī)能夠顯著地提高信用風(fēng)險(xiǎn)分類精度［13］。龐素琳和鞏吉璋（2009）以德國(guó)銀行個(gè)人信貸數(shù)據(jù)為樣本，采用C5.0算法（DT模型的一種）構(gòu)建信用評(píng)估模型，并使用了Boosting算法技術(shù)提升模型對(duì)樣本數(shù)據(jù)的擬合度，最后通過(guò)參數(shù)調(diào)節(jié)進(jìn)一步提高分類精確率［14］。GasparCano等（2017）對(duì)不同的數(shù)據(jù)集用RF算法進(jìn)行特征選擇并用其對(duì)數(shù)據(jù)集分類，結(jié)果表明由RF選出相關(guān)變量并據(jù)此進(jìn)行分類的性能效果比SVM和ANN更具優(yōu)勢(shì)［15］。戴昕琦（2018）把更加適合處理不平衡數(shù)據(jù)的SMOTE算法改進(jìn)，再與RF模型結(jié)合運(yùn)用于供應(yīng)鏈金融信用風(fēng)險(xiǎn)管理研究中，發(fā)現(xiàn)C-SMOTE-RF模型在很大程度上減少了銀行的“取偽”概率，從而能幫助銀行更好地對(duì)風(fēng)險(xiǎn)企業(yè)進(jìn)行識(shí)別［16］。隨機(jī)森林（RF）的提出者BreimanLeo（2001）指出RF明顯優(yōu)于單個(gè)分類決策樹模型［17］。方匡南等（2010）將RF算法用于零售信貸領(lǐng)域的信用卡違約風(fēng)險(xiǎn)識(shí)別，并發(fā)現(xiàn)RF算法無(wú)須對(duì)數(shù)據(jù)樣本標(biāo)準(zhǔn)化預(yù)處理，且比SVM、單一決策樹以及Logistic回歸有更高的準(zhǔn)確率［18］。綜上所述，RF算法是基于決策樹的集成式算法，一般無(wú)須對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理，且分類性能優(yōu)于傳統(tǒng)統(tǒng)計(jì)方法和SVM等智能算法。大數(shù)據(jù)技術(shù)使得用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)指標(biāo)的可獲得性變強(qiáng)，數(shù)據(jù)維度變大，導(dǎo)致風(fēng)險(xiǎn)預(yù)測(cè)時(shí)間變長(zhǎng)，成本變高。而RF算法是采用多棵決策樹分類產(chǎn)生結(jié)果并以加法投票的方式得出最終結(jié)果。RF算法中單棵決策樹每個(gè)節(jié)點(diǎn)的選擇與分裂都是基于該節(jié)點(diǎn)隨機(jī)選取的特征確定的，因此信用指標(biāo)之間的自相關(guān)性會(huì)使決策樹之間的選擇與分裂規(guī)則相似；各決策樹選擇的相似性會(huì)使得以加法投票方式確定的最終分類結(jié)果呈現(xiàn)“一邊倒”，這樣會(huì)極大地降低分類準(zhǔn)確度。因此，考慮到個(gè)人信用風(fēng)險(xiǎn)評(píng)估時(shí)數(shù)據(jù)維度及數(shù)據(jù)的預(yù)測(cè)能力，在傳統(tǒng)隨機(jī)森林模型的基礎(chǔ)上加入XGBoost算法來(lái)對(duì)指標(biāo)進(jìn)行降維，剔除關(guān)系密切和對(duì)預(yù)測(cè)信用風(fēng)險(xiǎn)影響小的指標(biāo)，并采用實(shí)際的數(shù)據(jù)集驗(yàn)證了模型的合理性和有效性，為個(gè)人信用風(fēng)險(xiǎn)評(píng)估提供更好的決策支持。

二、改進(jìn)的隨機(jī)森林模型建立

構(gòu)建的改進(jìn)的隨機(jī)森林模型（即XGBoost-RF模型）如圖1所示。第一階段運(yùn)用XGBoost算法進(jìn)行特征選擇，輸出數(shù)據(jù)樣本中的特征重要性柱狀圖，這樣不僅能最直觀地看到每個(gè)指標(biāo)的特征重要性得分，而且能提升模型的解釋性；此外，從中篩選出的影響較大的特征指標(biāo)，也能為個(gè)人信用評(píng)估指標(biāo)選擇提供參考。第二階段運(yùn)用隨機(jī)森林（RF）算法對(duì)第一階段篩選出的指標(biāo)進(jìn)行分類。XGBoost算法是基于梯度提升樹（GBDT）模型原理改進(jìn)后的算法。與RF算法在特征選擇時(shí)運(yùn)用Gini指數(shù)計(jì)算節(jié)點(diǎn)不純度不同的是，XGBoost是通過(guò)該特征每棵樹中分裂次數(shù)的和計(jì)算的。與神經(jīng)網(wǎng)絡(luò)的“黑箱操作”相反，XGBoost所用決策樹內(nèi)在的可解釋性降低了算法計(jì)算的復(fù)雜度，提升了整個(gè)模型的可解釋性?？山忉屝砸彩切庞迷u(píng)估的一個(gè)重要組成部分，因此將其用于對(duì)各個(gè)特征指標(biāo)的重要性進(jìn)行估計(jì)十分合適，一般重要性分?jǐn)?shù)越高則該特征指標(biāo)越重要，該特征指標(biāo)在數(shù)據(jù)集中的貢獻(xiàn)越大。RF算法是由LeoBreiman和AdeleCutler［17］提出的一種集成分類器，但它摒棄了單棵決策樹容易產(chǎn)生過(guò)擬合現(xiàn)象的缺點(diǎn)，RF算法最終的分類決策fRF（x）由式（1）得出：fRF（x）=argmaxΣnk=1I（hk（x，θk）=Y）Y（1）其中，hk（x，θk）是單棵決策樹分類器，是用CART算法構(gòu)建的未剪枝的分類樹，其中θk是服從獨(dú)立同分布的隨機(jī)變量，決定單棵樹的生長(zhǎng)過(guò)程；Y為目標(biāo)變量，表示是否違約，在本文中用1（違約）和0（未違約）分別表示；I（•）表示滿足括號(hào)中表達(dá)式的樣本個(gè)數(shù)。式（1）為使用多數(shù)投票法來(lái)確定最終分類結(jié)果的表達(dá)式。對(duì)于隨機(jī)森林算法中的單棵決策樹，首先在每一節(jié)點(diǎn)隨機(jī)選擇m個(gè)特征，再?gòu)倪@m個(gè)特征中根據(jù)Gini指數(shù)最優(yōu)分割選擇最優(yōu)特征進(jìn)行該節(jié)點(diǎn)的分裂。Gini指數(shù)由式（2）得出：Gini（Q）=Σjj=1Pj（1-Pj）=1-Σjj=1Pj2（2）其中，Q為S個(gè)數(shù)據(jù)樣本的集合；Pj為隨機(jī)數(shù)據(jù)樣本屬于j類別的概率，近似值可用SjJS表示；J為數(shù)據(jù)集的類別總數(shù)，本文中J包括違約與未違約兩類。通過(guò)求Gini（Q，F(xiàn)）的最小值得到Gini指數(shù)最優(yōu)分割，Gini（Q，F(xiàn)）表達(dá)式如式（3）所示：Gini（Q，F(xiàn)）=SSjGini（Qj）+SSjGini（Q-j）（3）因此，使得Gini（Q，F(xiàn)）值最小的特征即為該節(jié)點(diǎn)應(yīng)選擇的最優(yōu)特征。其中，Sj為屬于j類別的樣本個(gè)數(shù)，S-j為不屬于j類別的樣本個(gè)數(shù)，F(xiàn)為分裂特征。

三、數(shù)據(jù)選擇與處理

本文采用著名的德國(guó)信用數(shù)據(jù)集（數(shù)據(jù)集網(wǎng)址為http：//archive.ics.uci.edu/）來(lái)驗(yàn)證模型的可行性和有效性。因?yàn)榈聡?guó)信用數(shù)據(jù)集的指標(biāo)比較全面，對(duì)個(gè)人信用風(fēng)險(xiǎn)評(píng)估指標(biāo)的構(gòu)建具有借鑒意義；基于互聯(lián)網(wǎng)的信貸也大多以此信用指標(biāo)體系為根基，在其基礎(chǔ)上進(jìn)行細(xì)分補(bǔ)充。德國(guó)信用數(shù)據(jù)集是德國(guó)一銀行記錄使用信用卡的個(gè)人特征及違約與否的數(shù)據(jù)集，一共有1000個(gè)客戶的基本信息，包含了700個(gè)好客戶（客戶信用良好，沒(méi)有信用違約記錄）和300個(gè)壞客戶（客戶信用較差，有違約記錄）。每個(gè)客戶的信息都包含24個(gè)屬性指標(biāo)，由7個(gè)離散型指標(biāo)、13個(gè)連續(xù)型指標(biāo)構(gòu)成，其他4個(gè)指標(biāo)未知，以及每個(gè)客戶的類別，取“1”代表“好”客戶，“0”代表“壞”客戶。該數(shù)據(jù)集指標(biāo)可分為個(gè)人指標(biāo)、信用指標(biāo)和經(jīng)濟(jì)指標(biāo)三大類。個(gè)人指標(biāo)主要是描述個(gè)人自然信息，包括婚姻狀況、性別、年齡等信息，透過(guò)這些信息商業(yè)銀行能夠間接獲悉申請(qǐng)人的還款意愿和還款能力；信用指標(biāo)包括貸款信息、信用卡信息、歷史信用信息等，從中可了解貸款申請(qǐng)人的信用風(fēng)險(xiǎn)、債務(wù)壓力及其歷史信用；經(jīng)濟(jì)指標(biāo)包括貸款申請(qǐng)人的職位、工齡、收入等信息，是衡量貸款申請(qǐng)人還款能力的重要指標(biāo)。而4個(gè)未知指標(biāo)對(duì)信用分類預(yù)測(cè)能力非常小，因此將其作為無(wú)關(guān)指標(biāo)剔除。

四、結(jié)果分析

經(jīng)濟(jì)金融領(lǐng)域中的指標(biāo)錯(cuò)綜復(fù)雜，個(gè)人信用指標(biāo)更是如此，指標(biāo)變量間的相關(guān)性等降低了模型預(yù)測(cè)及信用風(fēng)險(xiǎn)評(píng)估的有效性。因此，對(duì)數(shù)據(jù)樣本的原始指標(biāo)進(jìn)行篩選來(lái)建立風(fēng)險(xiǎn)評(píng)估指標(biāo)體系，有助于個(gè)人信用的審核以及風(fēng)險(xiǎn)的重點(diǎn)監(jiān)控。（一）基于XGBoost的信用指標(biāo)篩選。首先采用XGBoost算法用Python軟件進(jìn)行編程計(jì)算，得到所有指標(biāo)的特征重要性分?jǐn)?shù)。圖2是德國(guó)數(shù)據(jù)集指標(biāo)的特征重要性分?jǐn)?shù)柱狀圖。再根據(jù)XGBoost特征重要性得分進(jìn)行指標(biāo)篩選。從圖2可以看出，f3（信貸用途）、f1（信貸期限）、f9（擔(dān)保人）、f5（儲(chǔ)蓄賬戶情況）、f2（信用歷史）、f0（經(jīng)常性賬戶情況）這幾個(gè)指標(biāo)的特征重要性得分較高，可見這些指標(biāo)對(duì)借款人違約風(fēng)險(xiǎn)影響較大；而f19（是否為外籍工作者）、f12（年齡）和f13（其他分期付款方式）重要性得分較低，影響較小，這與實(shí)際經(jīng)驗(yàn)基本吻合。同時(shí)，考慮到德國(guó)數(shù)據(jù)集樣本量較多，進(jìn)入分類步驟的指標(biāo)不能過(guò)少，同時(shí)從排名第15位的特征指標(biāo)開始，其重要性得分大幅度下降，因此根據(jù)特征重要性柱狀圖選取特征重要性，得分前14位的指標(biāo)進(jìn)入第二階段的RF算法對(duì)數(shù)據(jù)樣本進(jìn)行分類，所選指標(biāo)包括f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f15、f16、f17。由圖2可以發(fā)現(xiàn)，除f3（信貸用途）、f1（信貸期限）等顯性指標(biāo)對(duì)個(gè)人信用風(fēng)險(xiǎn)影響重大外，f9（擔(dān)保人）對(duì)個(gè)人信用風(fēng)險(xiǎn)的影響不容忽視。擔(dān)保人的資金實(shí)力、信用水平對(duì)貸款申請(qǐng)者個(gè)人信用風(fēng)險(xiǎn)影響重大，而擔(dān)保人的選擇體現(xiàn)了貸款申請(qǐng)者的“人脈關(guān)系”。但國(guó)內(nèi)現(xiàn)有的個(gè)人信用評(píng)分機(jī)制，鮮少選擇諸如“擔(dān)保人”等“人脈關(guān)系”相關(guān)指標(biāo)。因此，評(píng)估個(gè)人信用風(fēng)險(xiǎn)時(shí)，在不違背保護(hù)隱私的前提下，應(yīng)完善對(duì)“人脈關(guān)系”的調(diào)查與審核，以降低貸款申請(qǐng)者個(gè)人信用風(fēng)險(xiǎn)。（二）基于RF算法的個(gè)人信用分類分析。依據(jù)得到的14個(gè)屬性指標(biāo)，運(yùn)用隨機(jī)森林（RF）算法對(duì)1000條數(shù)據(jù)樣本進(jìn)行分類測(cè)試，并將結(jié)果與傳統(tǒng)RF算法對(duì)比，得到以下結(jié)果及結(jié)論。（1）利用未經(jīng)XGBoost篩選的原始數(shù)據(jù)集建立100棵決策樹分類可以發(fā)現(xiàn)：在5倍交叉驗(yàn)證下，節(jié)點(diǎn)分裂時(shí)隨機(jī)選取的指標(biāo)個(gè)數(shù)m為15時(shí)，平均分類準(zhǔn)確率為68.6%；當(dāng)m取10時(shí)，平均分類準(zhǔn)確率為70.6%；當(dāng)m取5時(shí)，平均分類準(zhǔn)確率為64.2%。結(jié)論1：在交叉驗(yàn)證倍數(shù)不變的情況下使用德國(guó)信用數(shù)據(jù)集進(jìn)行分類，當(dāng)把每一節(jié)點(diǎn)分裂時(shí)隨機(jī)選取的指標(biāo)個(gè)數(shù)設(shè)置較大時(shí)，那么在一定范圍內(nèi)減小指標(biāo)個(gè)數(shù)，分類效果會(huì)變好，而如果指標(biāo)選取的個(gè)數(shù)過(guò)少，分類效果會(huì)減弱。結(jié)論1的得出表明德國(guó)信用數(shù)據(jù)集中存在對(duì)預(yù)測(cè)個(gè)人信用風(fēng)險(xiǎn)影響較小的冗余指標(biāo)或者某些指標(biāo)間存在自相關(guān)性。（2）利用原始數(shù)據(jù)集和經(jīng)XGBoost篩選后的數(shù)據(jù)集建立100棵決策樹分類可以發(fā)現(xiàn)：在5倍交叉驗(yàn)證下，每一節(jié)點(diǎn)分裂時(shí)隨機(jī)選取的指標(biāo)個(gè)數(shù)均為10時(shí)，篩選后數(shù)據(jù)集的分類準(zhǔn)確率分別為0.73、0.735、0.63、0.72、0.69，與之對(duì)應(yīng)的原始數(shù)據(jù)集的分類準(zhǔn)確率分別為0.73、0.715、0.67、0.69、0.72；而且，在大部分子樣本中，經(jīng)XGBoost篩選過(guò)的數(shù)據(jù)集得出的分類準(zhǔn)確率比原始數(shù)據(jù)集得出的準(zhǔn)確率高；當(dāng)選取的指標(biāo)個(gè)數(shù)m取5時(shí)，原始數(shù)據(jù)集的平均分類準(zhǔn)確率為64.2%，而新數(shù)據(jù)集的平均分類準(zhǔn)確率為69.7%。

2：利用XGBoost特征選擇后建立的新數(shù)據(jù)集在同樣的倍數(shù)交叉驗(yàn)證下，不論是單次的分類準(zhǔn)確率還是平均分類準(zhǔn)確率都不亞于原始數(shù)據(jù)集的分類結(jié)果，甚至更高。（三）基于ROC曲線的模型性能比較ROC曲線是用于展示試驗(yàn)中效果是否優(yōu)良的一種圖形，一般通過(guò)ROC曲線下的面積AUC來(lái)衡量模型效果，曲線下面積AUC的值越大，可認(rèn)為效果越好。對(duì)改進(jìn)前后兩種方案的性能進(jìn)行ROC曲線分析，其ROC曲線及其比較結(jié)果如圖3所示。將（a）和（b）放于同一坐標(biāo)軸進(jìn)行比較如（c）圖所示，發(fā)現(xiàn)除左上角兩曲線有所偏差之外其余基本重疊；從（d）圖可以看出明顯的差別：新數(shù)據(jù)集ROC曲線位于原數(shù)據(jù)集ROC曲線的上方，即利用新數(shù)據(jù)集的分類性能比原始數(shù)據(jù)集要好，更具有準(zhǔn)確性。基于上述分析，可以得出改進(jìn)后的XGBoost-RF模型通過(guò)優(yōu)化數(shù)據(jù)指標(biāo)而使模型性能比改進(jìn)前更好，分類準(zhǔn)確度更高。五、啟示與展望通過(guò)分析研究，可以發(fā)現(xiàn)以德國(guó)信用數(shù)據(jù)集為樣本，改進(jìn)后的隨機(jī)森林模型通過(guò)優(yōu)化特征選擇從而降低指標(biāo)維數(shù)，最終提高了分類準(zhǔn)確率，因此本文所構(gòu)建的XGBoost-RF模型具有一定的合理性和有效性。進(jìn)一步，研究得出的結(jié)論對(duì)互聯(lián)網(wǎng)金融下個(gè)人信用風(fēng)險(xiǎn)評(píng)估的啟示如下：（1）在對(duì)德國(guó)信用數(shù)據(jù)集進(jìn)行特征選擇時(shí)發(fā)現(xiàn)“擔(dān)保人”對(duì)個(gè)人信用有較大影響，但國(guó)內(nèi)現(xiàn)有的個(gè)人信用評(píng)分機(jī)制對(duì)于貸款申請(qǐng)者的諸如“擔(dān)保人”等“人脈關(guān)系”指標(biāo)缺乏重視，因此相關(guān)企業(yè)在保護(hù)個(gè)人隱私的前提下可以完善“人脈關(guān)系”相關(guān)指標(biāo)的信息采集。（2）在個(gè)人信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域，大數(shù)據(jù)帶來(lái)了豐富的數(shù)據(jù)信息，更完整地勾勒出個(gè)人信用狀況。利用所有的數(shù)據(jù)進(jìn)行評(píng)估成本高且效率低，因此應(yīng)該探索更有效的方法進(jìn)行個(gè)人信用指標(biāo)的篩選，文中提出的XGBoost-RF模型是一個(gè)很好的嘗試。（3）近年的研究集中在分類算法的改進(jìn)上，而算法的推陳出新花費(fèi)時(shí)間成本很高。本文指出選擇好度量指標(biāo)會(huì)達(dá)到事半功倍的效果，因此改善現(xiàn)有的個(gè)人信用評(píng)估指標(biāo)體系具有根本性的作用。企業(yè)需要審視現(xiàn)有指標(biāo)體系，積極探索挖掘?qū)€(gè)人信用具有重大影響的其他因素。本文將XGBoost算法引入傳統(tǒng)的隨機(jī)森林算法（RF）來(lái)優(yōu)化信用指標(biāo)的選擇，突破了以往研究中數(shù)據(jù)維數(shù)大、關(guān)聯(lián)性強(qiáng)所帶來(lái)的局限性，不足之處在于有些因素卻未能充分考慮。鑒于國(guó)內(nèi)相關(guān)個(gè)人信用數(shù)據(jù)的保密性，本文利用了公開的德國(guó)信用數(shù)據(jù)集。考慮到互聯(lián)網(wǎng)的個(gè)人信用數(shù)據(jù)指標(biāo)在構(gòu)成上有所差異，并且在現(xiàn)實(shí)中個(gè)人信用水平往往被分為多個(gè)等級(jí)，不僅限于“好”客戶和“壞”客戶，因此研究效果有所減弱，但構(gòu)建的個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型以及研究成果對(duì)現(xiàn)階段工作仍有借鑒作用。未來(lái)的研究可以考慮在信用等級(jí)細(xì)分情況下多元分類的問(wèn)題，以及大數(shù)據(jù)背景下對(duì)個(gè)人信用風(fēng)險(xiǎn)影響重大的其余指標(biāo)。

作者:周永圣崔佳麗周琳云孫紅霞劉淑芹單位:北京工商大學(xué)

隨機(jī)森林個(gè)人信用風(fēng)險(xiǎn)評(píng)估研究

熱門標(biāo)簽

相關(guān)文章