機(jī)器學(xué)習(xí)信貸逾期檢測(cè)模型研究
時(shí)間:2022-07-14 10:12:06
導(dǎo)語(yǔ):機(jī)器學(xué)習(xí)信貸逾期檢測(cè)模型研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:基于某信貸機(jī)構(gòu)歷史業(yè)務(wù)原始數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,分別建立決策樹(shù)、邏輯斯蒂、BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林預(yù)測(cè)模型,得到的準(zhǔn)確率不超過(guò)90%。再對(duì)原始數(shù)據(jù)進(jìn)行特征分箱后,通過(guò)XGBoost算法建立模型,準(zhǔn)確率提高為91.2%。最后,基于Cook距離的多元模型檢測(cè)到的離群點(diǎn)與逾期客戶有顯著關(guān)系,模型準(zhǔn)確率為96.7%,召回率為99.3%。
關(guān)鍵詞:逾期檢測(cè);特征分箱;機(jī)器學(xué)習(xí);Cook距離
1引言
隨著互聯(lián)網(wǎng)金融行業(yè)的興起,銀行和貸款機(jī)構(gòu)通過(guò)互聯(lián)網(wǎng)為有貸款需求的客戶提供線上金融服務(wù)。在帶來(lái)更好服務(wù)體驗(yàn)的同時(shí),也存在著諸多信用風(fēng)險(xiǎn)問(wèn)題,急需建立信貸風(fēng)險(xiǎn)檢測(cè)模型提高風(fēng)控水平。根據(jù)信貸客戶還款的具體情況,將客戶分為正常和逾期兩種類(lèi)型。以三個(gè)月的時(shí)間作為觀察窗口,還款連續(xù)逾期三個(gè)月的,判定為逾期客戶;其余正常還款情況的,為正??蛻?。通過(guò)采用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法得出的信用檢測(cè)模型,能夠較為準(zhǔn)確地預(yù)測(cè)個(gè)人未來(lái)的信用表現(xiàn),估計(jì)每筆信貸是否逾期,方便銀行提前預(yù)知可能存在的風(fēng)險(xiǎn)。
2數(shù)據(jù)預(yù)處理
分析來(lái)自某貸款機(jī)構(gòu)的歷史業(yè)務(wù)數(shù)據(jù),包含貸款基本表、報(bào)告主表、貸款記錄、貸記卡記錄、信用提示、未銷(xiāo)戶貸記卡和未結(jié)清貸款信息匯總、逾期信息匯總、查詢記錄匯總、信貸審批查詢記錄明細(xì)、貸款特殊交易、透支記錄、詐騙記錄等12個(gè)數(shù)據(jù)集,涉及3萬(wàn)名客戶和100多個(gè)特征,數(shù)據(jù)預(yù)處理較復(fù)雜,需盡量減少信息損失。為了獲得更好的訓(xùn)練數(shù)據(jù)特征,通過(guò)特征工程將原始數(shù)據(jù)轉(zhuǎn)換成模型訓(xùn)練數(shù)據(jù),使得機(jī)器學(xué)習(xí)模型逼近這個(gè)上限,提高模型性能。主要運(yùn)用了特征構(gòu)建和特征選擇。例如針對(duì)“數(shù)據(jù)集:信貸審批查詢記錄明細(xì)表”,利用日期函數(shù)計(jì)算查詢間隔月份數(shù),通過(guò)總查詢次數(shù)除以查詢間隔月份數(shù)構(gòu)建出新屬性“月查詢次數(shù)”。例如針對(duì)“數(shù)據(jù)集:貸款記錄”,由ID將貸款狀態(tài)拆分成“呆賬、結(jié)清和正?!比?lèi)屬性的數(shù)據(jù)。最終從100多個(gè)指標(biāo)中初步構(gòu)建了42個(gè)特征。接著,利用R語(yǔ)言“informationvalue”函數(shù)計(jì)算各定性指標(biāo)的IV值,選擇有高預(yù)測(cè)性能的前兩個(gè)顯著特征“工資”和“教育”;再通過(guò)廣義交叉驗(yàn)證法得到10個(gè)顯著性指標(biāo),主要包括信用狀況、償還歷史和逾期行為3個(gè)維度的指標(biāo),結(jié)合Boruta算法得出變量對(duì)逾期狀態(tài)影響的顯著性,根據(jù)變量間相關(guān)性圖和現(xiàn)實(shí)意義,篩選出“信用使用年限”和“貸款賬戶數(shù)”;最終,經(jīng)過(guò)定性指標(biāo)和定量指標(biāo)的篩選,從42個(gè)初選特征中選擇了重要程度前14的特征。特征選擇結(jié)果如表1所示。處理完缺失值后,采用無(wú)放回隨機(jī)抽樣方式,將總體以7∶3的比例拆分成訓(xùn)練集和測(cè)試集,數(shù)據(jù)基本情況如表2所示。
3初步建立逾期檢測(cè)模型
分別通過(guò)“gbm”函數(shù)建立決策樹(shù)逾期檢測(cè)模型(GBDT)、“glm”函數(shù)建立邏輯斯蒂回歸模型,并通過(guò)逐步回歸剔除非顯著變量、“nnet”包所得BP神經(jīng)網(wǎng)絡(luò)模型、“randomForest”函數(shù)建立隨機(jī)森林逾期檢測(cè)模型,結(jié)果如表3所示。四種模型的AUC值均低于0.8,預(yù)測(cè)準(zhǔn)確性不是很高,離想要檢測(cè)逾期客戶的目標(biāo)還有一定差距。其中表現(xiàn)較好的模型為邏輯斯蒂和BP神經(jīng)網(wǎng)絡(luò),AUC值為0.71。
4特征分箱
通過(guò)特征分箱離散化連續(xù)變量,同時(shí)將離散變量合并成少狀態(tài)。經(jīng)特征分箱后的數(shù)據(jù),具有更易于模型快速迭代和降低模型過(guò)擬合風(fēng)險(xiǎn)等優(yōu)勢(shì)?;凇皊mbinning”包對(duì)各特征進(jìn)行最優(yōu)分段,通過(guò)分段結(jié)果對(duì)數(shù)據(jù)進(jìn)行封閉性分箱和轉(zhuǎn)換,如特征“信用使用年限”的分段結(jié)果如表4所示。
5逾期檢測(cè)模型探索和優(yōu)化
5.1基于XGBoost的集成學(xué)習(xí)模型
前面幾種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)精度相對(duì)不高,嘗試基于XGBoost算法的集成學(xué)習(xí)模型以提高預(yù)測(cè)模型的精度。同時(shí),將分別對(duì)原數(shù)據(jù)和特征分箱變換后的數(shù)據(jù)進(jìn)行預(yù)測(cè),以觀察特征分箱是否提升了模型的表達(dá)能力和擬合度。XGBoost模型結(jié)果如表5所示。通過(guò)R語(yǔ)言“xgboost”函數(shù)建立模型,經(jīng)參數(shù)調(diào)試后對(duì)原數(shù)據(jù)進(jìn)行預(yù)測(cè),得到預(yù)測(cè)準(zhǔn)確率為84.5%,召回率為37%,AUC值為0.72。對(duì)特征分箱后數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)準(zhǔn)確率為91.2%,召回率為52.7%,AUC值為0.82。將“xgboost”函數(shù)的目標(biāo)設(shè)為邏輯斯蒂模型,由于邏輯斯蒂為廣義線性模型,表達(dá)能力有限,而特征分箱后每個(gè)變量有了權(quán)重,即引入了非線性到模型中,顯著提升了模型的表達(dá)能力和擬合效果。
5.2基于CooK距離的多元模型
通過(guò)統(tǒng)計(jì)學(xué)方法分析得到離群點(diǎn),觀察離群點(diǎn)與逾期客戶是否有顯著的關(guān)系。一般如果觀測(cè)樣本的Cook距離比平均距離大4倍,則該數(shù)據(jù)點(diǎn)被判定為離群點(diǎn)。通過(guò)Cook平均距離的4和24倍分別進(jìn)行離群值檢測(cè),其中顯著離群點(diǎn)和全部離群點(diǎn)如圖1所示。經(jīng)匹配樣本號(hào)發(fā)現(xiàn),基于Cook距離的多元模型檢測(cè)法所得出的離群點(diǎn)基本為逾期客戶,該模型表現(xiàn)出了較高的檢測(cè)準(zhǔn)確率和召回率。當(dāng)Cook距離為4倍時(shí),99.3%的逾期客戶被檢測(cè)出來(lái),而此時(shí)模型的準(zhǔn)確率仍非常高,為96.7%。具體如表6所示。
6結(jié)論
進(jìn)行分析的目的是檢測(cè)出可能存在逾期行為的客戶,基于這個(gè)業(yè)務(wù)背景,主要從模型的準(zhǔn)確率、召回率和AUC值來(lái)評(píng)價(jià)模型的優(yōu)劣。四種機(jī)器學(xué)習(xí)模型的AUC值均低于0.8,預(yù)測(cè)準(zhǔn)確性不是很高。模型優(yōu)化上,通過(guò)XGBoost集成學(xué)習(xí)模型對(duì)原數(shù)據(jù)和分箱后數(shù)據(jù)分別建立模型,AUC分別提高到0.72和0.82,說(shuō)明集成學(xué)習(xí)模型和特征分箱均有優(yōu)勢(shì),且經(jīng)特征分箱后的XGBoost模型預(yù)測(cè)準(zhǔn)確率達(dá)到91.2%,召回率達(dá)到51.7%,模型有很好的預(yù)測(cè)效果。模型探索上,由于逾期客戶均在數(shù)據(jù)的某些特征取值上較為極端,故通過(guò)統(tǒng)計(jì)學(xué)方法,基于Cook距離的多元模型檢測(cè)出來(lái)的離群點(diǎn),與逾期客戶有著顯著的關(guān)系。當(dāng)Cook距離為4倍時(shí),99.3%的逾期客戶被檢測(cè)出來(lái),而此時(shí)模型的準(zhǔn)確率仍非常高,為96.7%,該模型表現(xiàn)出了非常高的分類(lèi)效果。
參考文獻(xiàn):
[1]中國(guó)人民征信中心.個(gè)人征信系統(tǒng)新版信用報(bào)告概述[DB/OL].[2021-04-15]paper/94313836.html.
[2]高祖康.基于數(shù)據(jù)挖掘的商業(yè)銀行貸款信用評(píng)級(jí)[D].南京:南京理工大學(xué),2013.
[3]何曉群.多元統(tǒng)計(jì)分析[M].4版.北京:中國(guó)人民大學(xué)出版社,2004.
[4]董媛香,程鑫.大數(shù)據(jù)背景下個(gè)人信用評(píng)價(jià)體系構(gòu)建[J].現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化,2017,7(5):106-108.
[5]石澄賢,陳雪交.P2P網(wǎng)貸個(gè)人信用評(píng)價(jià)指標(biāo)體系的構(gòu)建[J].常州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016,17(1):80-85.
[6]李佳.網(wǎng)絡(luò)銀行個(gè)人客戶信用風(fēng)險(xiǎn)評(píng)價(jià)研究[J].中國(guó)市場(chǎng),2016(14):91-92.
[7]劉揚(yáng),劉偉江.特征選擇方法在信用評(píng)估指標(biāo)選取中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2006(6):667-674.
[8]張道宏,張璇,尹成果.基于BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估模型[J].情報(bào)雜志,2006,25(3):68-70.
[9]張國(guó)政,陳維煌,劉呈輝.基于logistic模型的商業(yè)銀行個(gè)人消費(fèi)信貸風(fēng)險(xiǎn)評(píng)估研究[J].金融理論與實(shí)踐,2015(3):53-57.
作者:侯浩鑫 趙志紅 單位:北京理工大學(xué)珠海學(xué)院