機器學(xué)習(xí)方法及信用風(fēng)險評估

時間:2022-09-02 10:31:03

導(dǎo)語:機器學(xué)習(xí)方法及信用風(fēng)險評估一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

機器學(xué)習(xí)方法及信用風(fēng)險評估

摘要:基于信用風(fēng)險評估的文獻隨著時間的推移以及技術(shù)創(chuàng)新的不斷更新,相關(guān)機器學(xué)習(xí)方法運用近年來也與時俱進?;诖?,主要從傳統(tǒng)的機器學(xué)習(xí)方法、近現(xiàn)代機器學(xué)習(xí)方法以及近三年來最新研究三個方面進行信用風(fēng)險評估領(lǐng)域文獻梳理與評述,歸納現(xiàn)有機器學(xué)習(xí)方法存在的問題和不足,并對未來機器學(xué)習(xí)方法在金融風(fēng)控領(lǐng)域研究方向做出展望,提出發(fā)展趨勢。

關(guān)鍵詞:機器學(xué)習(xí)方法;信用風(fēng)險;評估

隨著人工智能的發(fā)展和大數(shù)據(jù)時代的到來,眾多學(xué)者利用機器學(xué)習(xí)方法對信用風(fēng)險評估展開廣泛研究。信用風(fēng)險管理在國內(nèi)外金融機構(gòu)的穩(wěn)健運行中扮演重要角色,傳統(tǒng)的判斷用戶是否違約的方法已經(jīng)不能滿足當(dāng)今數(shù)據(jù)類型多、用戶量大、風(fēng)險預(yù)測準(zhǔn)確率高的要求,大量學(xué)者運用機器學(xué)習(xí)方法深入展開相關(guān)討論并做出一系列研究成果,證明該方法具有較好的預(yù)測和泛化能力。整體來看,我國的個人信用風(fēng)險評估較國外起步較晚,起初的文獻大部分都是進行傳統(tǒng)單一模型的風(fēng)險評估,近年來才開始利用集成機器學(xué)習(xí)方法進行風(fēng)險預(yù)測。信用風(fēng)險對于我國金融風(fēng)控領(lǐng)域尤為重要,因此,對此進行相關(guān)文獻梳理以及發(fā)展趨勢研究具有重要意義。

一、基于統(tǒng)計學(xué)習(xí)方法的信用風(fēng)險評估綜述

回歸分析等方法最早用于開展信用風(fēng)險評估領(lǐng)域。在國外,Durand(1941)利用線性判別分析法應(yīng)用信貸評估系統(tǒng),提出使用基于數(shù)理統(tǒng)計的模型對信用風(fēng)險評估問題進行了研究,是已知文獻中最早被用來進行信用風(fēng)險評估的方法,自此信用評估由單純的定性分析轉(zhuǎn)向了定量分析。同時,這一方法存在一定的局限性,它對于數(shù)據(jù)分布要求的假設(shè)性太強,并且樣本分類依據(jù)不是均值而是方差,因此導(dǎo)致最終的分類效果不是特別強。Orgler(1970)在1970年最早使用線性回歸方法針對貸款者的信用狀況結(jié)合實際情況進行分數(shù)評級,預(yù)測銀行客戶信用風(fēng)險。在國內(nèi),姚路(2017)結(jié)合個人信用數(shù)據(jù)對用戶進行信用評價,運用多元線性回歸方法進行模型構(gòu)建。線性回歸方法從本質(zhì)上來說是用現(xiàn)有用戶信用數(shù)據(jù)對未知信用狀況的用戶進行回歸預(yù)測,最終得出用戶是否違約的概率。但是線性回歸也有一定的弊端,它所得出的值域介于正負無窮大之間,而邏輯回歸方法的出現(xiàn)正好解決了這一問題。Wiginton等(1980)最先提出Logistic回歸模型用于進行信用評估。邏輯回歸將線性回歸后得出的值進行Sigmoid函數(shù)轉(zhuǎn)換成概率值,在0—1之間設(shè)定經(jīng)驗閾值從而實現(xiàn)二分類問題。Grablowsky(1981)在Logistic基礎(chǔ)上進一步提出Probit回歸模型進行風(fēng)險評估。該模型主要是將Logistic回歸模型中的似然比對數(shù)函數(shù)調(diào)整為正態(tài)分布函數(shù)的反函數(shù)。Steenackers等(1989)對Logistic回歸模型進行優(yōu)化,將用戶信息的各種變量關(guān)系通過該模型進行反映,增強了該模型的可解釋性。Ziari(1997)進行信用風(fēng)險評估時將線性分析模型與統(tǒng)計分析模型相結(jié)合,對比單一的線性分析和統(tǒng)計分析模型發(fā)現(xiàn)效果更好。在國內(nèi),胡濱(2011)利用logistic回歸模型對銀行信貸狀況進行分析,以減少信用經(jīng)濟帶來的損失和風(fēng)險。李淑錦(2018)運用logistic回歸實證得出傳統(tǒng)金融借貸機構(gòu)風(fēng)險低于網(wǎng)貸平臺,同時考慮閾值的設(shè)定對規(guī)避模型判斷失誤而導(dǎo)致的資金損失有重要意義。

二、基于現(xiàn)代機器學(xué)習(xí)方法的信用風(fēng)險評估綜述

基于機器學(xué)習(xí)的個人信用風(fēng)險評估模型在近年來逐漸興起,展現(xiàn)了相比傳統(tǒng)風(fēng)險評估方法較強的優(yōu)越性。常見的現(xiàn)代機器學(xué)習(xí)方法有BP神經(jīng)網(wǎng)絡(luò)、K近鄰、SVM支持向量機等。此外,基于樹模型的機器學(xué)習(xí)方法也廣泛應(yīng)用于個人信用風(fēng)險評估,如基礎(chǔ)的決策樹模型、相關(guān)集成模型如隨機森林、GBDT、XGBoost、light-GBM等。在國外,Makowski(1985)是最先開啟現(xiàn)代機器學(xué)習(xí)方法在個人信用風(fēng)險評估領(lǐng)域應(yīng)用的學(xué)者,他利用用戶信用數(shù)據(jù)在分類樹上構(gòu)建模型,對好壞客戶進行分類并取得了一定效果。Cover和Hart(1986)提出K近鄰方法,對于二分類的問題處理比較高效且被廣泛應(yīng)用于信用風(fēng)險評估中。Odam(1990)最先將人工神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于個人信用評分模型,根據(jù)用戶信用數(shù)據(jù)構(gòu)建評分體系,指出人工神經(jīng)網(wǎng)絡(luò)在信用評分過程中有較好的解釋性與應(yīng)用性。Li(2000)對XGBoost進行信用風(fēng)險建模研究。Baesensl等(2003)針對2003年之前的個人信用風(fēng)險評估模型進行對比研究驗證發(fā)現(xiàn),線性判別分析法和Logistic回歸模型在進行信用風(fēng)險評估表現(xiàn)出較好的效果。StefanLessmann等(2015)在41種分類器對不同數(shù)據(jù)集進行分析,實驗結(jié)果表明,集成模型如隨機森林在信用風(fēng)險評估效果上表現(xiàn)最佳。Brown(2012)指出,機器學(xué)習(xí)方法主要是通過監(jiān)督學(xué)習(xí)對用戶的信用數(shù)據(jù)進行模型構(gòu)建,經(jīng)過數(shù)據(jù)處理、特征提取等一系列操作對構(gòu)建的模型進行用戶行為和特征的預(yù)測,以此來判斷用戶下一次交易違約的可能性。在國內(nèi),姜明輝等(2004)利用K近鄰方法研究了信用風(fēng)險評估,對小數(shù)據(jù)集的分類風(fēng)險問題進行實驗分析。劉昕(2007)將人工神經(jīng)網(wǎng)絡(luò)運用于銀行信用風(fēng)險管理,得出神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)的打分法和統(tǒng)計模型判別正確率更高,并且在第二類錯誤率這一關(guān)鍵指標(biāo)上優(yōu)勢較好。王潤華(2010)改進支持向量機進行風(fēng)險評估,得出多項式核進行分類在高斯核和線性核三種方法中表現(xiàn)效果最好。方匡南等(2014)引入Lasso-Logistic模型,運用Lasso方法對重要的變量特征進行選擇,這一組合進行個人信用評估可以明顯加快計算速度。付永貴(2016)改進線性回歸模型,并在大數(shù)據(jù)的基礎(chǔ)上對網(wǎng)絡(luò)供應(yīng)商信用數(shù)據(jù)進行了研究。羅雅晨(2018)研究了數(shù)據(jù)不平衡問題,基于改進的隨機森林方法提出比例平衡的隨機森林模型用來建立個人信用評分模型。

三、信用風(fēng)險評估文獻最新研究進展

近年來,針對數(shù)據(jù)不平衡、特征選擇、數(shù)據(jù)維度高等問題,新的改進機器學(xué)習(xí)集成模型不斷被提出,各種模型的組合器模型將幾種算法相結(jié)合。最新研究表明,隨著人工智能和大數(shù)據(jù)的發(fā)展,信用風(fēng)控領(lǐng)域不斷增強信用風(fēng)險評估模型的預(yù)測效果和性能,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法和組合模型運用的興起成為了當(dāng)今時代研究個人信用風(fēng)險評估的重點領(lǐng)域。深層神經(jīng)網(wǎng)絡(luò)相較于傳統(tǒng)的機器學(xué)習(xí)方法性能更高,風(fēng)險控制能力更強,顯著提高了金融行業(yè)風(fēng)險測度水平,提供一個更安全的金融交易環(huán)境。JianLuo(2020)改進支持向量機非線性核函數(shù)的敏感和對非線性核函數(shù)的敏感隨機初始化,計算代價高、不適合非平衡數(shù)據(jù)集等問題,提出無核二次曲面支持向量機(QSSVM)模型。MirkoMoscatelli(2020)通過實證分析對比統(tǒng)計學(xué)方法,如線性判斷分析和邏輯回歸以及機器學(xué)習(xí)方法,如隨機森林和梯度提升,比較得出在數(shù)據(jù)量較大的情況下機器學(xué)習(xí)方法在信用風(fēng)險評估上精確度和表現(xiàn)性能明顯優(yōu)于統(tǒng)計學(xué)方法。NishaArora(2020)利用隨機森林改進特征選擇過程,提出Boot-strap-Lasso這一新方法,對比多個基礎(chǔ)機器學(xué)習(xí)方法效果得出Bolasso使能隨機森林算法(BS-RF)提供信用風(fēng)險評估的最佳結(jié)果。DiegoPaganotiFonsecaa(2020)結(jié)合模糊分級和神經(jīng)網(wǎng)絡(luò)兩階段方法對現(xiàn)有數(shù)據(jù)進行簡單分析,采用模糊邏輯將專家和從業(yè)者的意見結(jié)合在一起證明該方法可行性,解釋了比商業(yè)廣告提供的信用評分更便宜的解決方案評級機構(gòu)。YuelinWanga(2020)比較分析了不同機器學(xué)習(xí)方法在信用風(fēng)險評估中的應(yīng)用,隨機森林在五種基本分類器中表現(xiàn)性能最好,因此也有很多學(xué)者將隨機森林作為預(yù)測模型的基分類器。GuanlinLi(2019)結(jié)合XGBoost,隨機森林,SVM三種模型的高精度、魯棒性和泛化能力的特點進行信貸違約風(fēng)險的預(yù)測,結(jié)果證明組合器模型比單個模型預(yù)測效果更好,更有利于降低平臺的壞賬率,對金融風(fēng)控起到較好作用。吳金旺,顧洲(2018)結(jié)合隨機森林和邏輯回歸兩種方法對商業(yè)銀行客戶信用進行信用風(fēng)險評估。王春才(2018)將主動學(xué)習(xí)和徑向基網(wǎng)絡(luò)進行融合,提出基于機器學(xué)習(xí)技術(shù)的風(fēng)控模型用來進行異常用戶檢測和信用評分。王超(2019)利用一個神經(jīng)網(wǎng)絡(luò)模型、一個K均值聚類模型以及三個貝葉斯網(wǎng)絡(luò)模型將多個算法進行相互驗證,建立數(shù)據(jù)驅(qū)動的自適應(yīng)優(yōu)化學(xué)習(xí)機制進行貸款詐騙風(fēng)險預(yù)測。楊德杰等(2019)運用深度學(xué)習(xí)方法提出基于堆棧降噪自編碼網(wǎng)絡(luò)風(fēng)險評估模型,充分考慮數(shù)據(jù)特征之間的相關(guān)性進行分析。劉瀟雅等(2019)針對支持向量機在訓(xùn)練高維數(shù)據(jù)不能主動進行特征選擇導(dǎo)致準(zhǔn)確率下降的缺點,構(gòu)建C4.5決策樹優(yōu)化支持向量機的信用評估模型。莫贊(2019)針對在個人信用評估問題和風(fēng)險日益劇增問題和數(shù)據(jù)集的不平衡問題,從梯度提升樹組合特征和集成算法的角度出發(fā)提出一種基于Bagging集成學(xué)習(xí)算法的個人信用風(fēng)險評估模型。關(guān)于集成學(xué)習(xí)模型的應(yīng)用,王思宇(2019)運用lightGBM模型評估個人信用風(fēng)險,結(jié)果表明對普通的決策樹模型來說,該模型魯棒性更好且預(yù)測更加精準(zhǔn)。王心逸(2020)將GBDT模型進行風(fēng)險控制,引入一系列評估系數(shù)作為模型評估指標(biāo)對個人貸款數(shù)據(jù)集進行實證研究。李欣(2020)利用XGBoost改進傳統(tǒng)的網(wǎng)格搜索法,解決參數(shù)尋優(yōu)時耗費時間長的問題,由此建立風(fēng)險評估模型。為處理高維特征,張雷(2020)針對特征選擇和數(shù)據(jù)不平衡問題提出了RF-SMOTE-XG-Boost模型,訓(xùn)練階段采用粒子群優(yōu)化算法對XGBoost模型做分類精度提高。劉偉江等(2020)將反映客戶信息四個方面的特征變量相互連接綜合成灰度圖,建立基于卷積神經(jīng)網(wǎng)絡(luò)的客戶信用評估模型,實證了基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在信用風(fēng)險評估上的可解釋性。王重仁等(2020)提出的一種基于長短期記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)融合的深度神經(jīng)網(wǎng)絡(luò)個人信用評分方法,融合了基于注意力機制的LSTM模型和CNN模型兩個子模型,顯著提高了評估精度。

四、研究評述

統(tǒng)計學(xué)習(xí)方法在信用風(fēng)險評估中因結(jié)構(gòu)簡單、解釋力度較強而被廣泛應(yīng)用,但以變量之間存在線性關(guān)系為假設(shè),預(yù)測效果缺乏準(zhǔn)確性,在很多情況下并不能完全反映客戶的信用狀況,特別是對具有真實分析價值的信息難以提取?,F(xiàn)代機器學(xué)習(xí)方法構(gòu)建的風(fēng)險評估模型通過數(shù)據(jù)訓(xùn)練精度較高,比較支持向量機、隨機森林、決策樹、集成學(xué)習(xí)等現(xiàn)代的機器學(xué)習(xí)方法,可以看出隨機森林精度較高且具有良好的泛化能力,SVM預(yù)測風(fēng)險準(zhǔn)確度較低但穩(wěn)健性較好,XGBoost和light-GBM作為比較新的方法,預(yù)測風(fēng)險準(zhǔn)確率更高。由于多種組合模型相較單一模型預(yù)測精度更高,最新研究將不同的機器學(xué)習(xí)方法進行結(jié)合,或者采用集成學(xué)習(xí)方法進行數(shù)據(jù)的特征處理,這種方法能夠更好探索信用數(shù)據(jù)內(nèi)部的相關(guān)結(jié)構(gòu),形成預(yù)測精度更高的分類組合模型。但這些機器學(xué)習(xí)方法也存在一些問題,如在計算用戶風(fēng)險指標(biāo)權(quán)重時沒有考慮到指標(biāo)之間的相互作用,對于計算指標(biāo)權(quán)重的風(fēng)險評估模型較少,同時,由于其計算過程復(fù)雜、穩(wěn)定性較低,還由于其解釋能力不足而容易被認為是“黑箱”。隨著大數(shù)據(jù)時代到來,人工智能不斷深入金融風(fēng)控領(lǐng)域,未來可以從以下三方面進行深入研究。第一,現(xiàn)有的機器學(xué)習(xí)方法主要針對特定的數(shù)據(jù)集進行靜態(tài)風(fēng)險預(yù)測,由于數(shù)據(jù)隱私問題,很多信息無法獲取。運用機器學(xué)習(xí)方法結(jié)合人物畫像對用戶信息進行更加深度的動態(tài)提取也是一大方向,目前在此領(lǐng)域進行相關(guān)探索主要應(yīng)用在銀行風(fēng)控等領(lǐng)域,未來可以對此進行深入挖掘,在對渠道多平臺進行大數(shù)據(jù)累計并進行動態(tài)預(yù)測。第二,在風(fēng)險評估模型建立上,現(xiàn)有一般模型屬于常權(quán)綜合模型,各指標(biāo)值由于相互替代導(dǎo)致評估結(jié)果高估,以及各指標(biāo)權(quán)重計算方法與標(biāo)準(zhǔn)不統(tǒng)一,并且對指標(biāo)間存在相互影響的缺失值問題缺乏深度研究,對此也值得進一步分析和討論。此外,人工智能時代本質(zhì)上促進了深度學(xué)習(xí)的發(fā)展,智能人臉識別、智能渠道管控、智能數(shù)據(jù)監(jiān)測等應(yīng)用也加深了風(fēng)險控制與管理,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)對人工智能做出更大貢獻。目前國家大力提倡金融與科技創(chuàng)新性復(fù)合人才培養(yǎng)力度,打造深度學(xué)習(xí)性人才促進金融風(fēng)控的發(fā)展。深度神經(jīng)網(wǎng)絡(luò)在信用風(fēng)險評估方面的應(yīng)用顯示了金融風(fēng)控強大的優(yōu)勢,未來結(jié)合大數(shù)據(jù)與深度學(xué)習(xí)進行風(fēng)險評估,在保護用戶隱私前提下進行更加精確地預(yù)測將是開展信用風(fēng)險評估的一大趨勢。

參考文獻:

[1]JianLuoa,XinYanb,YeTian.Unsupervisedquadraticsurfacesupportvectormachinewithapplicationtocreditriskassessment[J].EuropeanJournalofOperationalResearch,2020:1008-1017.

[2]MirkoMoscatellia,FabioParlapianoa,SimoneNarizzanob,GianlucaViggiano.Corporatedefaultforecastingwithmachinelearning[J].Ex-pertSystemswithApplications.,2020:1-12.

[3]NishaArora,PankajDeepKaur.ABolassobasedconsistentfeatureselectionenabledrandomforestclassificationalgorithm:Anapplica-tiontocreditriskassessment[J].AppliedSoftComputingJournal,2020:1-15.

[4]DiegoPaganotiFonsecaa,PeterFernandesWankea,HenriqueLuizCorrea.Atwo-stagefuzzyneuralapproachforcreditriskassessmentinaBraziliancreditcardcompany[J].AppliedSoftComputingJournal,2020:1-13.

[5]YuelinWanga,YihanZhanga,YanLua,XinranYua.AComparativeAssessmentofCreditRiskModelBasedonMachineLearning—acasestudyofbankloandata[J].ProcediaComputerScience,2020:141-149.

[6]王思宇.基于LightGBM算法的信用風(fēng)險評估模型研究[J].軟件導(dǎo)刊,2019,18(10):19-22.

[7]楊德杰.基于堆棧降噪自編碼網(wǎng)絡(luò)的個人信用風(fēng)險評估方法[J].計算機科學(xué),2019,46(10):7-10.

[8]劉偉江.基于卷積神經(jīng)網(wǎng)絡(luò)的客戶信用評估模型研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,(6):80-90.

[9]張雷.基于RF?SMOTE?XGboost下的銀行用戶個人信用風(fēng)險評估模型[J].現(xiàn)代電子技術(shù),2020,43(16):76-81.

[10]劉瀟雅,等.基于C4.5算法優(yōu)化SVM的個人信用評估模型[J].計算機系統(tǒng)應(yīng)用,2019,28(7):133-138.

作者:毛子林 劉姜 單位:上海理工大學(xué)管理學(xué)院