大數(shù)據(jù)分析對保險行業(yè)的應(yīng)用
時間:2022-07-19 11:21:06
導(dǎo)語:大數(shù)據(jù)分析對保險行業(yè)的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:在大數(shù)據(jù)的時代背景下,采用SPSS、Excel數(shù)據(jù)處理分析工具,以四川人壽保險退保數(shù)據(jù)為研究對象,由于其目前的投保與退保比例逐年攀升,面臨著確立目標用戶特征分析與選擇發(fā)展用戶的忠誠度發(fā)展問題。因此針對人壽保險公司用戶投保退保等方面的相關(guān)數(shù)據(jù)進行主題式分析,為其未來發(fā)展用戶指明方向。對該數(shù)據(jù)下的險種、用戶信息建立其險種特征以及退保用戶基本畫像,推測出主要的退保原因為經(jīng)濟原因以及高退保風險人群年齡段在36歲~54歲。對不同的研究主題進行分類處理,數(shù)據(jù)分布進行頻率條形圖的繪制,從圖像直觀地看出退保險種的險種,機構(gòu)、保額、總保費和退保金額都是右偏分布,以及尖端分布的數(shù)據(jù)趨勢,有利于保險公司對用戶的研究以及對保險險種業(yè)務(wù)的完善升級。
關(guān)鍵詞:大數(shù)據(jù);保險退保;用戶基本畫像研究;退保險種特征研究
一、引言
大數(shù)據(jù)技術(shù)的飛速發(fā)展引發(fā)了金融界的全面改革,其中保險行業(yè)也面臨巨大的競爭壓力,這種壓力不僅是來源于外界信息的交互傳播方面更是來源于行業(yè)內(nèi)部的管理競爭、業(yè)務(wù)升級方面,因此保險公司將大數(shù)據(jù)分析運用在企業(yè)中的措施刻不容緩。從國內(nèi)大數(shù)據(jù)技術(shù)與保險業(yè)結(jié)合發(fā)展的角度來看,在壽險及健康險領(lǐng)域,在逐漸普及基于大數(shù)據(jù)技術(shù)的用戶管理及保險業(yè)務(wù)的應(yīng)用。大數(shù)據(jù)應(yīng)用的逐漸推廣帶來了較大的正面效應(yīng),實踐也證明,大數(shù)據(jù)技術(shù)在保險業(yè)務(wù)中的應(yīng)用對于促進保險公司效率提高、成本降低起到了積極作用。保險公司除了投保數(shù)據(jù)值得研究分析外,退保數(shù)據(jù)實則更能反映業(yè)務(wù)與客戶的問題?;谝陨媳尘埃槍ΡkU退保數(shù)據(jù)對其用戶管理、險種業(yè)務(wù)等方面進行探索性研究。
二、研究思路
以四川人壽保險公司的退保數(shù)據(jù)進行分析,采用Excel、SPSS數(shù)據(jù)分析工具,針對退保金額、保額、保費三者間的相關(guān)性建立回歸方程,并將險種分類進行特征分析,包括退保機構(gòu)、保額保費等。并圍繞退保原因展開分析,比較用戶性別、年齡段不同下是否會造成退保原因的選擇差異,退保原因與退保金額的顯著性關(guān)系。依次使用了頻率分析、獨立樣本T檢驗、線性回歸分析等方法。
三、數(shù)據(jù)說明
1.數(shù)據(jù)來源數(shù)據(jù)來源于四川人壽保險公司,覆蓋了2008全年的退保數(shù)據(jù),時間跨度在1999年至2008年的投保保單,退保數(shù)據(jù)表中包含了保險機構(gòu)、險種、總保費、保額、退保金額、退保原因、客戶號、性別、年齡等9個字段共167721條數(shù)據(jù),15.9M。2.數(shù)據(jù)清洗首先,進行數(shù)據(jù)預(yù)處理,篩選刪除了對于研究退保險種特征以及退保用戶基本畫像無價值的數(shù)據(jù)、保留所需數(shù)據(jù)。其中使用了險種、退保金額、退保原因等字段的數(shù)據(jù)進行分析探索。通過觀察家庭人口和教育程度字段發(fā)現(xiàn)其都進行了脫敏處理,字段值為空或值一樣,對分析幫助和影響不大,因此刪除此類數(shù)據(jù)。其次,修改格式設(shè)置,由于原數(shù)據(jù)的投保時間和退保時間整列的值沒有正確顯示,因此將這兩列設(shè)置成日期格式。數(shù)據(jù)分類則通過統(tǒng)計匯總發(fā)現(xiàn)經(jīng)濟原因在退保原因當中占比最大超過了50%,而其余退保原因的占比很少,統(tǒng)一歸為非經(jīng)濟原因,將退保原因分為經(jīng)濟原因和非經(jīng)濟原因。年齡段的分類中,由于用戶信息中的年齡分布較散并且研究單個年齡的用戶畫像意義不大,因此分段設(shè)置。我國規(guī)定,18歲以下的未成年人只享有保險受益者的權(quán)利無法自行進行投保,因此以18歲為分界點,分為小于18歲、18歲~35歲、36歲~54歲、55歲~72歲以及72歲以上5個年齡段。險種分類中,按照險種的首字母進行了分類,直接分為S、L、B、Y、4、6六大類險種。
四、險種特征以及用戶基本畫像
1.研究退保金額、總保費、與保額之間的線性關(guān)系(1)各參數(shù)的相關(guān)性分析由表1可知:總保費、過去三年平均年收入、保額與退保金額之間的Sig值都是小于0.01。退保金額的皮爾遜相關(guān)性一行的數(shù)據(jù)顯示退保金額與總保費的數(shù)據(jù)是0.912**,與過去三年年收入的數(shù)據(jù)是0.083**,與保額的數(shù)據(jù)是0.375**。**代表相關(guān)性顯著,相關(guān)性大于0.3表示有較強相關(guān)性,因此選取總保費、保額與退保金額之間建立線性回歸模型。選取總保費、保額與退保金額之間建立線性回歸模型。利用步進方法分別得出2個模型。模型一:退保金額與總保費的模型;模型二:退保金額與總保費以及保額的模型;在表格中模型的R2的數(shù)值都為0.832,R2接近于1說明模型擬合度較好,因此2個模型的變量與因變量的總體存在著較強相關(guān)性。由表3可知:ANOVA^a對模型進行了方差分析,從模型的顯著性可以看出數(shù)據(jù)都是小于0.01的,進而模型的顯著性較強,由此說明模型是有效的,可以借此去判斷和計算相關(guān)數(shù)值,總保費、保額與退保金額的線性回歸模型可通過第2個模型去探究具體線性關(guān)系。從上述的系數(shù)^a表中得出總保費、保額的系數(shù)分別是0.949、0.003,則相關(guān)線性回歸方程是:退保金額=0.949×總保費+0.003×保額+257.7732.不同險種下的退保特征畫像(1)險種分類觀察數(shù)據(jù)的險種信息可知,按險種的首字母作為分類依據(jù),共分為六大類險種。因為在SPSS分析工具中,以險種作為分類字段需為數(shù)值性的數(shù)據(jù),因此將B、L、S、Y字母分別替換為7、8、9、0四個數(shù)字。研究每一個具體險種的退保特征不具有現(xiàn)實意義且適用范圍不廣,因此逐類分析研究,使用頻率分析功能研究每類險種退保率最高的機構(gòu)、退保險種的特征包含保額與保費、退保金額和總體退保數(shù)據(jù)的分布趨勢。(2)主要險種的退保特征數(shù)據(jù)可視化展示S類險種有252615條退保個案,占比90.9%;Y類險種有8976條退保個案,占比5.3%。在Excel中使用篩選統(tǒng)計功能,統(tǒng)計出其余險種占比依次為1.4%、1.6%、0.5%、<0.1%。主要選取S、Y兩種險種展開退保特征畫像分析。Y類險種中,易被退保的機構(gòu)513804,容易退保的保險有保額為10000總保費為1000的特征,此類保險的用戶黏性較差。Y類險種,機構(gòu)、保額、總保費和退保金額都是右偏分布,位于均值右側(cè)。除機構(gòu)為扁平分布,離均值較稀疏外,其余參數(shù)尖峰分布,集中于均值附近。S類險種中,易被退保的機構(gòu)是513803,容易退保的保險有保額為10000總保費為590的特征,說明此類保險用戶滿意度不高。S類險種,機構(gòu)、保額、總保費和退保金額都是右偏分布,分布與均值右側(cè)。除了機構(gòu)為扁平分布,離均值較稀疏外,其余參數(shù)尖峰分布,聚集與均值兩側(cè)。因此在保險險種中513803、513804為主要的被退保機構(gòu),其中S、Y險種退保率最高。被退保的險種中特征為保額10000總保費1000,客戶的忠誠度最低。3.探究退保原因與退保金額是否造成顯著影響、性別和年齡段與退保原因的分布退保數(shù)據(jù)中除了關(guān)注具體的退保金額,還需關(guān)注客戶退保的根本原因。圍繞退保原因展開分析,分別分析與退保金額、客戶性別、年齡之間是否有關(guān)聯(lián)產(chǎn)生影響,目的在于推測高退保風險的客戶人群畫像以及退保原因。為保險險種業(yè)務(wù)的不斷完善和改進提供思路。通過對退保原因的初步觀察發(fā)現(xiàn),退保原因中經(jīng)濟原因的占比為77%,是主要的退保原因而其余退保原因的占比共占23%,因此在退保原因的分類中,以經(jīng)濟原因作為分類依據(jù),并利用Excel中的替換功能把退保原因分為經(jīng)濟原因和非經(jīng)濟原因后替換成數(shù)字1、2,導(dǎo)入SPSS當中完成獨立樣本t檢驗,把退保金額方法檢驗變量,把分組變量變成退保原因,并且定義組1,組2,組1是經(jīng)濟效益,組2是其他余下的退保原因。選取簇形圖構(gòu)建圖形,類別為性別、聚類定義為退保原因。將客戶的年齡分為18歲以下、18歲~35歲、36歲~54歲、55歲~72歲、大于72歲及以上。對數(shù)據(jù)進行整理、歸類,最后根據(jù)數(shù)據(jù)歸納總結(jié)出高退保風險的客戶基本畫像。如表4所示,分析退保金額之間是否因退保原因而產(chǎn)生差異性得出結(jié)果,從方差的齊次性檢驗得出:因為其顯著性差異的數(shù)據(jù)值小于0.05拒絕原假設(shè),方差不具有齊次性。通過方差的齊次性看到Sig.值<0.05,說明退保金額之間有一定差異性,不同的退保原因?qū)е碌耐吮=痤~的均值是不一樣的。均值差異為551,置信區(qū)間的下限值是443上限值是669,所以均值的范圍95%是在這個范圍之內(nèi)的,可信度高。男性在退保原因上選擇經(jīng)濟原因的占多數(shù),其后依次為正常退保、險種不理想、失效退保,而其余的幾項退保原因的占比更小,而在女性的數(shù)據(jù)分布同男性相似,因此在退保原因的選擇上男女的差異不大。經(jīng)濟原因仍是最主要的退保原因,在年齡階段中占多數(shù)的退保原因的年齡段有18歲~35歲,36歲~54歲,55歲~72歲,其余年齡段比例幾乎忽略不計。人數(shù)占比最多的是36歲~54歲年齡段,因此其為高退保年齡段的區(qū)間。
五、結(jié)論及建議
1.結(jié)論總保費、保額與退保金額之間存在顯著相關(guān)關(guān)系,線性關(guān)系方程是退保金額=0.949×總保費+0.003×保額+257.773。513803、513804為主要的被退保機構(gòu),其中S與Y的險種被退保率最高,被退保的險種具體特征為保額10000總保費1000。退保原因的差異導(dǎo)致用戶在退保金額上的均值有差異,性別上差異不大。36歲~54歲為高退保風險人群,經(jīng)濟原因是占主要的退保原因。2.建議對于較高保額、保費的業(yè)務(wù)應(yīng)給予更多的關(guān)注,此類保險業(yè)務(wù)的退保金額通常較高,會引起較大數(shù)據(jù)波動。513803、513804的保險機構(gòu)需要改進S和Y險種,保額為10000和總保費為1000的險種需要注意其保險比例設(shè)置,比例存在不妥當就會造成客戶忠誠度低,退保人數(shù)多的現(xiàn)象。經(jīng)濟原因是最主要的退保原因,36歲~54歲是最高退保風險的用戶年齡區(qū)域。因此保險公司向用戶推薦業(yè)務(wù)時要結(jié)合用戶年齡和經(jīng)濟情況來進行推薦,在平日的用戶管理時,重點關(guān)注這個年齡段的用戶,預(yù)防并做好其退保措施。
參考文獻:
[1]劉偉.大數(shù)據(jù)技術(shù)在保險業(yè)務(wù)中的應(yīng)用風險分析與對策[J].上海保險,2020(9):54-55.
[2]王瑋康,楊杉.大數(shù)據(jù)分析技術(shù)在保險行業(yè)的運用研究[J].電子世界,2020(13):116-117.
[3]田楚蕓,楊杉.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)在保險行業(yè)的應(yīng)用研究[J].電子世界,2020(7):15-16.
[4]郭慧馨,葛健,張妍.大數(shù)據(jù)時代保險公司營銷策略分析[J].當代經(jīng)濟,2019(11):50-54.
[5]程錦,程文煒,劉曉芳,等.層次結(jié)構(gòu)數(shù)據(jù)的分析方法及SPSS實現(xiàn)[J].中華老年醫(yī)學(xué)雜志,2020(10):1236-1240.
[6]陳祺琦.大數(shù)據(jù)分析在保險行業(yè)中的應(yīng)用[J].電子世界,2020(10):36-38.
[7]姚慧蘭.大數(shù)據(jù)在互聯(lián)網(wǎng)保險中的精準營銷研究——以泰康在線為例[D].蚌埠:安徽財經(jīng)大學(xué),2019.
[8]白惠玲.基于大數(shù)據(jù)的財產(chǎn)保險精準營銷研究[D].西安:長安大學(xué),2019.
[9]姒曉婕.全額退?,F(xiàn)象的檢視與反思[J].上海保險,2020(10):14-19.
[10]顏佩佩.基于大數(shù)據(jù)的互聯(lián)網(wǎng)保險個性化服務(wù)問題及解決策略[J].現(xiàn)代經(jīng)濟信息,2019(7):372,374.
作者:李欣然 楊杉 單位:四川大學(xué)錦城學(xué)院計算機與軟件學(xué)院