汽車保險(xiǎn)索賠次數(shù)雙泊松回歸模型運(yùn)用
時(shí)間:2022-06-12 10:32:00
導(dǎo)語:汽車保險(xiǎn)索賠次數(shù)雙泊松回歸模型運(yùn)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1引言
在擬合汽車保險(xiǎn)索賠次數(shù)的模型中,泊松分布模型是擬合索賠次數(shù)的最簡單且常用的模型,具有均值與方差相等的特性。而索賠次數(shù)模型往往具有方差大于均值的性質(zhì),此時(shí)如果繼續(xù)使用泊松分布模型會(huì)低估參數(shù)的標(biāo)準(zhǔn)誤差,高估其顯著性水平,導(dǎo)致多余的解釋變量保留在預(yù)測模型中,最終導(dǎo)致不合理的保費(fèi)。對于此類問題,研究人員通常利用各種不同的混合泊松模型來預(yù)測索賠次數(shù)。Ruohonen[1]提出結(jié)構(gòu)函數(shù)為三參數(shù)伽瑪函數(shù)的泊松分布,同時(shí)用實(shí)際損失數(shù)據(jù)與兩參數(shù)結(jié)構(gòu)函數(shù)泊松模型即負(fù)二項(xiàng)模型進(jìn)行了比較,得到了比較滿意的結(jié)果。Panjer[2]運(yùn)用廣義poisson-pascal分布(即Hofmann分布,含三個(gè)參數(shù))來建立汽車索賠次數(shù)模型,擬合效果也比較理想。NorisonIsmail和AzizJemain[3]討論了負(fù)二項(xiàng)回歸模型和廣義泊松回歸模型的參數(shù)估計(jì)及其在索賠頻率預(yù)測中的應(yīng)用,而DenuitMichel[4]等人應(yīng)用負(fù)二項(xiàng)回歸、泊松-逆高斯回歸和泊松-對數(shù)正態(tài)回歸對汽車保險(xiǎn)的索賠頻率進(jìn)行了實(shí)證研究。國內(nèi)關(guān)于索賠頻率模型的研究主要有孟生旺和袁衛(wèi)[5]用混合Poisson模型研究了非同質(zhì)風(fēng)險(xiǎn)的索賠分布。高洪忠、任燕燕[6]研究了一類更廣泛的分布,即GPSJ類分布,這類分布描述了一次風(fēng)險(xiǎn)事件多種索賠結(jié)果的情況。毛澤春和劉錦蕚[7]分析了免賠額及NCD賠付條件對索賠次數(shù)分布的影響,通過比較風(fēng)險(xiǎn)事件與索賠事件的差異引出了一類同質(zhì)集合保單索賠次數(shù)的分布(Pois-son-Gamma)。毛澤春和劉錦蕚[8]引出了一類指數(shù)類混合型索賠次數(shù)的分布并研究了其散度(disper-sion)的性質(zhì),同時(shí)給出了擬合類分布的矩估計(jì)方法。徐昕、袁衛(wèi)、孟生旺[9]將兩參數(shù)負(fù)二項(xiàng)回歸模型推廣到三參數(shù)情況,并利用新模型對Yip和Yau[10]中的汽車保險(xiǎn)損失數(shù)據(jù)進(jìn)行了擬合,得到了較好的效果,提出了解決過離散問題的一種新辦法。學(xué)者們的研究大多數(shù)集中在混合泊松分布模型上,而雙泊松分布模型也是一類離散型分布模型,具有方差大于均值的特性,但關(guān)于利用雙泊松回歸模型預(yù)測汽車保險(xiǎn)索賠次數(shù)的文獻(xiàn)并不多見。本文將在下面內(nèi)容中詳細(xì)介紹雙泊松回歸模型的性質(zhì)及參數(shù)估計(jì),并且利用該模型來擬合一組實(shí)際的汽車保險(xiǎn)索賠數(shù)據(jù),并將其結(jié)果與泊松回歸模型的擬合進(jìn)行比較分析。
2泊松回歸模型性質(zhì)及參數(shù)估計(jì)
為便于討論,假設(shè)共有p個(gè)分類變量,將所有保單分為n個(gè)風(fēng)險(xiǎn)類別,其中第i個(gè)風(fēng)險(xiǎn)類別在p個(gè)分類變量上的取值用xi=(xi1,xip)T表示,T表示轉(zhuǎn)置。用wi表示第i個(gè)類別包含的風(fēng)險(xiǎn)單位數(shù)(如汽車保險(xiǎn)中的車年數(shù))。令Yi表示第i個(gè)風(fēng)險(xiǎn)類別的索賠次數(shù)隨機(jī)變量,i=1,2…,n。如果Yi服從泊松分布,則其概率函數(shù)為:Pr(Yi=yi)=exp(-λi)λyiiyi!,yi=0,1,……泊松分布的均值與方差相等,即E(Yi)=Var(Yi)=λi。若令λi=wiexp(xTiβ),即可得到泊松回歸模型,其中β是p×1階的參數(shù)向量。容易求得泊松回歸模型的對數(shù)似然函數(shù)為:l=∑ni=1(-lnyi!+yilnλi-λi)回歸參數(shù)β的極大似然估計(jì)可以通過下述似方程組求得:lβj=∑ni=1(yi-λi)xij=0,j=1,2,……,p為了求得參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差,首先需要計(jì)算Hessian矩陣,其中的元素是關(guān)于對數(shù)似然函數(shù)的二階偏導(dǎo)數(shù),即Hjk=2lβjβk=-∑ni=1[λi,xijxik],j,k=1,2……,p因此信息矩陣的元素為Ijk=-E(Hjk)=∑ni=1[λi,xijxik],j,k=1,2……,p對信息矩陣對角線上的元素先求導(dǎo)數(shù),然后再開方,即可得到參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差。
3雙泊松回歸模型的性質(zhì)及參數(shù)估計(jì)
雖然無法確定雙泊松分布是否也是一種混合泊松分布,但由于其具有方差大于均值的特征,因此也可以用于過離散數(shù)據(jù)的處理。雙泊松分布的概率函數(shù)可以表示為:Pr(Yi=0)=θ1/2e-θ2λiPr(Yi=yi)=(θ1/2e-θλi)(e-yiyyiiyi!)(eθλiyi)θyi,yi=1,2……均值和方差分別為:E(Yi│xi)=λi,Var(Yi│xi)=λi(1/θ+λi(θ-1))2此處對雙泊松分布形式不同于Yip和Yau文獻(xiàn)中的雙泊松回歸模型。這樣做的目的是使其均值正好等于λi,與其他分布保持一致。如果采用其他的參數(shù)形式,譬如,如果參數(shù)的形式使得雙泊松分布的均值正好為λi/θ(參見Yip和Yau),則截距項(xiàng)的估計(jì)值將發(fā)生變化,但索賠頻率的預(yù)測值不會(huì)受到影響。從上述方差和均值的關(guān)系可以看出,當(dāng)θ在區(qū)間(0,1)之間變化時(shí),θ越小,雙泊松分布的過離散程度越嚴(yán)重,因此我們將g=q定義為雙泊松分布的離散參數(shù)。當(dāng)θ→1時(shí),雙泊松分布退化為泊松分布。容易求得雙泊松回歸的對數(shù)似然函數(shù)為:l=∑yi=0[12lnθ-θ2λi]+∑yi>0[12lnθ-θ2λi-yi+yilnyi-lnyi!+θyiln(exp(1)θλi/yi)]對上式求偏導(dǎo),可以得到模型的似然方程組為:lθ=∑yi=0[1/(2θ)-θλi]+∑yi>0[1/(2θ)-2θλi+yiln(exp(1)θλi/yi)+yi]=0lβj=∑ni=1[θ(yi-θλi)xij]=0雙泊松回歸的Hessian矩陣H的元素也很容易求得:2lβjβk=-∑ni=1(θ2λixijxik),j,k=1,2…,p因此雙泊松回歸的信息矩陣的元素為Ijk=-E(Hjk)=∑ni=1(θ2λixijxik),j,k=1,2…,p。
4模型檢驗(yàn)
4.1過離散檢驗(yàn)
對于索賠數(shù)據(jù)是否具有過離散的特征,通常利用兩種方法來判斷。一是在普通最小二乘回歸模型的基礎(chǔ)上建立的統(tǒng)計(jì)量(Cameron和Trivedi[11]),滿足下述條件(yi-λi)2-yiλi=αλi+ei其中的λi=exp(xiβ),ei是隨機(jī)誤差項(xiàng)。如果系數(shù)α的t統(tǒng)計(jì)量顯著,說明存在過離散特征。另外一種方法是拉格朗日乘法(LagrangeMulti-plier)檢驗(yàn)(Greene[12]提出的)。LM統(tǒng)計(jì)量可以簡單表示為LM=(e''''e-_ny)22λ''''λ其中的λ=(λ1,…,λn)'''',λi=exp(xiβ),e=y-λ,y=(y1,…,yn)。在零假設(shè)為泊松分布的條件下,LM統(tǒng)計(jì)量服從自由度為1的x2分布。
4.2擬合優(yōu)度檢驗(yàn)
對模型擬合優(yōu)度進(jìn)行評價(jià)可以使用AkaikeInfor-mationCriteria(AIC)統(tǒng)計(jì)量和BayesianSchwartzCri-teria(BIC)統(tǒng)計(jì)量。AIC統(tǒng)計(jì)量定義為(Akaike[13]):AIC=-2l+2p其中l(wèi)表示對數(shù)似然值,p為參數(shù)的個(gè)數(shù)。AIC的值越小,表明模型的擬合越好。BIC統(tǒng)計(jì)量定義為(Schwartz[14]):BIC=-2l+plog(n)其中的l也表示對數(shù)似然值,p為模型的參數(shù)個(gè)數(shù),n為觀測值的個(gè)數(shù),BIC的值越小,模型擬合越好。
5實(shí)證分析
5.1數(shù)據(jù)的描述
本節(jié)選用一組來自SASEnterpriseMiner數(shù)據(jù)庫中的汽車保險(xiǎn)數(shù)據(jù)。原始數(shù)據(jù)中有10303個(gè)觀測值,其中大約有6%的缺失,數(shù)據(jù)包含索賠概況、駕駛記錄、保單信息、被保險(xiǎn)人個(gè)人信息。索賠概況記錄了被保險(xiǎn)人的索賠頻數(shù)、索賠額、索賠時(shí)間等信息;駕駛記錄包括駕駛?cè)说姆謹(jǐn)?shù)、過去7年中是否被吊銷駕駛執(zhí)照;保單信息有被保險(xiǎn)車輛的行駛區(qū)域、行駛時(shí)間、汽車價(jià)格、顏色、用途等;被保險(xiǎn)人的個(gè)人信息有年齡、性別、教育程度、工作類型、婚姻狀況、年收入等。選取與Yip和Yau相同的費(fèi)率因子(見表1),其中收入為連續(xù)變量,其余為屬性變量,從10303個(gè)客戶中隨機(jī)抽取了4412個(gè)有效記錄。
5.2過離散檢驗(yàn)
首先依據(jù)第一種方法利用統(tǒng)計(jì)軟件SAS的回歸模塊(即PROCREG)得到結(jié)果見下表2,很明顯預(yù)同樣,利用拉格朗日乘法(LagrangeMultiplier),利用SAS中IML模塊求得LM值為128.47816,并且顯著。從兩種檢驗(yàn)方法可以判定,損失數(shù)據(jù)存在過離散問題。
5.3擬合結(jié)果
從下表3中的回歸模型擬合結(jié)果來看,雙泊松回歸模型和泊松回歸模型的參數(shù)估計(jì)值差別不大,顯著性水平因子也相同。但由前面判斷,此數(shù)據(jù)存在過離散特性,泊松回歸模型費(fèi)率因子參數(shù)估計(jì)標(biāo)準(zhǔn)誤差明顯小于雙泊松回歸模型。從整體上看,無論是AIC還是BIC,對于該組索賠數(shù)據(jù)而言,雙泊松回歸模型的擬合效果要明顯優(yōu)于普通泊松回歸模型。
6結(jié)語
雙泊松分布模型雖然不能歸為混合泊松模型,但雙泊松分布模型同樣具有方差大于均值特性,從本文中的實(shí)證分析也可以看出,對于處理具有過離散特征的損失數(shù)據(jù),雙泊松分布可以看做為一種解決辦法,也同樣可以達(dá)到改善擬合結(jié)果的效果。