Bootstrap方法統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)研究

時(shí)間:2022-07-03 03:13:38

導(dǎo)語(yǔ):Bootstrap方法統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

Bootstrap方法統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)研究

摘要:統(tǒng)計(jì)的作用在于服務(wù)國(guó)家宏觀決策和人民生產(chǎn)生活,它在反映國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展水平、為黨和國(guó)家制定正確的決策、預(yù)測(cè)未來(lái)發(fā)展趨勢(shì)等方面發(fā)揮著舉足輕重的作用。統(tǒng)計(jì)數(shù)據(jù)要實(shí)現(xiàn)以上功能,必須保證統(tǒng)計(jì)數(shù)據(jù)高質(zhì)量。數(shù)據(jù)作為生產(chǎn)要素,在數(shù)據(jù)要素市場(chǎng)化過(guò)程中,如果不能保證其質(zhì)量,數(shù)據(jù)價(jià)值不但得不到體現(xiàn),反而會(huì)給使用者帶來(lái)不良的后果。本文首先介紹了數(shù)據(jù)質(zhì)量的概念和bootstrap方法的基本原理,然后基于Bootstrap抽樣并應(yīng)用統(tǒng)計(jì)分布驗(yàn)證方法對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,最后對(duì)山西統(tǒng)計(jì)局公布的地區(qū)國(guó)內(nèi)生產(chǎn)總值數(shù)據(jù)質(zhì)量進(jìn)行驗(yàn)證評(píng)估。

關(guān)鍵詞:數(shù)據(jù)質(zhì)量;Bootstrap方法;統(tǒng)計(jì)分布

毋庸置疑,大數(shù)據(jù)時(shí)代下,數(shù)據(jù)充分發(fā)揮其價(jià)值的必備條件是要有高質(zhì)量數(shù)據(jù)。2021年1月19日統(tǒng)計(jì)局局長(zhǎng)寧吉喆在題為“推進(jìn)統(tǒng)計(jì)現(xiàn)代改革”中指出:“統(tǒng)計(jì)數(shù)據(jù)作為國(guó)家經(jīng)濟(jì)發(fā)展的晴雨表已經(jīng)取得了顯著的成績(jī),但它發(fā)揮的作用還不夠充分,還有待開發(fā),數(shù)據(jù)質(zhì)量需要進(jìn)一步提升”。統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的內(nèi)涵也不再僅僅是準(zhǔn)確,大數(shù)據(jù)背景下,適合的才是最好的,用戶需求也是衡量數(shù)據(jù)質(zhì)量的一個(gè)方面。近年來(lái),科技發(fā)展迅猛,新型技術(shù)的發(fā)展突飛猛進(jìn),物聯(lián)網(wǎng)、人工智能、云計(jì)算的發(fā)展讓人應(yīng)接不暇,海量的數(shù)據(jù)紛繁復(fù)雜,如何保證數(shù)據(jù)的質(zhì)量,已成為上到國(guó)家,下到每一位統(tǒng)計(jì)相關(guān)者關(guān)注的問(wèn)題,也是我們亟待解決的問(wèn)題。在此背景下,數(shù)據(jù)質(zhì)量評(píng)估無(wú)疑是保證高質(zhì)量數(shù)據(jù)的前提條件。在數(shù)據(jù)評(píng)估研究方面,祝君儀(2015)6在《大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法及適用性分析》一文中分析了目前常用的包括邏輯規(guī)則檢驗(yàn)、核算數(shù)據(jù)重估、計(jì)量模型分析、統(tǒng)計(jì)分布驗(yàn)證、調(diào)查偏差評(píng)估、多維評(píng)估延伸六種評(píng)估數(shù)據(jù)質(zhì)量的方法,但僅僅是定性分析。成邦文等(2001)2已經(jīng)證明如果統(tǒng)計(jì)指標(biāo)反映的是經(jīng)濟(jì)社會(huì)規(guī)模(如產(chǎn)量、銷售收入等),則統(tǒng)計(jì)量均趨于對(duì)數(shù)正態(tài)分布,并提出了統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估的對(duì)數(shù)正態(tài)分布檢驗(yàn)法。本文基于社會(huì)規(guī)模服從對(duì)數(shù)正態(tài)分布,利用Bootstrap抽樣法對(duì)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估。

一、基本概念及理論

(一)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量

對(duì)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量還沒(méi)有形成統(tǒng)一公認(rèn)的定義,隨著大數(shù)據(jù)時(shí)代的到來(lái),統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的內(nèi)涵從準(zhǔn)確性這一個(gè)維度擴(kuò)展到多個(gè)維度。衡量數(shù)據(jù)質(zhì)量最明顯的標(biāo)準(zhǔn)就是數(shù)據(jù)的準(zhǔn)確性,即數(shù)據(jù)信息準(zhǔn)確描述其所代表的真實(shí)機(jī)構(gòu)或現(xiàn)象的程度。除了準(zhǔn)確性這一特征外,數(shù)據(jù)的時(shí)效性、精確性、完整性、一致性都是數(shù)據(jù)質(zhì)量的重要表現(xiàn)。當(dāng)然在眾多的維度中,準(zhǔn)確性是擺在數(shù)據(jù)質(zhì)量的第一位的,只有數(shù)據(jù)準(zhǔn)確,數(shù)據(jù)分析結(jié)果才有效,管理者據(jù)此做出的決策才正確。本文的研究是基于數(shù)據(jù)準(zhǔn)確性進(jìn)行研究。

(二)Bootstrap基本思想

Bootstrap是1979年Efron在他的論文<Bootstrapmethods:anotherlookatthejackknife>一文中首次提出,又名撥靴法,Bootstrap方法在現(xiàn)代統(tǒng)計(jì)學(xué)中應(yīng)用非常廣。Bootstrap方法是一種利用計(jì)算機(jī)軟件實(shí)現(xiàn)抽樣的方法,其基本原理是基于初始給定樣本重復(fù)抽樣,本文設(shè)置1000條抽樣路徑,故可得到1000個(gè)樣本,基于所得樣本計(jì)算研究者關(guān)心的統(tǒng)計(jì)量,在抽樣次數(shù)足夠大條件下很容易得到統(tǒng)計(jì)量的分布圖。Bootstrap抽樣的優(yōu)點(diǎn)在于不需要事先對(duì)總體分布進(jìn)行假設(shè),根據(jù)中心極限定理,在樣本量足夠大條件下,樣本統(tǒng)計(jì)量會(huì)無(wú)限逼近總體分布。

(三)評(píng)估步驟

步驟1:假定為初始樣本,利用Matlab中Bootstrap函數(shù)從此樣本中有放回抽取m個(gè)樣本,本文規(guī)定m=1000。步驟2:根據(jù)1中抽樣結(jié)果,計(jì)算各自樣本統(tǒng)計(jì)量,具體利用Matlab中mean函數(shù)計(jì)算均值統(tǒng)計(jì)量,即可得到1000個(gè)樣本均值;步驟3:基于2中計(jì)算結(jié)果,調(diào)用log函數(shù)計(jì)算統(tǒng)計(jì)量的對(duì)數(shù)值;步驟4:利用QQ圖及單一樣本Kolmogorov-Smirnov檢驗(yàn)3中結(jié)果是否服從正態(tài)分布,如果是,說(shuō)明統(tǒng)計(jì)量服從對(duì)數(shù)正態(tài)分布,統(tǒng)計(jì)數(shù)據(jù)質(zhì)量符合要求,否則,統(tǒng)計(jì)數(shù)據(jù)誤差大,需要修正。

二、數(shù)據(jù)收集與實(shí)證研究

(一)數(shù)據(jù)收集

本文以山西省2000-2019年地區(qū)生產(chǎn)總值為研究對(duì)象,對(duì)其進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估。表1是山西省2000-2019年地區(qū)生產(chǎn)總值。

(二)驗(yàn)證對(duì)數(shù)正態(tài)分布

利用Bootstrp方法對(duì)2000-2019年山西省地區(qū)生產(chǎn)總值進(jìn)行可放回的重復(fù)抽樣1000次,進(jìn)而得到1000個(gè)Bootstrap樣本,然后根據(jù)每一個(gè)樣本計(jì)算對(duì)應(yīng)的均值,從而得到1000個(gè)樣本均值,接著計(jì)算樣本均值對(duì)數(shù),然后通過(guò)spss繪制其對(duì)應(yīng)的直方圖,如圖1所示。從圖1可以直觀的看出,統(tǒng)計(jì)量的對(duì)數(shù)服從正態(tài)分布,從圖中只是很形象的觀察出統(tǒng)計(jì)量對(duì)數(shù)的分布,要想進(jìn)一步證實(shí)其為正態(tài)分布,還需要進(jìn)行統(tǒng)計(jì)檢驗(yàn)。本文使用Q-Q圖檢驗(yàn)和K-S檢驗(yàn)兩種方法對(duì)統(tǒng)計(jì)量對(duì)數(shù)進(jìn)行正態(tài)性檢驗(yàn)。(1)Q-Q圖又名分位數(shù)圖,通過(guò)比較實(shí)際觀測(cè)數(shù)據(jù)分位數(shù)與正態(tài)分布分位數(shù)是否一致來(lái)檢驗(yàn)數(shù)據(jù)的正態(tài)性。具體是通過(guò)做散點(diǎn)圖,觀測(cè)兩列數(shù)據(jù)的分位數(shù)是否分布在參考直線上,如果是,說(shuō)明被檢驗(yàn)數(shù)據(jù)服從正態(tài)分布,否則非正態(tài)。通過(guò)SPSS中Q-Q圖功能對(duì)樣本統(tǒng)計(jì)量對(duì)數(shù)進(jìn)行檢驗(yàn),結(jié)果如圖2所示,從Q-QPlot中,各點(diǎn)幾乎全部落在參考直線上,說(shuō)明被檢驗(yàn)數(shù)據(jù)服從正態(tài)分布。(2)K-S檢驗(yàn)。在利用Bootstrp方法得到1000個(gè)樣本均值對(duì)數(shù)后,為了檢驗(yàn)樣本均值對(duì)數(shù)的分布,提出原假設(shè)和備擇假設(shè),原假設(shè)為樣本均值對(duì)數(shù)服從正態(tài)分布,備擇假設(shè)為樣本均值對(duì)數(shù)不服從正態(tài)分布。通過(guò)SPSS中的非參數(shù)檢驗(yàn)K-S方法進(jìn)行檢驗(yàn),輸出結(jié)果如表2,從表里可以看出,K-S檢驗(yàn)中,Kolmogorov-SmirnovZ值為0.022,P值(雙側(cè))=0.2,在給定顯著性水平α=0.05條件下,顯然P>α,所以接受原假設(shè),說(shuō)明樣本均值對(duì)數(shù)服從正態(tài)分布。

結(jié)語(yǔ)

本文研究新時(shí)代統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,利用對(duì)數(shù)正態(tài)分布來(lái)評(píng)估數(shù)據(jù)質(zhì)量,鑒于研究數(shù)據(jù)分布需要足夠的樣本容量,然而現(xiàn)實(shí)數(shù)據(jù)無(wú)法滿足此要求,故采用Bootstrap重抽樣方法解決兩者間矛盾。通過(guò)以山西省2000-2019年地區(qū)生產(chǎn)總值為研究對(duì)象,驗(yàn)證采用Bootstrap方法構(gòu)造的統(tǒng)計(jì)量是否服從對(duì)數(shù)正態(tài)分布判斷真實(shí)數(shù)據(jù)的數(shù)據(jù)質(zhì)量,通過(guò)檢驗(yàn),結(jié)果表明山西省2000-2019年地區(qū)生產(chǎn)總值統(tǒng)計(jì)數(shù)據(jù)質(zhì)量可靠。

參考文獻(xiàn)

[1]寧吉喆.推進(jìn)統(tǒng)計(jì)現(xiàn)代化改革[R/OL].[2021–01–19].

[2]成邦文.研究與開發(fā)機(jī)構(gòu)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量與異常點(diǎn)的對(duì)數(shù)正態(tài)分布檢驗(yàn)與識(shí)別[J].統(tǒng)計(jì)研究,2000(1):42–45.

[3]EfronBradley.Bootstrapmethods:anotherlookatthejackknife[J].TheAnnalsofStatistics,1979(1).

[4]白永昕,閆懋博,基于Bootstrap方法的多維統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估[J].統(tǒng)計(jì)與決策,2020(11):5–9.

[5]宗威,吳峰.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013(5):38–43.

[6]祝君儀.大數(shù)據(jù)時(shí)代背景下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)估方法及適用性分析[J].中國(guó)市場(chǎng),2015(29):41–42.

[7]王華.政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的用戶滿意度測(cè)評(píng)——基于多層次模糊綜合評(píng)價(jià)的實(shí)證研究[J].商業(yè)經(jīng)濟(jì)與管理,2010(5):62–70

作者:張會(huì)清 單位:晉中信息學(xué)院