數(shù)據(jù)挖掘技術(shù)在精準(zhǔn)扶貧的應(yīng)用

時(shí)間:2022-08-06 08:17:28

導(dǎo)語:數(shù)據(jù)挖掘技術(shù)在精準(zhǔn)扶貧的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)在精準(zhǔn)扶貧的應(yīng)用

1數(shù)據(jù)挖掘技術(shù)助力精準(zhǔn)扶貧的現(xiàn)實(shí)意義與可行性

從2013年11月提出“精準(zhǔn)扶貧”重要思想以來,各基層工作人員深入一線開展調(diào)查,已經(jīng)積累了大量的、真實(shí)準(zhǔn)確的數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)也在近年來愈加成熟。因此,將數(shù)據(jù)挖掘技術(shù)引入“精準(zhǔn)扶貧”的數(shù)據(jù)分析中,其可行性的毋庸置疑的。

2精準(zhǔn)扶貧統(tǒng)計(jì)數(shù)據(jù)的內(nèi)容與特點(diǎn)

精準(zhǔn)的扶貧離不開精準(zhǔn)的數(shù)據(jù),4年來,在廣大基層干部的不斷摸索下,對(duì)于如何收集數(shù)據(jù),收集什么數(shù)據(jù)等問題已經(jīng)有了較為成熟的體系。以貴州遵義地區(qū)某鄉(xiāng)鎮(zhèn)為例,所采集的數(shù)據(jù)包括了戶編號(hào)、人員編號(hào)、姓名、證件號(hào)碼、人數(shù)、與戶主關(guān)系、民族、文化程度、是否在校生、勞動(dòng)能力、務(wù)工狀況、務(wù)工時(shí)間、是否參加大病醫(yī)療、貧困屬性、主要致貧原因、是否危房戶、飲水安全情況、人均純收入等18項(xiàng)數(shù)據(jù)。目前在采集數(shù)據(jù)環(huán)節(jié)尚存在的問題有:一是主要采用人工采集,效率低、數(shù)據(jù)少。二是所填寫的數(shù)據(jù)表各地不一致,內(nèi)容差異性較大。三是各地區(qū)基層干部對(duì)數(shù)據(jù)采集的口徑理解不一致?;谝陨蠁栴},目前所采集到數(shù)據(jù)仍存在一些混亂的情況,這給下一步的數(shù)據(jù)挖掘帶來了不小困難,需要進(jìn)行大量的數(shù)據(jù)清理工作。

3可用于精準(zhǔn)扶貧的數(shù)據(jù)挖掘技術(shù)分析

一般來說,數(shù)據(jù)挖掘過程有以下幾個(gè)步驟:一是明確要解決的問題和搜集正確的數(shù)據(jù),二是進(jìn)行數(shù)據(jù)預(yù)處理,三是決定采用哪一種挖掘算法,四是進(jìn)行結(jié)果解釋和評(píng)估。本文所采用的數(shù)據(jù)已進(jìn)行了預(yù)處理,下面著重討論一下數(shù)據(jù)挖掘可用于精準(zhǔn)扶貧數(shù)據(jù)分析的技術(shù):關(guān)聯(lián)規(guī)則與聚類分析。3.1關(guān)聯(lián)規(guī)則。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì),既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識(shí),那么這種知識(shí)一定是反映不同對(duì)象之間的關(guān)聯(lián)[2]。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。通過關(guān)聯(lián)規(guī)則分析,我們首先從原始資料中找出高頻項(xiàng)目組,例如,對(duì)于數(shù)據(jù)庫D=5951人,找出健康狀況為“健康”,文化程度為“小學(xué)”,建立頻繁二項(xiàng)集I={健康,小學(xué)},D中有X=4878人包含“健康”,有X^Y=1710人同時(shí)包含“健康”和“小學(xué)”,則其支持度(X^Y)/D=0.29,置信度(X^Y)/X=0.35。若給定最小支持度為0.2,最小置信度為0.3,則“健康”和“小學(xué)”這兩項(xiàng)屬性可認(rèn)為存在關(guān)聯(lián)。然后再取某一屬性,重復(fù)上述步驟,若支持度與置信度仍然分別高于最小支持度與最小置信度,那么將該屬性添加到項(xiàng)集I中,直到上述條件不再滿足為止。通過關(guān)聯(lián)規(guī)則,我們可以找出對(duì)于某一地區(qū)貧困戶來說,致貧的主要原因與貧困戶的哪些屬性有關(guān),查缺補(bǔ)漏,指導(dǎo)扶貧政策的落實(shí)。3.2聚類分析。數(shù)據(jù)挖掘的目標(biāo)之一是進(jìn)行聚類分析。聚類分析是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組的統(tǒng)計(jì)分析技術(shù)。聚類分析又分為劃分層次、基于密度的方法、基于網(wǎng)格的方法等三類,這里主要討論劃分層次法和基于密度的方法。劃分層次法:將整個(gè)數(shù)據(jù)集中的數(shù)據(jù)凝聚為以候選代表點(diǎn)為中心的一個(gè)個(gè)集合,并通過密度閾值篩選,去掉一些過稀疏的候選代表點(diǎn),留下的代表點(diǎn)即為排除孤立點(diǎn)的中間層聚類結(jié)果[3]。例如,根據(jù)對(duì)貧困戶人均年純收入作為數(shù)據(jù)對(duì)象進(jìn)行層次劃分,我們發(fā)現(xiàn),對(duì)于貧困人口為5951人的鄉(xiāng)鎮(zhèn),其人均年純收入主要集中在了2000—5000元檔次?;诿芏确ǎ豪缥覀冞x取了“年齡”和“人均年收入”作為關(guān)聯(lián)對(duì)象,通過基于密度的方法繪制出下圖。上圖中每個(gè)圓點(diǎn)為一個(gè)數(shù)據(jù)對(duì)象,所謂基于密度的方法即通過劃分各個(gè)數(shù)據(jù)對(duì)象之間的距離來劃分簇,然后通過研究簇之間的關(guān)系來分析數(shù)據(jù)結(jié)果[4]。設(shè)D為數(shù)據(jù)對(duì)象集合,且|D|=n,設(shè)數(shù)據(jù)對(duì)象的圓心為O,以ξ為半徑,半徑ξ內(nèi)的區(qū)域稱為數(shù)據(jù)對(duì)象O的鄰域,數(shù)據(jù)對(duì)象之間的距離為l。若存在一個(gè)對(duì)象鏈p1,p2,……,pn,且pn從p1出發(fā),使得該對(duì)象鏈各對(duì)象之間的距離l<半徑ξ,則稱該對(duì)象鏈為基于密度的簇,記為Ci。若某數(shù)據(jù)對(duì)象不存在于任何一個(gè)簇中,則稱該對(duì)象為噪聲。通過觀察各簇所在的區(qū)域可以區(qū)分出不同的貧困人群以及貧困人群的主要集中區(qū)域,并可針對(duì)某一類簇中的人群制定與之適應(yīng)的扶貧政策。聚類是一個(gè)無管理的程序,也沒有客觀的標(biāo)準(zhǔn)來評(píng)價(jià)聚類結(jié)果,一般來說,幾何性質(zhì),包括類間的分離和類內(nèi)部的耦合,都可以用來評(píng)價(jià)聚類結(jié)果的質(zhì)量[5]。

4結(jié)語

隨著精準(zhǔn)扶貧工作的深入開展,所采集的數(shù)據(jù)日益龐大,借助數(shù)據(jù)挖掘技術(shù)進(jìn)行有目的的分析研究勢在必行,通過數(shù)據(jù)挖掘和精準(zhǔn)扶貧的有機(jī)結(jié)合,將為扶貧工作提供科學(xué)的建議與方向,極大地提高了工作與資金利用的效率。

【參考文獻(xiàn)】

[1]贠艷冰.大數(shù)據(jù)背景下精準(zhǔn)扶貧的機(jī)遇和挑戰(zhàn)[J].科技經(jīng)濟(jì)導(dǎo)刊,2017(15):256.

[2]何月順.關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[D].南京:南京航空航天大學(xué),2010.

[3]張艷.基于密度和層次的快速聚類算法在數(shù)據(jù)挖掘中的設(shè)計(jì)及實(shí)現(xiàn)[J].信息安全與技術(shù),2013(08):59-61.

[4]洪龍,陳燕俐,王建東,等.數(shù)據(jù)挖掘中基于密度的聚類結(jié)構(gòu)及算法設(shè)計(jì)[J].南京郵電學(xué)院學(xué)報(bào),2003(04):6-11.

[5]王茜,劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用研究,2014(06):1693-1701.

作者:趙智云 羅雅方 單位:1.遵義醫(yī)學(xué)院 2.貴州省遵義市匯川區(qū)芝麻鎮(zhèn)人民政府