數(shù)據(jù)挖掘技術(shù)在精準(zhǔn)扶貧的應(yīng)用
時間:2022-08-06 08:17:28
導(dǎo)語:數(shù)據(jù)挖掘技術(shù)在精準(zhǔn)扶貧的應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1數(shù)據(jù)挖掘技術(shù)助力精準(zhǔn)扶貧的現(xiàn)實意義與可行性
從2013年11月提出“精準(zhǔn)扶貧”重要思想以來,各基層工作人員深入一線開展調(diào)查,已經(jīng)積累了大量的、真實準(zhǔn)確的數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)也在近年來愈加成熟。因此,將數(shù)據(jù)挖掘技術(shù)引入“精準(zhǔn)扶貧”的數(shù)據(jù)分析中,其可行性的毋庸置疑的。
2精準(zhǔn)扶貧統(tǒng)計數(shù)據(jù)的內(nèi)容與特點
精準(zhǔn)的扶貧離不開精準(zhǔn)的數(shù)據(jù),4年來,在廣大基層干部的不斷摸索下,對于如何收集數(shù)據(jù),收集什么數(shù)據(jù)等問題已經(jīng)有了較為成熟的體系。以貴州遵義地區(qū)某鄉(xiāng)鎮(zhèn)為例,所采集的數(shù)據(jù)包括了戶編號、人員編號、姓名、證件號碼、人數(shù)、與戶主關(guān)系、民族、文化程度、是否在校生、勞動能力、務(wù)工狀況、務(wù)工時間、是否參加大病醫(yī)療、貧困屬性、主要致貧原因、是否危房戶、飲水安全情況、人均純收入等18項數(shù)據(jù)。目前在采集數(shù)據(jù)環(huán)節(jié)尚存在的問題有:一是主要采用人工采集,效率低、數(shù)據(jù)少。二是所填寫的數(shù)據(jù)表各地不一致,內(nèi)容差異性較大。三是各地區(qū)基層干部對數(shù)據(jù)采集的口徑理解不一致。基于以上問題,目前所采集到數(shù)據(jù)仍存在一些混亂的情況,這給下一步的數(shù)據(jù)挖掘帶來了不小困難,需要進(jìn)行大量的數(shù)據(jù)清理工作。
3可用于精準(zhǔn)扶貧的數(shù)據(jù)挖掘技術(shù)分析
一般來說,數(shù)據(jù)挖掘過程有以下幾個步驟:一是明確要解決的問題和搜集正確的數(shù)據(jù),二是進(jìn)行數(shù)據(jù)預(yù)處理,三是決定采用哪一種挖掘算法,四是進(jìn)行結(jié)果解釋和評估。本文所采用的數(shù)據(jù)已進(jìn)行了預(yù)處理,下面著重討論一下數(shù)據(jù)挖掘可用于精準(zhǔn)扶貧數(shù)據(jù)分析的技術(shù):關(guān)聯(lián)規(guī)則與聚類分析。3.1關(guān)聯(lián)規(guī)則。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì),既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識,那么這種知識一定是反映不同對象之間的關(guān)聯(lián)[2]。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。通過關(guān)聯(lián)規(guī)則分析,我們首先從原始資料中找出高頻項目組,例如,對于數(shù)據(jù)庫D=5951人,找出健康狀況為“健康”,文化程度為“小學(xué)”,建立頻繁二項集I={健康,小學(xué)},D中有X=4878人包含“健康”,有X^Y=1710人同時包含“健康”和“小學(xué)”,則其支持度(X^Y)/D=0.29,置信度(X^Y)/X=0.35。若給定最小支持度為0.2,最小置信度為0.3,則“健康”和“小學(xué)”這兩項屬性可認(rèn)為存在關(guān)聯(lián)。然后再取某一屬性,重復(fù)上述步驟,若支持度與置信度仍然分別高于最小支持度與最小置信度,那么將該屬性添加到項集I中,直到上述條件不再滿足為止。通過關(guān)聯(lián)規(guī)則,我們可以找出對于某一地區(qū)貧困戶來說,致貧的主要原因與貧困戶的哪些屬性有關(guān),查缺補漏,指導(dǎo)扶貧政策的落實。3.2聚類分析。數(shù)據(jù)挖掘的目標(biāo)之一是進(jìn)行聚類分析。聚類分析是一組將研究對象分為相對同質(zhì)的群組的統(tǒng)計分析技術(shù)。聚類分析又分為劃分層次、基于密度的方法、基于網(wǎng)格的方法等三類,這里主要討論劃分層次法和基于密度的方法。劃分層次法:將整個數(shù)據(jù)集中的數(shù)據(jù)凝聚為以候選代表點為中心的一個個集合,并通過密度閾值篩選,去掉一些過稀疏的候選代表點,留下的代表點即為排除孤立點的中間層聚類結(jié)果[3]。例如,根據(jù)對貧困戶人均年純收入作為數(shù)據(jù)對象進(jìn)行層次劃分,我們發(fā)現(xiàn),對于貧困人口為5951人的鄉(xiāng)鎮(zhèn),其人均年純收入主要集中在了2000—5000元檔次?;诿芏确ǎ豪缥覀冞x取了“年齡”和“人均年收入”作為關(guān)聯(lián)對象,通過基于密度的方法繪制出下圖。上圖中每個圓點為一個數(shù)據(jù)對象,所謂基于密度的方法即通過劃分各個數(shù)據(jù)對象之間的距離來劃分簇,然后通過研究簇之間的關(guān)系來分析數(shù)據(jù)結(jié)果[4]。設(shè)D為數(shù)據(jù)對象集合,且|D|=n,設(shè)數(shù)據(jù)對象的圓心為O,以ξ為半徑,半徑ξ內(nèi)的區(qū)域稱為數(shù)據(jù)對象O的鄰域,數(shù)據(jù)對象之間的距離為l。若存在一個對象鏈p1,p2,……,pn,且pn從p1出發(fā),使得該對象鏈各對象之間的距離l<半徑ξ,則稱該對象鏈為基于密度的簇,記為Ci。若某數(shù)據(jù)對象不存在于任何一個簇中,則稱該對象為噪聲。通過觀察各簇所在的區(qū)域可以區(qū)分出不同的貧困人群以及貧困人群的主要集中區(qū)域,并可針對某一類簇中的人群制定與之適應(yīng)的扶貧政策。聚類是一個無管理的程序,也沒有客觀的標(biāo)準(zhǔn)來評價聚類結(jié)果,一般來說,幾何性質(zhì),包括類間的分離和類內(nèi)部的耦合,都可以用來評價聚類結(jié)果的質(zhì)量[5]。
4結(jié)語
隨著精準(zhǔn)扶貧工作的深入開展,所采集的數(shù)據(jù)日益龐大,借助數(shù)據(jù)挖掘技術(shù)進(jìn)行有目的的分析研究勢在必行,通過數(shù)據(jù)挖掘和精準(zhǔn)扶貧的有機結(jié)合,將為扶貧工作提供科學(xué)的建議與方向,極大地提高了工作與資金利用的效率。
【參考文獻(xiàn)】
[1]贠艷冰.大數(shù)據(jù)背景下精準(zhǔn)扶貧的機遇和挑戰(zhàn)[J].科技經(jīng)濟導(dǎo)刊,2017(15):256.
[2]何月順.關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[D].南京:南京航空航天大學(xué),2010.
[3]張艷.基于密度和層次的快速聚類算法在數(shù)據(jù)挖掘中的設(shè)計及實現(xiàn)[J].信息安全與技術(shù),2013(08):59-61.
[4]洪龍,陳燕俐,王建東,等.數(shù)據(jù)挖掘中基于密度的聚類結(jié)構(gòu)及算法設(shè)計[J].南京郵電學(xué)院學(xué)報,2003(04):6-11.
[5]王茜,劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的改進(jìn)[J].計算機應(yīng)用研究,2014(06):1693-1701.
作者:趙智云 羅雅方 單位:1.遵義醫(yī)學(xué)院 2.貴州省遵義市匯川區(qū)芝麻鎮(zhèn)人民政府