數據挖掘技術在精準扶貧的應用

時間:2022-08-06 08:17:28

導語:數據挖掘技術在精準扶貧的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘技術在精準扶貧的應用

1數據挖掘技術助力精準扶貧的現實意義與可行性

從2013年11月提出“精準扶貧”重要思想以來,各基層工作人員深入一線開展調查,已經積累了大量的、真實準確的數據,而數據挖掘技術也在近年來愈加成熟。因此,將數據挖掘技術引入“精準扶貧”的數據分析中,其可行性的毋庸置疑的。

2精準扶貧統計數據的內容與特點

精準的扶貧離不開精準的數據,4年來,在廣大基層干部的不斷摸索下,對于如何收集數據,收集什么數據等問題已經有了較為成熟的體系。以貴州遵義地區某鄉鎮為例,所采集的數據包括了戶編號、人員編號、姓名、證件號碼、人數、與戶主關系、民族、文化程度、是否在校生、勞動能力、務工狀況、務工時間、是否參加大病醫療、貧困屬性、主要致貧原因、是否危房戶、飲水安全情況、人均純收入等18項數據。目前在采集數據環節尚存在的問題有:一是主要采用人工采集,效率低、數據少。二是所填寫的數據表各地不一致,內容差異性較大。三是各地區基層干部對數據采集的口徑理解不一致。基于以上問題,目前所采集到數據仍存在一些混亂的情況,這給下一步的數據挖掘帶來了不小困難,需要進行大量的數據清理工作。

3可用于精準扶貧的數據挖掘技術分析

一般來說,數據挖掘過程有以下幾個步驟:一是明確要解決的問題和搜集正確的數據,二是進行數據預處理,三是決定采用哪一種挖掘算法,四是進行結果解釋和評估。本文所采用的數據已進行了預處理,下面著重討論一下數據挖掘可用于精準扶貧數據分析的技術:關聯規則與聚類分析。3.1關聯規則。數據關聯是數據庫中存在可被發現的知識。若兩個或多個變量的取值存在某種規律性,就稱為關聯。關聯分析是數據挖掘的本質,既然數據挖掘的目的是發現潛藏在數據背后的知識,那么這種知識一定是反映不同對象之間的關聯[2]。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。通過關聯規則分析,我們首先從原始資料中找出高頻項目組,例如,對于數據庫D=5951人,找出健康狀況為“健康”,文化程度為“小學”,建立頻繁二項集I={健康,小學},D中有X=4878人包含“健康”,有X^Y=1710人同時包含“健康”和“小學”,則其支持度(X^Y)/D=0.29,置信度(X^Y)/X=0.35。若給定最小支持度為0.2,最小置信度為0.3,則“健康”和“小學”這兩項屬性可認為存在關聯。然后再取某一屬性,重復上述步驟,若支持度與置信度仍然分別高于最小支持度與最小置信度,那么將該屬性添加到項集I中,直到上述條件不再滿足為止。通過關聯規則,我們可以找出對于某一地區貧困戶來說,致貧的主要原因與貧困戶的哪些屬性有關,查缺補漏,指導扶貧政策的落實。3.2聚類分析。數據挖掘的目標之一是進行聚類分析。聚類分析是一組將研究對象分為相對同質的群組的統計分析技術。聚類分析又分為劃分層次、基于密度的方法、基于網格的方法等三類,這里主要討論劃分層次法和基于密度的方法。劃分層次法:將整個數據集中的數據凝聚為以候選代表點為中心的一個個集合,并通過密度閾值篩選,去掉一些過稀疏的候選代表點,留下的代表點即為排除孤立點的中間層聚類結果[3]。例如,根據對貧困戶人均年純收入作為數據對象進行層次劃分,我們發現,對于貧困人口為5951人的鄉鎮,其人均年純收入主要集中在了2000—5000元檔次。基于密度法:例如我們選取了“年齡”和“人均年收入”作為關聯對象,通過基于密度的方法繪制出下圖。上圖中每個圓點為一個數據對象,所謂基于密度的方法即通過劃分各個數據對象之間的距離來劃分簇,然后通過研究簇之間的關系來分析數據結果[4]。設D為數據對象集合,且|D|=n,設數據對象的圓心為O,以ξ為半徑,半徑ξ內的區域稱為數據對象O的鄰域,數據對象之間的距離為l。若存在一個對象鏈p1,p2,……,pn,且pn從p1出發,使得該對象鏈各對象之間的距離l<半徑ξ,則稱該對象鏈為基于密度的簇,記為Ci。若某數據對象不存在于任何一個簇中,則稱該對象為噪聲。通過觀察各簇所在的區域可以區分出不同的貧困人群以及貧困人群的主要集中區域,并可針對某一類簇中的人群制定與之適應的扶貧政策。聚類是一個無管理的程序,也沒有客觀的標準來評價聚類結果,一般來說,幾何性質,包括類間的分離和類內部的耦合,都可以用來評價聚類結果的質量[5]。

4結語

隨著精準扶貧工作的深入開展,所采集的數據日益龐大,借助數據挖掘技術進行有目的的分析研究勢在必行,通過數據挖掘和精準扶貧的有機結合,將為扶貧工作提供科學的建議與方向,極大地提高了工作與資金利用的效率。

【參考文獻】

[1]贠艷冰.大數據背景下精準扶貧的機遇和挑戰[J].科技經濟導刊,2017(15):256.

[2]何月順.關聯規則挖掘技術的研究及應用[D].南京:南京航空航天大學,2010.

[3]張艷.基于密度和層次的快速聚類算法在數據挖掘中的設計及實現[J].信息安全與技術,2013(08):59-61.

[4]洪龍,陳燕俐,王建東,等.數據挖掘中基于密度的聚類結構及算法設計[J].南京郵電學院學報,2003(04):6-11.

[5]王茜,劉書志.基于密度的局部離群數據挖掘方法的改進[J].計算機應用研究,2014(06):1693-1701.

作者:趙智云 羅雅方 單位:1.遵義醫學院 2.貴州省遵義市匯川區芝麻鎮人民政府