數(shù)據(jù)挖掘疾病預測研究

時間:2022-01-30 09:20:02

導語:數(shù)據(jù)挖掘疾病預測研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘疾病預測研究

【摘要】隨著計算機和數(shù)據(jù)挖掘分析日益劇增,在醫(yī)學預測方面已經(jīng)取得了很好的結(jié)果,具有非凡的意義,深度學習最近幾年已經(jīng)有個初步的結(jié)果,并且用到了醫(yī)學領域。那么工作分為,數(shù)據(jù)歸一,基于DBN的數(shù)據(jù)構(gòu)建,設計DBN模型,以及實現(xiàn)預測。設計模型,包括數(shù)據(jù)預測模塊,預測結(jié)果以及展示結(jié)果。將數(shù)據(jù)進行分析處理,預分析,以及初步的測試,得到結(jié)果。

【關(guān)鍵詞】大數(shù)據(jù);疾病預測;醫(yī)學信息系統(tǒng);數(shù)據(jù)挖掘,DBN算法的基本原理

1引言

近年來非典病毒在我國泛濫,出現(xiàn)這一問題有很大的社會因素。那就是危機意識。非典毫無疑問是一場公共衛(wèi)生危機,這場危機之所以能夠爆發(fā)并造成嚴重影響,除了病毒的新發(fā)性之外,危機意識的淡薄以及由此導致的社會預警系統(tǒng)的缺乏和應有的防治措施的不力,這是一個決不可忽視的社會因素。再來說影響非典發(fā)病的因素。最主要的是疫苗因素,如今生產(chǎn)疫苗的工廠多,所以就造成了疫苗品種多,價格差異大,這樣就不能保證社會的總體免疫力良好,就給了病毒傳播的機會。其次是對藥品的濫用,長期過量使用氯霉素,鏈霉素,慶大霉素及皮質(zhì)激素等藥物,因其破壞白細胞和淋巴細胞,而抗體均是由B淋巴細胞產(chǎn)生,因此大大影響了免疫效果,是人對非典抵抗下降加快病毒的擴散。疾病預測是疾病預防,準確的預測人群以及個體的疾病發(fā)展趨勢成為人們預測防范疾病是一個重要的手段,預測分為定性預測和定量預測,定性預測可以直觀的判斷預測主要是依靠經(jīng)驗以及直觀判斷能力,不用或者用少量的計算,定性的預測能充分發(fā)揮人的主觀作用,考慮無法定量的因素,靈活省時省事,但缺乏數(shù)據(jù)的精確描述,而定量的預測,可以運用數(shù)學統(tǒng)計的方法對未來發(fā)展趨勢,增減速度以及可能達到發(fā)展的數(shù)量的說明。利用并構(gòu)建DBN模型,設計實現(xiàn)疾病預測行為定性預測方面,建立模型進行預測的相關(guān)算法,利用波爾茲曼機以及BP網(wǎng)絡,采用貪婪逐層學習的方法對于疾病預測風險評估,利用模糊算法,回歸算法,支持向量機,預測年際變化。利用BP神經(jīng)網(wǎng)絡預測每年疾病數(shù)目。由于疾病信息大,噪聲大,數(shù)據(jù)不完全以及隨機模糊性,疾病的風險預測顯得極其重要。本文采用了深度學習深度信念網(wǎng)絡的模型方法,來提高疾病的預測的準確性,采集疾病病人的體檢數(shù)據(jù),對數(shù)據(jù)進行分析處理,歸一化,建立計算處理的基礎表示數(shù)據(jù)庫,對于數(shù)據(jù)進行分析,論文預測構(gòu)建。分為預處理,疾病建立,開發(fā)DBN系統(tǒng)以及參考測試結(jié)果。

2學習方法

當前幾種疾病的預測方法,先已有的包含,回歸預測,時間序列預測,灰度預測,以及人工神經(jīng)網(wǎng)絡等方法。但是此幾種方法各有缺陷,而深度學習的方法是基于數(shù)據(jù)特征進行學習,論文提出的DBN模型不僅可以學習特征還能自適應,也可以避免BP的局部極小的情況。2.1BP神經(jīng)網(wǎng)絡。BP網(wǎng)絡是通過逆向傳輸,通過梯度下降得到一個較好的效果,BP網(wǎng)絡也稱為梯度下降網(wǎng)絡,通過誤差平方和最小,BP的神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu),輸入輸出隱層,信息正向傳輸,誤差率反向傳播的過程,雙向并行進行。輸入層接收信息,輸出層輸出處理之后的結(jié)果,中間主要是通過數(shù)據(jù)轉(zhuǎn)換,信息變換,通過數(shù)據(jù)處理得到想要的答案。誤差則通過輸出層,按照誤差梯度下降的方法修正各個權(quán)值,向隱層以及輸入層傳播,去調(diào)節(jié)權(quán)值去達到誤差最小。最常見的就是一個三層的網(wǎng)絡機構(gòu),如圖1所示。此種網(wǎng)絡有很強的映射能力,非線性性能完備。那么在BP網(wǎng)絡中,隱層足夠的情況下,能夠?qū)崿F(xiàn)任意非線性函數(shù)的逼近,但是BP存在他自身的局限性,譬如:梯度消失,局部最優(yōu),學習速度慢,無法控制隱層個數(shù)等等問題。2.2DBN學習預測疾病。DBN算法是數(shù)據(jù)挖掘技術(shù)中常用的一種分類和預測方法。深度信念機,是由多個波爾茲曼機組成的神經(jīng)網(wǎng)絡,存在一個n層的網(wǎng)絡模型,針對隱層以及可視層實現(xiàn)聯(lián)合概率分布。進行預學習以及整個DBN的模型學習訓練,是對一個受限波爾茲曼機單獨進行訓練,之后疊加一層,作為下一層輸入,再通過反向?qū)W習算法進行調(diào)節(jié),圖2所示。此模型的好處在于,首先對于數(shù)據(jù)特征進行一次學習,然后通過自學的方式再將結(jié)果輸出,作為下一層的輸入進行訓練學習。一步一步層層學習和訓練,作為深度學習的過程,對于特征分析可得到更好的結(jié)果。深度信念網(wǎng)絡實現(xiàn)了從上向下的學習結(jié)構(gòu),自生成的結(jié)構(gòu),處理模糊信息加以傳播,從而減少傳播的誤差。在此網(wǎng)絡用于各個網(wǎng)絡過程,實現(xiàn)了較好的結(jié)果。

3預測模型建立

基于DBN的模型,首先數(shù)據(jù)采集,采集心血疾病的各項體征,將數(shù)據(jù)分為測試和預測兩份。(1)數(shù)據(jù)采集,采集醫(yī)學數(shù)據(jù)以及劃分數(shù)據(jù)分析。(2)構(gòu)造DBN的模型,采用疾病分析方法的網(wǎng)絡構(gòu)架,包括輸入點,隱層點和輸出點的設計。(3)構(gòu)造模型,以及利用訓練數(shù)據(jù),對其加速訓練,以及設計最好的網(wǎng)絡結(jié)構(gòu)進行分析,得到誤差函數(shù)。設計權(quán)值矩陣以及共軛梯度。(4)測試,將數(shù)據(jù)輸入模型進行測試。(5)分析結(jié)果。

4結(jié)論

本文基于DBN算法建立流程,通過驗證實驗結(jié)果準備率,相比與BP的網(wǎng)絡進行對比,DBN準確率高于深度學習的準確率。通過建立數(shù)據(jù),以及樣本的歸一化,實現(xiàn)確定各個層數(shù)的隱層以及輸出,對數(shù)據(jù)進行學習,數(shù)據(jù)處理完成模型建立完畢。

參考文獻

[1]譚慭莘,田考聰.數(shù)學模型在人群疾病預測研究中的應用[J].中國醫(yī)院統(tǒng)計,2005,12(1):83~85.

[2]袁鶯楹,董建成.基于數(shù)學模型的疾病預測方法比較研究[J].軟件導刊,2009(5):108~110.

[3]涂德華,張理義,陶鳳燕.軍人心理疾病預測量表的信度及效度檢驗[J].江蘇大學學報(醫(yī)學版),2009,19(2):168~172.

[4]余凱,賈磊,陳雨強,徐偉.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,09:1799~1804.

[5]由清圳.基于深度學習的視頻人臉識別方法[D].哈爾濱:哈爾濱工業(yè)大學,2013.

[6]王山海,景新幸,楊海燕.基于深度學習神經(jīng)網(wǎng)絡的孤立詞語音識別的研究[J].計算機應用研究,2015,8.

作者:高驍智 單位:陜西延安中學