醫(yī)療數(shù)據(jù)分析論文

時間:2022-03-27 03:04:54

導語:醫(yī)療數(shù)據(jù)分析論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

醫(yī)療數(shù)據(jù)分析論文

1醫(yī)療數(shù)據(jù)分析模型

將醫(yī)院、醫(yī)療保健組織等數(shù)字化的醫(yī)療數(shù)據(jù)以特定的格式、協(xié)議發(fā)送到醫(yī)療數(shù)據(jù)分析模塊進行分析與疾病預測.醫(yī)療數(shù)據(jù)提取模塊:該模塊由醫(yī)院電子病歷系統(tǒng)負責實現(xiàn),我們使用openEHR系統(tǒng)作為醫(yī)院電子病歷系統(tǒng),并在openEHR中實現(xiàn)醫(yī)療數(shù)據(jù)的提取功能.openEHR系統(tǒng)是一個開源、靈活的電子病歷系統(tǒng),支持HL7衛(wèi)生信息交換標準.很多醫(yī)療健康組織、政府和學術科研單位都使用openEHR進行開發(fā)和科研工作.如一種基于openEHR的患者病歷數(shù)據(jù)管理模型、openEHR等許多開源的電子病歷平臺的對比與評估和基于openEHR的檔案建模等.數(shù)據(jù)交換模塊:基于Web服務的數(shù)據(jù)交換模塊使用醫(yī)療數(shù)據(jù)通信協(xié)議實現(xiàn)醫(yī)療數(shù)據(jù)分析模塊與醫(yī)療數(shù)據(jù)提取模塊的數(shù)據(jù)交換.Web服務是一個平臺獨立、松耦合的Web應用程序.由于Web服務的跨平臺特性,許多模型與框架是基于Web服務構建的,如基于Web服務集成分布式資源和數(shù)據(jù)流分析測試等.在本文提出的醫(yī)療數(shù)據(jù)分析模型中,使用Web服務來連接醫(yī)療數(shù)據(jù)分析模塊和醫(yī)療數(shù)據(jù)提取模塊.醫(yī)療數(shù)據(jù)提取模塊作為Web服務的服務端,實現(xiàn)的方法包括存取數(shù)據(jù)、數(shù)據(jù)預處理、序列化等,改進后的模型要求實現(xiàn)指定維度,指定屬性數(shù)據(jù)的讀取.本文提出的醫(yī)療數(shù)據(jù)分析模塊作為Web服務的客戶端,通過HTTP服務向數(shù)據(jù)提取模塊請求獲取數(shù)據(jù),并對數(shù)據(jù)進行預處理.醫(yī)療數(shù)據(jù)分析模塊:我們使用Caisis開源平臺作為醫(yī)療數(shù)據(jù)分析與疾病預測系統(tǒng)實現(xiàn)這一模塊.Caisis是基于Web的開源癌癥數(shù)據(jù)管理系統(tǒng),一些臨床醫(yī)學研究使用Caisis系統(tǒng)管理和歸檔數(shù)字顯微圖像,通過向Caisis系統(tǒng)中添加特征選擇和SVM算法,使用SVM算法對醫(yī)療數(shù)據(jù)進行分析和疾病預測,因此使用的特征選擇算法需要基于SVM,可以提高數(shù)據(jù)分析和疾病預測過程的效率和準確度.

2數(shù)據(jù)分析模塊與算法

2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一種可訓練的機器學習算法.依據(jù)統(tǒng)計學習理論、VC維理論和結構風險最小化理論,從一定數(shù)目的樣本信息在學習能力和復雜度(對訓練樣本的學習程度)中找到最佳折中,以期望獲得最好的推廣能力(或稱泛化能力).

2.2基于SVM的醫(yī)療數(shù)據(jù)分析模塊將SVM分類算法應用到醫(yī)療數(shù)據(jù)分析模塊中,進行疾病預測.基于SVM的醫(yī)療數(shù)據(jù)分析模塊,通過數(shù)據(jù)交換模塊獲取原始組數(shù)據(jù)(患病病人醫(yī)療數(shù)據(jù)和對照組病人數(shù)據(jù)).通過特征選擇過程輸入到SVM分類器中進行訓練,訓練后可以對新的醫(yī)療數(shù)據(jù)進行分析預測.

3改進的醫(yī)療數(shù)據(jù)交換模塊

3.1醫(yī)療數(shù)據(jù)交換模塊在原始的醫(yī)療數(shù)據(jù)交換模塊中,數(shù)據(jù)請求原語只由4條通信原語組成.由原始醫(yī)療數(shù)據(jù)分析模型的3個模塊構建,其中在醫(yī)療數(shù)據(jù)分析模塊與醫(yī)療數(shù)據(jù)提取模塊之間的4條通信原語包括2條請求和2條應答.由于醫(yī)療數(shù)據(jù)的維度極大,屬性很多,但是在預測某個疾病時,只有很少的一部分屬性會對分類預測產(chǎn)生影響.這樣的全部維度的數(shù)據(jù)都需要傳輸,浪費了時間,降低了數(shù)據(jù)傳輸效率,影響了醫(yī)療數(shù)據(jù)分析模塊的算法效率.

3.2改進的醫(yī)療數(shù)據(jù)交換模塊在改進的醫(yī)療數(shù)據(jù)交換模塊中,在數(shù)據(jù)傳輸協(xié)議中增加了4條原語.在每條原語中不僅有醫(yī)療記錄條數(shù)的要求,還包括對所請求醫(yī)療數(shù)據(jù)維度和屬性的具體說明.醫(yī)療數(shù)據(jù)分析模塊先請求一小部分全部維度的數(shù)據(jù),對這小部分數(shù)據(jù)進行特征選擇.然后醫(yī)療數(shù)據(jù)分析模塊只請求特征選擇出來的對預測相關的屬性的剩余所有醫(yī)療數(shù)據(jù).最后通過SVM分類算法進行訓練和預測.在新的醫(yī)療數(shù)據(jù)交換模塊中,大部分數(shù)據(jù)中只有小部分相關屬性被傳輸?shù)綌?shù)據(jù)分析模塊,極大地減少了數(shù)據(jù)傳輸總量,也同時增加了分析模塊預測算法的效率.

4原始模型與改進模型的對比結果

在對改進后的模型進行實驗評估時,當Caisis系統(tǒng)請求的訓練數(shù)據(jù)總數(shù)從100~600條變化時,特征選擇請求的數(shù)據(jù)條數(shù)均取100條.當Caisis系統(tǒng)請求的訓練數(shù)據(jù)總數(shù)為100條時,改進模型與原始模型的總數(shù)據(jù)傳輸時間是相同的,這是因為當Caisis系統(tǒng)請求的訓練數(shù)據(jù)總數(shù)與改進模型的特征選擇請求的數(shù)據(jù)條數(shù)都是100條.無論是原始模型還是改進模型,openEHR系統(tǒng)發(fā)送回來的數(shù)據(jù)都是100條的全部屬性.所以,當Caisis請求的訓練數(shù)據(jù)總數(shù)與進行特征選擇的條數(shù)相同時,改進模型降級為與原始模型具有相同傳輸效率.但是隨著Caisis系統(tǒng)請求的訓練數(shù)據(jù)總數(shù)的不斷增加,改進模型則具有非常明顯的優(yōu)勢.對改進模型的評估.當Caisis系統(tǒng)請求的醫(yī)療數(shù)據(jù)總數(shù)一定時,隨著Caisis系統(tǒng)進行特征選擇所請求的數(shù)據(jù)條數(shù)變化,總數(shù)據(jù)傳輸時間不斷增加,傳輸效率逐漸降低.Caisis系統(tǒng)第一步進行特征選擇所請求的數(shù)據(jù)條數(shù)越小,就會有更少的數(shù)據(jù)以全部屬性傳輸,也就是說,更多的數(shù)據(jù)會以更少的屬性傳輸.這樣,總的數(shù)據(jù)量變小,醫(yī)療數(shù)據(jù)的傳輸效率就增大.相反,隨著Caisis系統(tǒng)第一步特征選擇所請求的數(shù)據(jù)條數(shù)的增加,總的傳輸數(shù)據(jù)量變大,醫(yī)療數(shù)據(jù)的總傳輸時間也會變長.當Caisis系統(tǒng)第一步特征選擇所請求的數(shù)據(jù)條數(shù)等于需要訓練的總數(shù)時,全部數(shù)據(jù)的全部屬性都需要傳輸給Caisis,這就使得改進模型降級為與原始模型具有相同的低效率模型系統(tǒng).實驗結果表明,改進后的醫(yī)療數(shù)據(jù)交換協(xié)議具有更高的數(shù)據(jù)交換效率,并且醫(yī)療數(shù)據(jù)分析與預測系統(tǒng)進行特征選擇時使用的數(shù)據(jù)量越小,醫(yī)療數(shù)據(jù)的交換效率越高;基于SVM的特征選擇算法提高了醫(yī)療數(shù)據(jù)分析系統(tǒng)的效率,并提高了使用SVM算法進行預測分析的效率和準確度.

作者:田宇馳胡亮單位:吉林大學計算機科學與技術學院