中醫(yī)藥大數(shù)據(jù)應(yīng)用核心問題分析
時間:2022-05-22 11:44:34
導(dǎo)語:中醫(yī)藥大數(shù)據(jù)應(yīng)用核心問題分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
中醫(yī)藥大數(shù)據(jù)應(yīng)用的最終目標(biāo)是高效保存?zhèn)鞒忻现嗅t(yī)經(jīng)驗,提高中醫(yī)診療智能化水平。筆者認(rèn)為,中醫(yī)藥大數(shù)據(jù)應(yīng)用是以臨床真實世界醫(yī)療為源,收集各醫(yī)院平臺及古籍文獻的中醫(yī)診療數(shù)據(jù),利用適用中醫(yī)特點的數(shù)據(jù)挖掘方法,挖掘出能夠指導(dǎo)臨床應(yīng)用的醫(yī)療思路或方法,如保存與共享名老中醫(yī)經(jīng)驗、中醫(yī)臨床經(jīng)驗智能化搜索、中醫(yī)智能化診療、中醫(yī)真實世界療效評價及診療方案優(yōu)化等,最終得以提升中醫(yī)藥療效水平。本文從中醫(yī)藥診療數(shù)據(jù)的收集、數(shù)字化、數(shù)據(jù)挖掘方法及數(shù)理模型等方面論述,以期為建立相關(guān)關(guān)鍵技術(shù)提出思路和可解決方案。
1多源數(shù)據(jù)整合是中醫(yī)藥大數(shù)據(jù)利用的前提
中醫(yī)藥大數(shù)據(jù)應(yīng)包括中醫(yī)古籍專著、文獻期刊、名老中醫(yī)的醫(yī)案專著,醫(yī)院保存的病歷、社區(qū)健康檔案、可穿戴設(shè)備數(shù)據(jù)及天文、地理數(shù)據(jù)等等。這些數(shù)據(jù)散在于不同空間位置,收集和整合是一個艱巨而漫長的過程,必須由點及面,從縱到橫逐漸融合積累。多種來源的資料匯總非人力所及,必須依賴電腦技術(shù)。其中文本挖掘、文本搜索及網(wǎng)絡(luò)爬蟲技術(shù)是必備的關(guān)鍵技術(shù)。文本挖掘是指抽取有效、有用、可理解、散在于文本文件中的有價值知識并利用這些知識更好地組織信息的過程[1];文本檢索是指根據(jù)文本內(nèi)容,如關(guān)鍵字、語義等對文本集合進行檢索、分類、過濾[2];網(wǎng)絡(luò)爬蟲是對網(wǎng)絡(luò)頁面上的資源進行定向下載的技術(shù)[3]。通過上述技術(shù)的綜合應(yīng)用,可以達到整合資源數(shù)據(jù)的目的。
2中醫(yī)詞庫標(biāo)準(zhǔn)化是中醫(yī)藥大數(shù)據(jù)利用的基礎(chǔ)
2.1建立標(biāo)準(zhǔn)化中醫(yī)分詞詞庫。中文文本的計算機處理首先是將字讀入計算機內(nèi),計算機只認(rèn)識字不認(rèn)識詞,要想讓計算機認(rèn)識詞,必須經(jīng)過一系列的處理,這個過程叫作中文分詞。中文分詞依賴于關(guān)鍵文件———中文詞庫。中文詞庫有通用版本和專業(yè)版本,以常用通用版本jieba分詞(結(jié)巴分詞)為例,里邊有近35萬個中文詞,結(jié)巴詞庫中除常用詞外,也會包括一部分專業(yè)詞匯,但難以滿足專業(yè)需求,各專業(yè)需要專門構(gòu)建專業(yè)詞庫。目前,中醫(yī)詞庫尚未發(fā)現(xiàn)有影響力的專業(yè)中文詞庫,急需建立并完善。其實,構(gòu)建專業(yè)詞庫并不困難,技術(shù)上已經(jīng)普及,其原理是讓計算機讀取大量中醫(yī)藥辭典及文獻期刊,根據(jù)詞頻來確定入庫詞匯。2.2統(tǒng)一中醫(yī)診療用語標(biāo)準(zhǔn)。中醫(yī)標(biāo)準(zhǔn)詞是指中醫(yī)藥大數(shù)據(jù)應(yīng)用時需要參與計算機運算和保存的詞。中醫(yī)分詞過程得到大量的中醫(yī)詞匯,成為非標(biāo)準(zhǔn)詞,這些詞中有很多近義詞、同義詞,大量詞匯形成維度災(zāi)難[4],使計算機編程和運算及結(jié)果解釋面臨困難。因此,將大量的非標(biāo)準(zhǔn)詞轉(zhuǎn)換為有限的標(biāo)準(zhǔn)詞是中醫(yī)藥大數(shù)據(jù)應(yīng)用急需解決的關(guān)鍵問題之一。非標(biāo)準(zhǔn)詞轉(zhuǎn)換為標(biāo)準(zhǔn)詞,技術(shù)上較簡單,既可利用查詢法,亦可利用人工智能技術(shù)中的自然語言處理技術(shù)。但非標(biāo)準(zhǔn)詞與標(biāo)準(zhǔn)詞“詞對”間的匹配對應(yīng),涉及古今文字差異與各地表達不同,需有人工標(biāo)注,無法使用計算機替代。由于人工標(biāo)注工作量巨大,不可能一蹴而就,應(yīng)以需求為導(dǎo)向逐步擴大。
3中醫(yī)數(shù)字化及模型建立是中醫(yī)藥大數(shù)據(jù)應(yīng)用的核心
世界上無論宏觀與微觀、整體與局部,任何不能以數(shù)學(xué)為基礎(chǔ)來表達的領(lǐng)域都不能成為科學(xué)。中醫(yī)的科學(xué)性受到質(zhì)疑,其根本問題就在于中醫(yī)理論無法用數(shù)字語言來表達。因此,盡早構(gòu)建中醫(yī)理論數(shù)字模型是中醫(yī)藥科學(xué)化、現(xiàn)代化面臨的重大問題之一,也是中醫(yī)藥大數(shù)據(jù)應(yīng)用的關(guān)鍵核心技術(shù)。本課題組嘗試應(yīng)用范式模型解決中醫(yī)數(shù)學(xué)模型問題:構(gòu)建中醫(yī)理論科學(xué)公式y(tǒng)i=f(xi)。中醫(yī)理論內(nèi)容豐富,但如果歸納為科學(xué)問題,最后就會形成一個問題,即通過什么方法根據(jù)不同的語言詞匯(癥狀、舌象、脈象)組合來推測出另一部分語言詞匯(藥物)的組合(處方)。用公式表達,即為yi=f(xi),yi表示藥物組合,xi表示癥狀組合,f表示函數(shù)。根據(jù)集合理論,xi可以理解為從整個癥狀集合[A]中抽取的不同元素的組合,即為集合A的子集,yi可理解為藥物集合[B]的子集。問題是yi和xi均是參與到函數(shù)f中計算的數(shù)值,如何來求這些值?如何來定義函數(shù)公式?3.1模糊數(shù)學(xué)方法賦值證藥信息。模糊集合論是1965年美國學(xué)者創(chuàng)立的研究有關(guān)非精確現(xiàn)象的理論,適應(yīng)中醫(yī)診療特點。模糊集合理論認(rèn)為,研究一門模糊領(lǐng)域的數(shù)學(xué)問題,首先要定義一個研究的范圍,或稱為討論的領(lǐng)域,簡稱論域[5]。論域確定后,在論域上賦值,即形成模糊集合。中醫(yī)的論域核心是藏象、陰陽五行等理論,歸納起來可以分為3類信息,即位置信息、性質(zhì)信息和狀態(tài)信息。位置信息包括五臟六腑、十二經(jīng)脈、奇經(jīng)八脈等;性質(zhì)信息包括氣血、陰陽、津液、瘀血、痰飲等;狀態(tài)信息包括升、降、浮、沉、生、克、乘、侮等。中醫(yī)的辨證就是根據(jù)這類信息來合成出很多證素,然后根據(jù)證素特征歸納為某一證候。中醫(yī)的每個癥狀都內(nèi)含著這3種信息的1種、2種或3種。如果把每一個癥狀在這3種信息上賦值(賦0、1或0、1、2、3),即可解決癥狀賦值問題。這是構(gòu)建整個模型的第一步,也是最基礎(chǔ)的一步。通過模型可以采用很多算法來產(chǎn)生證素。3.2矩陣分析方法構(gòu)建。yi=f(xi)矩陣的概念,是基于線性空間發(fā)展而來,矩陣分析是線性代數(shù)的延伸,即將實數(shù)域的分析擴展到復(fù)數(shù)域。通俗地講,矩陣分析可以用一定的公式來表示一個矩陣的特征或兩個矩陣的相似性。矩陣也可以理解為一個空間的值。根據(jù)矩陣的維度,零維矩陣代表空間的一個點;一維矩陣代表空間中的一條線;二維矩陣代表空間中的一個面;三維矩陣代表空間中的立體形狀。在一維矩陣(向量)中,矩陣中不同的值代表位于空間中不同方向和長度的線,通過計算這條線在空間中的位置和長度,可以比較兩個向量的相似程度。假如yi和xi均能轉(zhuǎn)化為矩陣,f是計算矩陣相似度的公式,yi=f(xi)即可建立起函數(shù)關(guān)系。3.3證素賦值法構(gòu)建。yi、xi中醫(yī)辨證論治的核心是根據(jù)癥狀找出證候,再用處方治療證候。眾多研究表明,證候是由證素所構(gòu)成,中藥處方也是對證素來設(shè)計的[6-10]。所以,構(gòu)建一個全證素論域,如[證素1、證素2、證素3、證素4……證素11],然后癥狀在每一個證素上賦值,即可得到單個癥狀的矩陣。下一步把癥狀在位置信息、性質(zhì)信息、狀態(tài)信息上所賦值轉(zhuǎn)化為在證素論域上賦值。這個可通過多種辦法解決,比如邏輯推理法、隨機森林計算法等。有單個癥狀的證素矩陣,通過一定的規(guī)則加權(quán)平均,將各個癥狀的證素矩陣合并成一個證素矩陣,即可得到y(tǒng)i轉(zhuǎn)化來的矩陣。通過以上方法,就可成功構(gòu)建中醫(yī)數(shù)字化模型。3.4人工智能構(gòu)建函數(shù)f建立函數(shù)f既可采用數(shù)字化模型,也可采用人工智能模型。前者屬于“白箱模型”,后者屬于“黑箱模型”。目前,公認(rèn)的效率及準(zhǔn)確性較高的人工智能模型主要是深度人工神經(jīng)網(wǎng)絡(luò)模型,如AM(attentionmodel)模型,這種模型主要用于語言轉(zhuǎn)換,即輸入若干個詞匯,轉(zhuǎn)換為同種文字或不同種文字的另外一些詞匯,并支持輸入與輸出字?jǐn)?shù)量的不等長度,非常適合于把癥狀組合轉(zhuǎn)換為藥物組合,從而完成yi=f(xi)的構(gòu)建,這里函數(shù)f就是AM模型。
4討論
中醫(yī)智能化診療是未來醫(yī)療發(fā)展的趨勢。目前,中醫(yī)智能化診療關(guān)鍵在于中醫(yī)診療的經(jīng)驗性、不確定性、模糊性難以轉(zhuǎn)化為線性邏輯。隨著人工智能的發(fā)展日漸成熟,多種模型可模擬人腦進行黑箱操作,處理非線性信息并可自適應(yīng)學(xué)習(xí)。白箱模型與黑箱模型各有優(yōu)劣,白箱模型的優(yōu)勢是不需要大量訓(xùn)練樣本,可根據(jù)已有知識賦值構(gòu)建模型,劣勢是模型預(yù)測結(jié)果準(zhǔn)確性需要通過多次調(diào)整賦值進行調(diào)試,一開始很難做成大而全的模型,只能從小模型逐漸擴展,比如先做某個病的模型;黑箱模型的優(yōu)勢是可做成大而全的模型,只要訓(xùn)練樣本支持,做成后可直接應(yīng)用,不足之處是需要有大量的真實有效的臨床病例作為訓(xùn)練樣本進行反復(fù)訓(xùn)練,并且最終的模型需要反復(fù)超參調(diào)優(yōu)。另外,白箱模型可以產(chǎn)生大量的模擬病例,供黑箱模型超參調(diào)優(yōu)使用。本文所述的關(guān)鍵技術(shù)均是經(jīng)過實踐探索過的。本研究在tensorflow系統(tǒng)環(huán)境下利用以上理論開發(fā)的算法成功建立了中醫(yī)數(shù)字化模型,可達到輸入癥狀產(chǎn)生處方的效果。利用該模型保存和共享名老中醫(yī)經(jīng)驗則非常理想,已在互聯(lián)網(wǎng)實現(xiàn)應(yīng)用?,F(xiàn)在國內(nèi)中醫(yī)藥大數(shù)據(jù)應(yīng)用僅停留在各平臺醫(yī)療數(shù)據(jù)的收集和名老中醫(yī)藥物應(yīng)用分析,不同數(shù)據(jù)庫無法銜接,形成大量數(shù)據(jù)孤島。本研究認(rèn)為,實現(xiàn)中醫(yī)藥大數(shù)據(jù)應(yīng)用的核心是中醫(yī)數(shù)字化模型。構(gòu)建理想的中醫(yī)數(shù)字化模型需要專業(yè)的計算機技術(shù)和扎實的中醫(yī)理論、豐富的中醫(yī)經(jīng)驗相結(jié)合,涉及中醫(yī)學(xué)、互聯(lián)網(wǎng)技術(shù)、人工智能等相關(guān)專業(yè)知識。要想盡快在中醫(yī)藥大數(shù)據(jù)應(yīng)用上產(chǎn)生明顯成果,僅靠互聯(lián)網(wǎng)技術(shù)和人工智能方面的人才是難以完成的,急需除中醫(yī)知識以外的,同時具備數(shù)學(xué)、統(tǒng)計學(xué)、人工智能及計算機知識的綜合型人才。中醫(yī)以其天人合一的思想傳承守護中華民族千年,也必將通過現(xiàn)代化智能化的手段將其應(yīng)用于全人類。
作者:潘玉穎 崔偉鋒 范軍銘 單位:河南省中醫(yī)藥研究院