復雜網(wǎng)絡方法在數(shù)據(jù)挖掘的應用
時間:2022-01-13 09:46:53
導語:復雜網(wǎng)絡方法在數(shù)據(jù)挖掘的應用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
使用復雜網(wǎng)絡方法進行中藥配伍規(guī)律挖掘相比于傳統(tǒng)方法擴展性更強,挖掘深度更深,目前已成為分析和研究重要配伍規(guī)律的有力工具。本文在介紹復雜網(wǎng)絡相關概念的基礎上,給出了使用重疊社團發(fā)現(xiàn)算法進行中藥配伍規(guī)律挖掘的三種主要方法,并介紹了這些方法在中藥配伍規(guī)律研究中應用的案例。最后對相關方法進行總結和展望。
中藥復方是指在遵循中醫(yī)用藥規(guī)則的前提下,使用多種藥物混合組成的方劑。方劑中藥物之間的配伍組合有著復雜的聯(lián)系和約束,這種聯(lián)系和約束是根據(jù)藥物作用、禁忌關系、藥性藥效、病癥原由等所建立的具有科學依據(jù)的相互關系。通過研究方劑中藥物配伍關系,對于揭示用藥配伍合理性、建立健全用藥科學依據(jù)具有重要的意義。傳統(tǒng)的中藥配伍數(shù)據(jù)挖掘方法基于統(tǒng)計學的研究方法,如統(tǒng)計值法、聚類算法、關聯(lián)規(guī)則方法等,這些方法只能挖掘淺層次的藥物間關系,但無法揭示藥物間深層次的聯(lián)系[1]。而復雜網(wǎng)絡方法的引入可以為研究重要配伍規(guī)律提供新的方法和手段。
1復雜網(wǎng)絡概述
復雜網(wǎng)絡(ComplexNetwork),是一種特殊的網(wǎng)絡結構,它是將復雜系統(tǒng)中的元素抽象為節(jié)點,元素間的關系抽象成邊的網(wǎng)絡結構模型,并不是所有的網(wǎng)絡都屬于復雜網(wǎng)絡,它需要滿足如下的三個特征:(1)小世界特性(SmallWorld),即網(wǎng)絡中點與點之間的特征路徑長度值小,接近隨機網(wǎng)絡,但網(wǎng)絡的聚合系數(shù)卻很高,接近規(guī)則網(wǎng)絡[2]。(2)無標度特性(Scale-free),即在網(wǎng)絡中少數(shù)節(jié)點的度值會很大,而大部分節(jié)點卻很小,節(jié)點的度值分布符合冪率分布規(guī)律[3]。(3)社團結構特性,復雜網(wǎng)絡中的節(jié)點往往會呈現(xiàn)出集群特性,即社團區(qū)域內(nèi)部節(jié)點之間的聯(lián)系非常強,而社團內(nèi)節(jié)點與社團外節(jié)點的聯(lián)系明顯減弱。由于中醫(yī)用藥博大精深,方劑中藥物類型多且配伍關系復雜,這種關系很適合利用復雜網(wǎng)絡模型來表達,同時諸多論文也驗證了使用藥物作為節(jié)點,藥物間關系作為邊所建立的網(wǎng)絡模型具有復雜網(wǎng)絡的相關特性,基于建立在中藥復雜網(wǎng)絡模型上的數(shù)據(jù)挖掘方法已經(jīng)成為分析中醫(yī)用藥配伍規(guī)律,闡明中藥配伍科學內(nèi)涵的有力工具。近年來,憑借復雜網(wǎng)絡良好的擴展性和內(nèi)在發(fā)掘機制,使得復雜網(wǎng)絡與中藥理論得到了有機地結合,孫正等[4]提取藥物藥性中的“性味”“歸經(jīng)”“功效”,在向量空間模型上建立藥物屬性模型,提出了一種基于藥物屬性相似度的度量方法,并使用復雜網(wǎng)絡方法進行分析;周偉等[5]從藥物與病癥關系角度,基于藥物在方劑中出現(xiàn)的次數(shù),提出藥物效用度的概念,并進行組網(wǎng)和核心藥物配伍規(guī)律挖掘;劉思鴻等[6]通過網(wǎng)絡藥理學方法構建“中藥-成分-靶點-疾病”網(wǎng)絡,可從靶點的作用通路和功能角度,闡明中藥復方的多通路、多層次協(xié)同整合作用,為中藥治療疾病的分子機制提供了一種分析思路。這些嘗試使利用復雜網(wǎng)絡方法進行中藥配伍規(guī)律挖掘的應用更加廣泛。
2復雜網(wǎng)絡進行中醫(yī)藥數(shù)據(jù)挖掘的方法
中藥復雜網(wǎng)絡中藥物配伍發(fā)現(xiàn)的過程可以歸結為復雜網(wǎng)絡社團檢測算法的應用。社團檢測(CommunityDetection)又稱為社團發(fā)現(xiàn),該方法基于聚類的思想來實現(xiàn)具有相同特性節(jié)點的聚集。2004年,Newman提出了一種模塊度(Modularity)的概念,從而使得網(wǎng)絡社團劃分的優(yōu)劣可以有一個明確的評價指標來衡量[7],使得社團發(fā)現(xiàn)算法更加的系統(tǒng)化。按照聚集的結果可以將社團發(fā)現(xiàn)算法歸為非重疊社團發(fā)現(xiàn)和重疊社團發(fā)現(xiàn)兩種,這里的主要差別是同一節(jié)點是否會劃分到多個聚類社團當中,很明顯在中藥配伍規(guī)律研究中一種藥可以出現(xiàn)在多個配伍之中。因此,針對中藥配伍規(guī)律的研究主要采用的是重疊社團發(fā)現(xiàn)算法,目前常用的方法主要有如下三種[8]:
2.1派系過濾算法
派系過濾算法[9](CliquePercolationMethodCPM)是第一個被提出的重疊社團發(fā)現(xiàn)算法,該方法將社團定義為一類由全連通子圖構成的集合,從網(wǎng)絡中找出所有大小為k的全連通子圖作為一個社團,由于一個點可以在多個連通子圖中,因此可實現(xiàn)重疊社團的發(fā)現(xiàn)。使用CPM算法進行中藥配伍規(guī)律研究在早期應用的比較多。黃源等[10]針對慢性阻塞性肺疾病的4種證型(肺腎兩虛、痰濕蘊肺、痰瘀阻肺、痰熱壅肺)分別建立復雜網(wǎng)絡子網(wǎng)絡,使用派系過濾算法發(fā)現(xiàn)含藥在10以上的基本方;李茹等[11]通過引入屬性擴展圖建立治療肺痿中藥用藥的復雜網(wǎng)絡模型,使用CPM派系算法,設定k值為4,共獲得19個有價值的藥物社團。
2.2局部擴展算法
該方法主要采用局部擴張的方法,根據(jù)擴展特性而快速確定社團范圍的一種貪心算法。2009年,Lancichinetti等[12]首次提出了局域擴展的重疊社團挖掘算法(LocalFitnessMeasureLFM)。該方法首先隨機選擇一個種子節(jié)點,然后按照規(guī)則不斷地向外擴張構建社團,當適應函數(shù)達到局部最優(yōu)時完成構建過程。這種方法由于設計簡單,快速有效,在中醫(yī)藥配伍挖掘領域應用廣泛;周偉等在建立肺痿用藥復雜網(wǎng)絡的基礎上,定義了一個節(jié)點對社團的效用度增量,采用LFM貪心算法的思想選擇核心藥物作為種子節(jié)點進行社團擴展,共發(fā)現(xiàn)30個藥物組合;韓楠等[13]根據(jù)中藥方劑特性并結合點互式信息構建TCM網(wǎng)絡模型,基于LFM算法改進社團擴展方法,實現(xiàn)中藥配伍組合的有效挖掘;楊銘等[14]通過對藥物配伍網(wǎng)絡的極大團求解算法(LFM算法的改進)得到中醫(yī)藥治療肺癌的核心有效處方;嚴明等[15]針對連花清瘟膠囊治療上呼吸道感染臨床用藥方案建立復雜網(wǎng)絡,使用基于Louvain聚類方法(一種局部擴展算法)進行分析與研究。
2.3標簽傳遞算法
Zhu等人[16]首先提出了標簽傳遞算法(LabelPropa-gationAlgorithmLPA)的概念,該算法的思想是首先為每一個節(jié)點添加一個唯一的標簽,然后根據(jù)該節(jié)點周圍鄰居節(jié)點中出現(xiàn)頻率最高的標簽來更新該節(jié)點的標簽,最后將具有相同標簽的節(jié)點歸為同一社團。該方法最早應用于非重疊社團的發(fā)現(xiàn),Gregory[17]基于該算法進行了改進,將每個節(jié)點可標記標簽的個數(shù)設置為多個(COPRA算法),從而實現(xiàn)了重疊社區(qū)的發(fā)現(xiàn),如圖1所示是該方法的運算過程。標簽傳遞算法是目前中藥配伍復雜網(wǎng)絡方法中應用較多的一種,孫道平等[18]根據(jù)方劑藥物貢獻度進行組網(wǎng),使用改進的標簽傳遞算法COPRA進行社團發(fā)現(xiàn),挖掘中藥配伍規(guī)律;呂慶莉[1]以腦血管疾病用藥為例構建中藥用藥屬性擴展網(wǎng)絡,并使用改進的重疊社團發(fā)現(xiàn)算法CO-PRA進行方劑配伍規(guī)律的發(fā)掘和分析;馬寧等[19]在構建中藥復雜網(wǎng)絡引入了方劑中“君臣佐使”藥物權重及藥量,使用一種保留歷史標簽的標簽傳遞算法SLPA進行配伍規(guī)律的挖掘;張胤穎[20]建立藥物節(jié)點、藥物性味節(jié)點、藥物歸經(jīng)節(jié)點、藥物功效節(jié)點4種節(jié)點的風濕方劑用藥復雜網(wǎng)絡模型,并使用COPRA算法進行用藥社團獲取。
3總結與展望
本文探討了使用復雜網(wǎng)絡重疊社團發(fā)現(xiàn)算法進行中藥配伍規(guī)律挖掘的幾種方法,涵蓋面并不一定很全,但包含了幾種主要的挖掘方法,雖然這些方法各自有各自的優(yōu)勢,但也都存在改進的地方,例如,派系過濾算法的挖掘效果受k值設定大小的影響很大,局部擴展算法受備選種子質(zhì)量的好壞影響,標簽傳遞算法識別精度不穩(wěn)定,需要人為設定閾值等諸多問題,但這些方法提供給了研究人員進行中藥復方配伍規(guī)律挖掘的一些新思路和新手段,同時提供了一些有價值的研究成果。在將來隨著在這些方法上的持續(xù)改進以及與中藥理論的深度結合,相信會產(chǎn)生更多有價值和意義的研究成果。
作者:馬寧 邢俊鳳 宋寬 單位:內(nèi)蒙古科技大學包頭醫(yī)學院計算機科學與技術學院