甲型流感病毒數(shù)據(jù)挖掘研究
時間:2022-09-18 10:24:47
導(dǎo)語:甲型流感病毒數(shù)據(jù)挖掘研究一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1前言
流感是世界范圍內(nèi)受關(guān)注度比較高的傳染性疾病之一,每年導(dǎo)致300萬到500萬例嚴(yán)重疾病并有25萬到50萬例導(dǎo)致死亡。甲型流感病毒起源于野生水禽[1],由于物種屏障的限制,它們通常在禽鳥種群內(nèi)生存和進(jìn)化,無法感染其它種類的宿主。然而,經(jīng)過進(jìn)化中的位點突變以及基因重組的作用導(dǎo)致病毒發(fā)生了抗原漂移或抗原轉(zhuǎn)移,使得部分病毒獲得了跨越物種屏障并感染人類的能力[2]。利用數(shù)據(jù)挖掘技術(shù)研究甲型流感病毒的宿主偏好性可實現(xiàn)對新發(fā)流感病毒的宿主偏好作出預(yù)測,從而對人類公共健康發(fā)出預(yù)警提高防控效率。數(shù)據(jù)挖掘的各項技術(shù)已經(jīng)在眾多的領(lǐng)域取得了成功的應(yīng)用[3,4]。本文將利用決策樹展開對甲型流感病毒蛋白宿主偏好預(yù)測模型的研究,并通過關(guān)聯(lián)規(guī)則技術(shù)挖掘影響宿主偏好性的關(guān)鍵位點及位點上的氨基酸。
2基于決策樹的甲流病毒宿主偏好預(yù)測模型
2.1數(shù)據(jù)準(zhǔn)備。針對禽類和人類這兩個生物種群,收集病毒的10種蛋白氨基酸序列,由10種蛋白聯(lián)合構(gòu)成的序列代表該病毒毒株。實驗數(shù)據(jù)來源于NCBI流感病毒數(shù)據(jù)庫。在NCBI數(shù)據(jù)庫中獲取了198,611條禽類流感病毒蛋白質(zhì)序列和282,307條人類流感病毒蛋白質(zhì)序列。執(zhí)行數(shù)據(jù)清洗,對于原始數(shù)據(jù),除去有缺失值的序列。對于毒株序列,若某蛋白有缺失,則實驗不考慮該條毒株序列。H5N1和H7N9是已經(jīng)確定可發(fā)生宿主跳躍感染人類的兩種病毒亞型,具有較高的代表性及研究價值,篩選出這兩類亞型的蛋白數(shù)據(jù)作為小數(shù)據(jù)集,其余數(shù)據(jù)作為大數(shù)據(jù)集。將數(shù)據(jù)集中各蛋白及毒株序列做多序列比對,保證序列長度和位點的統(tǒng)一。比對完成后,將氨基酸信息轉(zhuǎn)化為數(shù)值從而將病毒蛋白序列轉(zhuǎn)化為向量并采用Min-Max方法對數(shù)據(jù)進(jìn)行變換實現(xiàn)標(biāo)準(zhǔn)化。2.2建立決策樹預(yù)測模型。將標(biāo)準(zhǔn)化后的數(shù)據(jù)導(dǎo)入決策樹模型,來自于人類宿主的蛋白劃分為正樣本,來自于禽類宿主的蛋白劃分為負(fù)樣本。建立決策樹常用算法為ID3、C4.5、CART算法,三種算法的區(qū)別是度量標(biāo)準(zhǔn)不一樣,分別是信息增益、信息增益比率和Gini指數(shù)。本文采用CART算法建立決策樹。CART算法如下:1)計算訓(xùn)練集樣本D的Gini指數(shù),之后利用樣本中每一個特征Att及Att的每一個可能取值att,根據(jù)Att與att的大小關(guān)系將樣本分為兩類,并計算Gini(D,Att)值;2)找出使得Gini指數(shù)Gini(D,Att)最小的最優(yōu)劃分特征及取值,并判斷是否停止劃分,否則,輸出最優(yōu)劃分點;3)遞歸調(diào)用1)、2);4)生成CART決策樹。在這些樹模型中,由蛋白質(zhì)序列的關(guān)鍵位點擔(dān)任決策節(jié)點對蛋白或病毒序列劃分。預(yù)測模型的所有訓(xùn)練均使用10倍交叉驗證。在10倍驗證交叉中,整個數(shù)據(jù)集被分為9個訓(xùn)練子集和1個測試子集。訓(xùn)練過程將使用9個子集訓(xùn)練,同時保留最后1個子集進(jìn)行測試,迭代10輪。最后數(shù)據(jù)集中的每個樣本都將被測試一次,以防止過度擬合問題。2.3決策樹分類模型結(jié)果分析。利用CART算法及10倍交叉驗證后將得到10個準(zhǔn)確率,即測試子集在模型上被分類正確的數(shù)量百分比,取其均值作為模型的準(zhǔn)確率。結(jié)果表明毒株的宿主偏好性決策樹預(yù)測模型在H5N1和H7N9亞型構(gòu)成的小數(shù)據(jù)集上準(zhǔn)確率達(dá)到95.17%,而在其它亞型構(gòu)成的大數(shù)據(jù)集上準(zhǔn)確率達(dá)到99.83%。而10個蛋白的平均準(zhǔn)確率在小數(shù)據(jù)集上為90.94%,大數(shù)據(jù)集上為98.86%。所有10種蛋白和毒株的決策樹預(yù)測模型都表現(xiàn)出了高預(yù)測性能。這10種流感病毒蛋白分類模型的高準(zhǔn)確率表明同種宿主的蛋白序列具有某些共性。分析大小數(shù)據(jù)集上的各蛋白及毒株準(zhǔn)確率,發(fā)現(xiàn)10種蛋白及毒株在大數(shù)據(jù)集上的分類模型準(zhǔn)確率要高于小數(shù)據(jù)集上的分類模型準(zhǔn)確率,表明在大數(shù)據(jù)集上的分類效果要優(yōu)于小數(shù)據(jù)集。這是由于實驗定義的小數(shù)據(jù)集僅包含H5N1和H7N9兩種亞型病毒。這兩類亞型病毒原來只是在禽類中傳播,發(fā)生突變后獲得了感染人類的能力。結(jié)果表明了這兩類亞型病毒相較于其余亞型病毒區(qū)分度較小,與這兩類亞型病毒感染人類的高風(fēng)險相一致。
3關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則分析用于發(fā)現(xiàn)項目間相互關(guān)聯(lián)的規(guī)則。例如,規(guī)則可以挖掘經(jīng)常與其他產(chǎn)品同時購買的特定產(chǎn)品。判定規(guī)則的條件是看支持度與置信度,規(guī)則的支持度是包含該規(guī)則的事務(wù)數(shù)量占比,而置信度是規(guī)則前后件同時出現(xiàn)的數(shù)量與規(guī)則前件出現(xiàn)的數(shù)量比值。置信度和支持度超過規(guī)定閾值的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。實驗中每個蛋白質(zhì)序列代表一個交易T,并且其中各位點氨基酸例如A,S,T,K,M,V屬于項目集I。所有的序列構(gòu)成一個D集。Y集包括2個分類標(biāo)簽:禽類宿主,人類宿主。關(guān)聯(lián)規(guī)則是形式XY的概念,其中XI。如果既包含X也包含Y的規(guī)則在D中出現(xiàn),那么該規(guī)則在D中有支持度,并且這個支持度是該規(guī)則出現(xiàn)的次數(shù)在D集中的比例。而置信度則是該規(guī)則在D中出現(xiàn)的次數(shù)與該規(guī)則前件X出現(xiàn)次數(shù)的比值。針對小數(shù)據(jù)集上的數(shù)據(jù)做關(guān)聯(lián)規(guī)則挖掘,尋找在突變導(dǎo)致宿主偏好改變過程中發(fā)揮作用的具體氨基酸位點。結(jié)果挖掘了一些影響宿主偏好性的氨基酸位點,例如規(guī)則(HA_617=S人類)的支持度為1.337%,表明有1.337%的人類毒株在HA蛋白的617號位置是絲氨酸,置信度為100%則表明了所有617號位點是絲氨酸的序列其宿主都為人類。另有一條規(guī)則(PB2_471=M&PB2_487=V禽類)的支持度為8.546%,置信度為100%,表明有近十分之一的禽類病毒PB2蛋白在471號位點是甲硫氨酸以及487號位點是纈氨酸,并且具有這樣的位點特征的病毒在人類PB2蛋白中沒有出現(xiàn)過。
4結(jié)語
本文利用數(shù)據(jù)挖掘計算技術(shù)針對甲型流感病毒的10種蛋白以及其聯(lián)合構(gòu)成的毒株序列構(gòu)建了決策樹分類預(yù)測模型,結(jié)果表明除了已經(jīng)被認(rèn)定的HA蛋白和PB2蛋白外,其余蛋白質(zhì)也表現(xiàn)出了對宿主偏好性的影響。同時,針對毒株構(gòu)建的預(yù)測模型能夠預(yù)測新型流感病毒,確定其宿主偏好,為甲型流感的早期防控提供預(yù)警。此外研究針對甲型流感病毒的10種蛋白及其宿主偏好挖掘關(guān)聯(lián)規(guī)則,找到了一些重要的位點,分析這些特定位點上的氨基酸,發(fā)現(xiàn)它們在不同宿主間差異顯著,這些位點將對研究甲型流感的跨種傳播研究提供一些線索。
參考文獻(xiàn)
[1]陳浦言.獸醫(yī)傳染病學(xué)(第五版)[M].北京:中國農(nóng)業(yè)出版社,2006.
[2]徐慧琳,張文彤,趙耐青,姜慶五.影響H5N1甲型流感病毒對哺乳動物毒力變異的HA序列關(guān)鍵位點研究[J].復(fù)旦學(xué)報(醫(yī)學(xué)版),2006,33(5):473-473.
[3]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(自然科學(xué)版),2004,32(2):246-252.
[4]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機(jī)研究與發(fā)展,2013,50(s2):216-233.
作者:王佳 丁雄飛 單位:華中農(nóng)業(yè)大學(xué)信息學(xué)院