期刊關(guān)鍵詞抽取方法

時間:2022-04-23 05:13:35

導(dǎo)語:期刊關(guān)鍵詞抽取方法一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

期刊關(guān)鍵詞抽取方法

1引言

關(guān)鍵詞是與文章內(nèi)容和主旨密切相關(guān)的短語,被廣泛應(yīng)用于新聞報道、學(xué)術(shù)期刊等領(lǐng)域。關(guān)鍵詞可以提高文檔的管理和檢索效率,還可以為一些文本挖掘任務(wù)提供豐富的語義信息,例如文檔的分類、聚類、檢索、分析和主題搜索等任務(wù)[1]。期刊的關(guān)鍵詞對應(yīng)學(xué)術(shù)期刊中的keywords部分,包含簡單關(guān)鍵詞(SimpleWord,SW)和復(fù)雜關(guān)鍵詞(ComplexWord,CW)兩大部分,其中SW表示由一個簡單詞組成的關(guān)鍵詞,CW表示由多個簡單詞組成的關(guān)鍵詞。根據(jù)IEEEExplorer[2]統(tǒng)計數(shù)據(jù)顯示,每年約有24萬篇新學(xué)術(shù)期刊被收錄。根據(jù)某些學(xué)科期刊的要求,在文獻發(fā)表時作者需要在期刊中對關(guān)鍵詞進行注明。但仍有一些學(xué)科的出版物與早期發(fā)行的期刊、書籍、文獻的部分章節(jié)不包含關(guān)鍵詞等信息。缺乏關(guān)鍵詞會在期刊的查閱和參考過程中造成困難。雖然可以使用索引對全文進行檢索,但這種方法工作量大、且檢索結(jié)果依賴于分詞效果,難以給出準確的檢索結(jié)果。而關(guān)鍵詞抽取就是從文章中選擇一小部分單詞或短語來描述文章重要內(nèi)容[3]。因此,需要尋找一種有效的期刊關(guān)鍵詞抽取方法。針對傳統(tǒng)方法的不足并結(jié)合最新研究成果,本文提出了一種基于融合詞性的BiLSTM-CRF的期刊關(guān)鍵詞提取方法。在實現(xiàn)數(shù)據(jù)時序和語義信息挖掘的同時,也保證了單詞與單詞之間的關(guān)聯(lián)性。在真實數(shù)據(jù)上的實驗結(jié)果表明融合詞性的BiLSTM-CRF模型是一種有效的期刊關(guān)鍵詞自動抽取方法。

2相關(guān)工作

目前,關(guān)鍵詞抽取任務(wù)主要有兩種方法,基于無監(jiān)督的方法和基于有監(jiān)督的方法[4,5]:2.1基于無監(jiān)督的方法:無監(jiān)督方法僅通過一些事先規(guī)定的關(guān)鍵詞權(quán)重的量化指標,計算權(quán)重排序關(guān)鍵詞重要性來實現(xiàn)。TFIDF是字符串頻率關(guān)鍵詞[6,7]抽取的一種典型方法,其本質(zhì)是無監(jiān)督的,可以簡單快捷的進行關(guān)鍵詞抽取。該方法僅掃描語料庫一次,即可獲得所有單詞的文本頻率。但除了詞頻之外,仍需要考慮許多因素,例如詞的詞性以及在文本中的位置等。為了提高該方法的性能,必須人工的對其許多規(guī)則進行設(shè)計[5]。在新聞領(lǐng)域,字符串頻率方法比有監(jiān)督的機器學(xué)習(xí)方法更有效。因為機器學(xué)習(xí)的方法在模型訓(xùn)練時需要花費大量的時間,并且文檔需要標注。其次,每天都會發(fā)生新事件,新聞的內(nèi)容具有多樣性。但無監(jiān)督方法只提供了單詞在文本中的相對重要程度,無法有效地綜合利用詞法和語義信息對候選關(guān)鍵詞進行排序[8]。2.2基于有監(jiān)督的方法:有監(jiān)督的方法將關(guān)鍵詞抽取問題視為判斷每個候選關(guān)鍵詞是否為關(guān)鍵詞的二分類問題,它需要一個已經(jīng)標注關(guān)鍵詞的文檔集合來訓(xùn)練分類模型,即通過在一個有標注的數(shù)據(jù)集上訓(xùn)練分類器,以便決定候選詞中哪些是關(guān)鍵詞。不同的機器學(xué)習(xí)算法可以訓(xùn)練出不同的分類器,如樸素貝葉斯[9],決策樹[10]、最大熵算法[11]和支持向量機[12]等是關(guān)鍵詞抽取中的代表性方法,通過大量數(shù)據(jù)來訓(xùn)練分類器??梢娪斜O(jiān)督方法可以利用更多信息具有更大的優(yōu)勢,且實驗效果比無監(jiān)督方法好[4]。這種方法具有較高的準確性和較強的穩(wěn)定性,但需要很大的語料庫,且所有文本需要進行標注。標注人員具有一定的主觀性并且標注任務(wù)具有復(fù)雜性。不同的標注人員在進行同一個文本的標注時,具有不同的認知和看法,標注的質(zhì)量會影響模型的性能。并且上述方法都將關(guān)鍵詞抽取問題視為一個二分類問題,對每個單詞獨立處理,忽略了文本結(jié)構(gòu)信息。為解決該問題,可以將關(guān)鍵詞抽取問題轉(zhuǎn)化為序列標注問題,常用的模型有最大熵模型(MaximumEntropy,ME),隱馬爾科夫模型(HiddenMarkovModel,HMM),條件隨機場模型(ConditionalRandomField,CRF)。其中CRF模型的應(yīng)用最為廣泛,性能也最好,可以較為精確的實現(xiàn)關(guān)鍵詞的有效提取,但卻需要人工設(shè)計特征,特征設(shè)計的優(yōu)劣與否將會直接影響到模型的性能和最終的抽取效果。隨著深度學(xué)習(xí)的不斷發(fā)展,深度神經(jīng)網(wǎng)絡(luò),尤其是長短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM)模型,前一時刻隱藏層的信息可以加入到當(dāng)前時刻的輸出,通過LSTM層可以高效地利用上下文信息,處理長序列依賴問題。通過結(jié)合LSTM模型和CRF模型,綜合利用多種信息,可以使得效果更好[13]。在近期的研究中,已有學(xué)者將BiLSTM-CRF網(wǎng)絡(luò)模型用于開放式關(guān)系抽取[14]、命名實體識別[15]、中文分詞[16]等自然語言處理任務(wù)中。Alzidy等已經(jīng)將BiLSTM-CRF網(wǎng)絡(luò)用于關(guān)鍵詞抽取任務(wù)中[17],使用固定的詞嵌入來表示單詞,輸入網(wǎng)絡(luò),得到序列標注結(jié)果。

3融合詞性與BiLSTM-CRF的抽取模型

針對從文本中自動抽取關(guān)鍵詞的問題,現(xiàn)有的解決方法大多基于二分類的思想。這種方法忽略了單詞之間的關(guān)聯(lián)性,將每個詞視為獨立的部分,因此無法通過聯(lián)系上下文來準確把握文的有效信息,從而導(dǎo)致模型具有較差的關(guān)鍵詞抽取能力。針對該問題,本文結(jié)合條件隨機場與深度學(xué)習(xí)中雙向長短期記憶網(wǎng)絡(luò)(BidirectionalLongShortTermMemory,BiLSTM)模型可以自動提取特征的優(yōu)勢,將期刊關(guān)鍵詞的抽取問題轉(zhuǎn)化為序列標注問題,提出了融合詞性與BiLSTM-CRF的期刊關(guān)鍵詞抽取方法。融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型如圖1所示:關(guān)鍵詞自動抽取模型共包含三大部分:(1)對期刊文本進行分詞和詞性標注的預(yù)處理;(2)將預(yù)處理后的文本使用word2vec模型進行WordEmbedding向量化,獲取字詞的向量表達式;(3)使用BiLSTM-CRF模型實現(xiàn)關(guān)鍵詞的自動抽取。3.1特征提?。海?)詞性標注在關(guān)鍵詞組合的過程中,可能會采用不同的詞性組合方式,但通過對期刊中大量的關(guān)鍵詞研究發(fā)現(xiàn),期刊中的關(guān)鍵詞一般由名詞,形容詞和動詞組合形成[13],因此在實驗中需要對詞性進行標注,例如:信號控制單元(n+vn+n),高性能電池(ad+n),其中,n表示名詞,vn表示動詞,ad表示形容詞。加入詞性特征對期刊關(guān)鍵詞的識別有一定作用。(2)依存句法分析依存句法分析就是確定一個句子中詞語與詞語之間的依存關(guān)系或者對句子的句法結(jié)構(gòu)進行分析。詞語之間的依存關(guān)系主要有介賓關(guān)系、動賓關(guān)系、主謂關(guān)系等。本文采用語言技術(shù)平臺[18](LanguageTechnologyPlatform,LTP),對期刊文本進行依存句法分析,通過過濾不可能組成關(guān)鍵詞的依存關(guān)系,可以提高識別關(guān)鍵詞的效果。(3)詞向量表示本文采用Word2Vec模型[19]中的Skip-gram模型[21]來訓(xùn)練詞向量。Skip-gram模型是在已知當(dāng)前詞語的情況下,去預(yù)測上下文信息。模型的目的是要學(xué)到好的詞向量表示,然后能夠很好的預(yù)測它上下文的詞語。Skip-gram模型如圖2所示。在訓(xùn)練詞向量的過程中分別將詞、詞性、依存句法分析等特征通過word2vec工具轉(zhuǎn)換成詞向量表示,詞的維度為200維,詞性和依存句法分析的維度分別為10維,最后通過嵌入式向量引入模型進行融合,生成最終的特征向量表示。3.2LSTM網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[20]被廣泛應(yīng)用于命名實體識別、語音識別等自然語言處理任務(wù)中,具有記憶歷史信息的能力,能夠使模型通過長距離的特征對當(dāng)前的輸出進行預(yù)測。但隨著RNN網(wǎng)絡(luò)深度和訓(xùn)練時長的增加,在對較長序列數(shù)據(jù)處理時存在梯度消失和梯度爆炸的問題。LSTM網(wǎng)絡(luò)與傳統(tǒng)的RNN具有相似的網(wǎng)絡(luò)結(jié)構(gòu),通過使用專門構(gòu)建的記憶細胞代替RNN網(wǎng)絡(luò)中隱藏層的更新模塊,使LSTM網(wǎng)絡(luò)具有發(fā)現(xiàn)和探索數(shù)據(jù)中長時間的依賴信息的能力。LSTM的神經(jīng)元結(jié)構(gòu)如圖3[21]所示。由上圖可知,LSTM模型使用門結(jié)構(gòu)對細胞狀態(tài)進行保持和更新,一個LSTM存儲單元主要由輸入門(i),輸出門(o),遺忘門(f)和記憶細胞(c)組成。LSTM模型可以通過下列公式實現(xiàn):其中,σ表示Sigmoid函數(shù),tanh是雙曲正切函數(shù),t表示當(dāng)前時刻,t-1表示前一時刻,it、ft、ot、ct分別表示當(dāng)前時刻輸入門、遺忘門、輸出門和記憶細胞的輸出,W和b分別表示模型訓(xùn)練過程中的權(quán)重矩陣和偏置向量。在序列標注任務(wù)中,由于引入了記憶單元和門結(jié)構(gòu),在輸入句子較長時,可以防止距離當(dāng)前詞語較遠但依賴關(guān)系較強的信息被遺忘。本文定義標簽集{B,M,E,O},其中,B表示CW的首部和SW,M表示CW的中部,E表示CW的尾部,O表示其他文本,LSTM模型[22]如圖4所示。在對期刊的關(guān)鍵詞進行抽取時,通常需要在給定時間訪問過去或未來的輸入特征,而單向LSTM網(wǎng)絡(luò)只能處理和存儲前一時刻信息,因此可以使用圖5所示的雙向LSTM網(wǎng)絡(luò)[22]來完成該任務(wù)。這樣可以在指定的時間范圍內(nèi)有效地使用上下文信息。其中,過去的特征通過Forward狀態(tài)獲取,未來的特征通過Backward狀態(tài)獲取。然后使用時間的反向傳播來訓(xùn)練BiLSTM網(wǎng)絡(luò)。隨著時間推移,在展開的網(wǎng)絡(luò)上進行的前向和后向傳播與傳統(tǒng)網(wǎng)絡(luò)的前向和后向傳播類似,但需要設(shè)置隱藏狀態(tài)。在對整個句子進行前向和后向傳播的時候僅需要在句子的開頭將隱藏狀態(tài)重置為0。由圖5可知,BiLSTM網(wǎng)絡(luò)可以同時獲取較長語句的前后文信息,保證了上下文之間的依賴關(guān)系。在期刊關(guān)鍵詞抽取任務(wù)中,若起始詞為關(guān)鍵詞,LSTM網(wǎng)絡(luò)會忽略語句開頭與結(jié)尾間的依賴關(guān)系,因此會導(dǎo)致誤判。因此,BiLSTM模型為有效的進行關(guān)鍵詞抽取奠定了基礎(chǔ)。3.3融合詞性特征的BiLSTM-CRF模型:條件隨機場是一種針對序列標注問題效果最顯著的條件概率模型,其本質(zhì)是一個無向圖模型。本文在BiLSTM模型的基礎(chǔ)上,結(jié)合CRF處理序列標注問題的天然優(yōu)勢,有效的引入標簽之間的轉(zhuǎn)移關(guān)系,構(gòu)建轉(zhuǎn)移狀態(tài)矩陣,從而更有效的實現(xiàn)關(guān)鍵詞的自動抽取。將BiLSTM網(wǎng)絡(luò)和CRF網(wǎng)絡(luò)整合為BiLSTM-CRF模型,如圖6所示。通過BiLSTM網(wǎng)絡(luò),模型可以有效的利用過去的輸入特征和未來的輸入特征挖掘期刊文本數(shù)據(jù)的隱含特征,通過CRF層,利用狀態(tài)轉(zhuǎn)移矩陣模型可以有效的利用過去和未來的文本的標簽信息預(yù)測當(dāng)前的標簽。由圖6可知,BiLSTM-CRF主要包含WordEmbedding向量化,BiLSTM網(wǎng)絡(luò),CRF三個部分。模型的輸入為分詞和進行詞性標注后的序列文本。在WordEmbedding向量化過程中使用Word2Vec模型[19]通過訓(xùn)練后,根據(jù)給定的語料庫可以快速有效地把對文本內(nèi)容的處理簡化為K維向量空間中的向量運算,將一個詞語表達成向量形式,從而可以使用向量空間上的相似度來表示文本語義上的相似度。本文使用Word2Vec模型中的Skip-Gram模型,通過給定單詞來預(yù)測上下文信息,使用無監(jiān)督的方式通過學(xué)習(xí)文本來用詞向量的方式表征詞的語義信息。將獲取的融合詞性后的詞向量輸入BiLSTM網(wǎng)絡(luò)中,得到包含前后文信息的文本序列的雙向表達,通過CRF預(yù)測最終的標簽序列。

4實驗結(jié)果與分析

本文使用中國知網(wǎng)的期刊數(shù)據(jù),實驗數(shù)據(jù)包括基礎(chǔ)科學(xué)、工程科技Ⅰ輯、工程科技Ⅱ輯、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、哲學(xué)與人文科學(xué)、社會科學(xué)Ⅰ輯、社會科學(xué)Ⅱ輯、信息科技、經(jīng)濟與管理科學(xué)10個大類以及168個二級分類。實驗期刊數(shù)據(jù)是1989年到1992年約300萬的期刊量。其中每篇期刊數(shù)據(jù)包括來源庫、題名、作者、單位、文獻來源、關(guān)鍵詞、摘要、發(fā)表時間、第一責(zé)任人、基金、年、期、卷、期、頁碼等數(shù)據(jù)項。在實驗過程中,需要在保證數(shù)據(jù)多樣性的同時確保數(shù)據(jù)的有效性,因此從采集到的期刊數(shù)據(jù)中的各個大類和二級分類中隨機選出5040篇作為訓(xùn)練數(shù)據(jù)集,1680篇作為驗證數(shù)據(jù)集,1680篇作為測試數(shù)據(jù)集。本實驗采用融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型,需要在WordEmbedding詞向量的訓(xùn)練過程中結(jié)合期刊的詞性特征。同時,論文的題目和摘要最能表達文章的核心內(nèi)容,所以在實驗過程中,本文使用jieba分詞工具對獲取的期刊數(shù)據(jù)的摘要和題目進行分詞和詞性標注處理,除了對測試數(shù)據(jù)進行中文分詞和詞性標注處理外,不進行任何數(shù)據(jù)預(yù)處理操作。通過模型獲取最終的關(guān)鍵詞抽取結(jié)果并與期刊數(shù)據(jù)中的獲取關(guān)鍵詞進行比對,得到最終的實驗結(jié)果。數(shù)據(jù)的標注樣例如表1所示,本文將關(guān)鍵詞抽取問題轉(zhuǎn)換為序列標注問題,定義標簽集{B,M,E,O},其中,B表示CW的中部,E表示CW的尾部,O表示其他文本。標注樣例如表1所示:4.1評價指標:為度量模型的性能病并驗證本文所提模型的準確性和有效性,在實驗中采用準確率(Precision,P)、召回率(Recall,R)和F值(Fscore)對關(guān)鍵詞抽取模型的性能進行評價,將模型抽取的關(guān)鍵詞與原始期刊文獻中的關(guān)鍵詞進行對比,可以得到:準確率P,召回率R和F值得取值范圍均為0到1,P越大表示抽取出的關(guān)鍵詞正確率越高,R越大表示越多的關(guān)鍵詞被正確抽取,F(xiàn)值是基于P和R的調(diào)和平均定義的,故F值越大則表示模型的性能越好,當(dāng)取值為1時,表示所有的關(guān)鍵詞均被正確的抽取。4.2實驗結(jié)果與分析本文實驗均在硬件配置為Nvidia1080Ti顯卡,I77700K處理器,64G運行內(nèi)存,運行環(huán)境為Ubuntu16.04操作系統(tǒng)的計算機上實現(xiàn)的。編程語言為python3.5,模型的搭建使用TensorFlow框架。實驗過程中,期刊關(guān)鍵詞抽取模型的超參數(shù)設(shè)置可能會對實驗結(jié)果產(chǎn)生直接影響。為確定參數(shù)設(shè)置對模型性能的影響,使模型性能最優(yōu),本文開展了大量的超參數(shù)比選實驗。實驗結(jié)果表明詞向量和詞性向量的維度對實驗結(jié)果具有較大影響,而BiLSTM網(wǎng)絡(luò)模型中的參數(shù)對實驗結(jié)果的影響較小。在比選實驗后,最終關(guān)鍵詞抽取模型的參數(shù)設(shè)置如表2所示:為確定所提融合詞性的BiLSTM-CRF模型對期刊關(guān)鍵詞的抽取的有效性,本文共設(shè)置了五組實驗進行對比。將本文模型與LSTM模型,BiLSTM模型,BiLSTM-CRF模型,融合詞性的BiLSTM模型,融合詞性的BiLSTM-CRF模型進行對比,并分別設(shè)置實驗編號為Case1,Case2,Case3,Case4,Case5。不同模型組合得到的實驗結(jié)果如表3所示:表3不同Case2是在Case1的基礎(chǔ)上將LSTM模型改進為BiLSTM模型,無論是在CW還是SW的層面上,準確率,召回率和F值都得到了提升,表明BiLSTM模型更適合作為基礎(chǔ)深度神經(jīng)網(wǎng)絡(luò)進行關(guān)鍵詞抽取。Case4是在Case2的基礎(chǔ)上融入詞性特征,在CW和SW上,F(xiàn)值分別從82.73%和44.27%增加到83.43%和47.19%。分別提升了0.70%和2.92%。而Case3和Case5則分別在Case2和Case4的基礎(chǔ)上加入CRF模型,就CW而言,兩組對比實驗的準確率分別提升了0.42%和2.05%,召回率分別提升了2.46%和2.79%,F值分別提升了1.46%和2.43%,就SW而言,兩組對比實驗的準確率分別提升了5.62%和10.06%,召回率分別提升了5.93%和9.19%,F值分別提升了5.82%和9.62%。實驗結(jié)果表明,在加入CRF模型后,關(guān)鍵詞的自動提取性能在SW層面上的提升比在CW層面上的提升更為顯著,融入詞性特征后模型性能的提升比未加入詞性特征的模型性能的提升更為顯著。同時可以看出,在BiLSTM模型的基礎(chǔ)上,加入CRF模型比僅融入詞性特征對模型的提升更為顯著,這是由于在訓(xùn)練模型的過程中,CRF可以自動學(xué)習(xí)一些約束添加至最終的預(yù)測標簽中,保證預(yù)測結(jié)果的有效性,在模型訓(xùn)練過程中,這些約束可以通過CRF模型自動學(xué)習(xí)到。在五組對比試驗中,無論是CW還是SW,融合詞性的BiLSTM-CRF模型均獲得最高的F值,模型對關(guān)鍵詞的抽取能力更強。為進一步證明方法的有效性,將本文方法與三種常用的關(guān)鍵詞抽取方法:TextRank[23]SGRank[24]SingleRank[25]行比較,實驗結(jié)果如表4所示:BiLSTM-CRF模型性能顯著優(yōu)于三種常用的關(guān)鍵詞抽取方法。在三種無監(jiān)督的算法中,SGRank對CW和SW類關(guān)鍵詞提取的準確率,召回率和F值均優(yōu)于其余兩種算法。結(jié)合表3中的實驗結(jié)果,使用到的方法均不能有效抽取CW類關(guān)鍵詞,需要在后續(xù)的研究中更為充分的考慮文本中的上下文等有效信息來解決這一問題。

本文針對傳統(tǒng)BiLSTM網(wǎng)絡(luò)忽略了文本結(jié)構(gòu)信息以及人工抽取特征困難的問題,提出了一種基于融合詞性的BiLSTM-CRF的關(guān)鍵詞抽取方法。該方法將關(guān)鍵詞自動抽取問題轉(zhuǎn)化為序列標注問題,在傳統(tǒng)BiLSTM網(wǎng)絡(luò)的輸出層后加入CRF模型,可以自動學(xué)習(xí)一些約束并添加至最終的預(yù)測標簽中,使得最終的輸出標簽前后具有關(guān)聯(lián)性。同時,在輸出網(wǎng)絡(luò)時,顯性的加入詞性特征,構(gòu)成最終的詞向量矩陣。實驗結(jié)果表明,本文提出的基于融合詞性的BiLSTM-CRF模型相較未加入CRF以及未融合詞性的模型具有更高的準確率,召回率和F值,是一種有效的關(guān)鍵詞自動抽取方法。但是本文的方法仍存在一定的局限性,針對CW類型的關(guān)鍵詞抽取問題,模型性能較差。在未來的研究中,需要著重解決對復(fù)雜關(guān)鍵詞的自動抽取問題并進一步提升對簡單關(guān)鍵詞的自動抽取的準確率,結(jié)合其他有效信息對模型進行改進,進一步提升對關(guān)鍵詞的自動抽取效果。

作者:成彬 施水才 都云程 肖詩斌