Attention-Based LSTM算法及文本分類模型分析

時(shí)間:2022-08-19 11:06:11

導(dǎo)語(yǔ):Attention-Based LSTM算法及文本分類模型分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

Attention-Based LSTM算法及文本分類模型分析

摘要:本次研究針對(duì)文本數(shù)據(jù)處理工作中的文本分類項(xiàng)目提出了一套基于attention-basedlstm算法的分類模型,根據(jù)Atten-tion-Model的基本原理對(duì)Attention-BasedLSTM算法數(shù)據(jù)處理方式進(jìn)行了詳細(xì)介紹。最后將Attention-BasedLSTM算法應(yīng)用于來(lái)自國(guó)內(nèi)外主流門戶網(wǎng)站文本數(shù)據(jù)的分類處理工作。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),Attention-BasedLSTM算法相比于常規(guī)LSTM算法和Bi-LSTM體現(xiàn)出了更高的分類準(zhǔn)確率水平,在文本數(shù)據(jù)處理方面具有一定的應(yīng)用價(jià)值。

關(guān)鍵詞:數(shù)學(xué)模型;文本分類;Attention-BasedLSTM算法

1引言

在自然語(yǔ)言處理領(lǐng)域中,文本分類是一個(gè)十分重要的研究方向,以往的文本分類研究主要涉及機(jī)器分類器訓(xùn)練、文本特征提取、文本預(yù)處理等內(nèi)容。隨著圖像識(shí)別與深度學(xué)習(xí)技術(shù)不斷成熟,深度學(xué)習(xí)模型在機(jī)器翻譯領(lǐng)域得到了廣泛的應(yīng)用,并且在特征提取和數(shù)據(jù)預(yù)處理方面體現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。除此之外,合理應(yīng)用文本分類技術(shù),還有利于簡(jiǎn)化文本數(shù)據(jù)的搜索流程,提高用戶在門戶網(wǎng)站中的內(nèi)容搜索效率,在改善用戶體驗(yàn)的同時(shí)也助于減輕服務(wù)器運(yùn)行壓力,節(jié)約計(jì)算資源。

2Attention-Model的基本原理

Attention-Model(注意力模型)借鑒了人腦將注意力集中在某一事物而忽略其他事物的特點(diǎn),對(duì)關(guān)鍵數(shù)據(jù)資源進(jìn)行集中處理。在自然語(yǔ)言處理方面,Attention-Model通常會(huì)與Encoder-Decoder結(jié)合起來(lái)使用。Encoder-Decoder模型的核心思想是利用Encoder模塊對(duì)輸入序列實(shí)施編碼,再通過(guò)Decoder模塊實(shí)施解碼,方便與Attention-Model模型相結(jié)合。Encoder-Decoder模型的基礎(chǔ)框架如圖1所示。本次研究將圖1中的“input”表示為序列X={x1,x2,x3,…,xn},將“output”表示為序列Y={y1,y2,y3,…,yn}。在計(jì)算過(guò)程中,首先通過(guò)Encoder模塊對(duì)輸入序列實(shí)施編碼,若將編碼結(jié)果記為C,則C的表達(dá)方式為:C=F(x1,x2,x3,…,xn)(1)在此基礎(chǔ)上通過(guò)Decoder模塊對(duì)C實(shí)施解碼,將解碼結(jié)果記為yi,yi的表達(dá)方式為:C=G(y1,y2,y3,…,yi-1)(2)由此可知,Decoder在輸出yi的過(guò)程中自始至終采用相同的語(yǔ)義信息,序列X中的各個(gè)元素與序列Y中的各個(gè)元素均有著相同的影響力,并且各個(gè)元素的先后順序直接決定元素的影響力。另外,在語(yǔ)義編碼code向量維度的限制下,序列輸入較為的模型會(huì)存在部分有效信息丟失的問(wèn)題,這與人腦的注意力分配機(jī)制有著本質(zhì)的區(qū)別。因此,本次研究提出了Attention-Model機(jī)制,針對(duì)當(dāng)前輸出yi的注意力概率分布狀況加以計(jì)算,獲取與yi元素一一對(duì)應(yīng)的語(yǔ)義編碼信息,進(jìn)而實(shí)現(xiàn)針對(duì)當(dāng)前輸出的優(yōu)化。Attention-Model與Encoder-Decoder相結(jié)合的模型框架如圖2所示。根據(jù)圖2可知,每一個(gè)輸出元素都有對(duì)應(yīng)含有輸入序列概率分布的語(yǔ)義編碼C,因此可以通過(guò)如下公式來(lái)表示輸出結(jié)果yi:yi=F(Ci,y1,y2,y3,…,yi-1)(3)上式中,Ci為輸入序列X處于編碼階段時(shí)的歷史狀態(tài),設(shè)S(xi)為輸入xi在編碼過(guò)程中的非線性函數(shù)處理結(jié)果,根據(jù)編碼過(guò)程中輸入序列所對(duì)應(yīng)的狀態(tài)值能夠計(jì)算出這些狀態(tài)值對(duì)于輸出yi的注意力概率分布,并在此基礎(chǔ)上獲取與之相對(duì)應(yīng)的語(yǔ)義編碼Ci,具體計(jì)算方法為:(4)上公式將輸入序列的元素的數(shù)目記為T,將輸入xj對(duì)輸出yi的注意力概率記為aij。在文本處理工作中,編碼階段和解碼階段最常見(jiàn)的配置模型為RNN(遞歸神經(jīng)網(wǎng)絡(luò))模型,具體計(jì)算過(guò)程如圖3所示。在圖3中,F(xiàn)函數(shù)是一種對(duì)齊概率計(jì)算方法,通過(guò)該函數(shù)對(duì)輸出yi在前解碼階段的隱藏層節(jié)點(diǎn)實(shí)施概率遠(yuǎn)處即可獲得注意力分布概率。

3Attention-BasedLSTM文本分類模型

根據(jù)Attention-Model的基本原理可知,將Attention-Model與注意力概率分布結(jié)合起來(lái)使用,能夠強(qiáng)化關(guān)鍵輸入對(duì)輸出的影響。為了將Attention-Model應(yīng)用于文本分類工作,本次研究提出了Attention-BasedLSTM(LongSh-ort-TermMemory)編碼模型,基于含有注意力概率分布的語(yǔ)義編碼來(lái)輸出文本特征向量。針對(duì)注意力分布概率進(jìn)行計(jì)算是Attention-Model的核心任務(wù),計(jì)算方法具體如下:在圖4中,atk代表注意力概率,即節(jié)點(diǎn)t對(duì)于輸出k的影響為權(quán)重,其計(jì)算方式?jīng)Q定Attention-Model的效率和作用?;疚谋緮?shù)據(jù)分類處理的工作特點(diǎn),本次研究將At-tention-Model應(yīng)用于編碼階段。設(shè)定文本輸入序列為x1,x2,x3,…,xT,針對(duì)該序列實(shí)施向量累加處理并計(jì)算均值,進(jìn)而獲取文本總體輸入向量X',同時(shí)將X'定義為編碼階段最后的輸入。Hk對(duì)應(yīng)輸入X'的隱藏層狀態(tài)值。h1,h2,h3,…,ht分別對(duì)應(yīng)輸入序列x1,x2,x3,xT的隱藏層狀態(tài)值?;贏ttention-Model的LSTM模型結(jié)構(gòu)如圖5所示。在圖5中,aik代表歷史節(jié)點(diǎn)對(duì)于最后節(jié)點(diǎn)的注意力概率,X'代表文本總體的輸入向量表示,x1,x2,x3,…,xT代表文本的詞語(yǔ)表示。計(jì)算對(duì)于x1,x2,x3,…,xT對(duì)于文本整體的影響力權(quán)重,能夠有針對(duì)性地強(qiáng)化關(guān)鍵詞的作用,同時(shí)弱化非關(guān)鍵詞的作用。在數(shù)據(jù)處理方面,首先要計(jì)算注意力分布概率的語(yǔ)義編碼,具體方法如下:以上兩公式將輸入序列第i個(gè)元素對(duì)應(yīng)的隱藏層的狀態(tài)值記為hi,將最后輸入對(duì)應(yīng)的隱藏層狀態(tài)記為hk,將輸入序列的元素的數(shù)目記為T,將節(jié)點(diǎn)i對(duì)于節(jié)點(diǎn)K的注意力概率權(quán)重,U、W、v分別為權(quán)重矩陣。

4文本分類實(shí)驗(yàn)

本次研究基于Google提供的機(jī)器學(xué)習(xí)庫(kù)Tensorflow對(duì)基于Attention-BasedLSTM數(shù)學(xué)模型的文本分類算法進(jìn)行實(shí)驗(yàn)分析,通過(guò)Python對(duì)算法進(jìn)行編程,程序運(yùn)行平臺(tái)為Ubuntu12.04操作系統(tǒng)。實(shí)驗(yàn)語(yǔ)料數(shù)據(jù)分別來(lái)自Sougou實(shí)驗(yàn)室語(yǔ)料庫(kù)、Amazonreviewsdataset、YahooAnswersdataset、Yelpreviewsdataset、DBPediadataset等。以Sougou實(shí)驗(yàn)室語(yǔ)料庫(kù)為例,該數(shù)據(jù)集是由Sougou實(shí)驗(yàn)室從科技、汽車、娛樂(lè)、財(cái)經(jīng)、體育等5個(gè)門戶版塊所提取的新聞數(shù)據(jù),第個(gè)類別包含12000條測(cè)試數(shù)據(jù)和90000條訓(xùn)練數(shù)據(jù),單個(gè)文本由內(nèi)容、標(biāo)題、類別三部分組成,所有文本均為長(zhǎng)文本。同時(shí)選取LSTM、Bi-LSTM與本次研究所提出的At-tention-BasedLSTM進(jìn)行對(duì)比,各個(gè)算法的分類準(zhǔn)確率對(duì)比結(jié)果如表1所示。經(jīng)實(shí)驗(yàn)研究發(fā)現(xiàn),本次研究所提出的Attention-BasedLSTM算法對(duì)于各種不同來(lái)源的語(yǔ)料庫(kù)均表現(xiàn)出了最佳的分類準(zhǔn)確率水平。

5結(jié)束語(yǔ)

本次研究將Attention-Model與Encoder-Decoder結(jié)合起來(lái)并建立了一套基于Attention-BasedLSTM數(shù)學(xué)模型的文本分類算法。將該算法應(yīng)用于文本數(shù)據(jù)分類處理工作,能夠有效強(qiáng)化關(guān)鍵詞對(duì)于整體文本的影響力,進(jìn)而得出較為準(zhǔn)確的注意力分布概率,最終實(shí)現(xiàn)文本數(shù)據(jù)的高精度分類。通過(guò)該技術(shù)對(duì)文本數(shù)據(jù)實(shí)施精準(zhǔn)分類,有助于互聯(lián)網(wǎng)公司向用戶精準(zhǔn)投送文本資料,提高網(wǎng)絡(luò)資訊服務(wù)水平。

作者:黃阿娜 單位:咸陽(yáng)職業(yè)技術(shù)學(xué)院