神經(jīng)網(wǎng)絡(luò)文本分類范文

時間:2023-05-31 15:22:29

導(dǎo)語:如何才能寫好一篇神經(jīng)網(wǎng)絡(luò)文本分類,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

神經(jīng)網(wǎng)絡(luò)文本分類

篇1

P鍵詞:深度學(xué)習(xí);文本分類;多類型池化

中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)35-0187-03

1 引言

為了進行分類,我們建立句子模型來分析和表示句子的語義內(nèi)容。句子模型問題的關(guān)鍵在于一定程度上的自然語言理解。很多類型的任務(wù)需要采用句子模型,包括情感分析、語義檢測、對話分析、機器翻譯等。既然單獨的句子很少或基本不被采用,所以我們必須采用特征的方式來表述一個句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據(jù)單詞和詞組提取特征的過程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。

各種類型的模型已經(jīng)被提出。基于成分構(gòu)成的方法被應(yīng)用于向量表示,通過統(tǒng)計同時單詞同時出現(xiàn)的概率來獲取更長的詞組。在有些情況下,通過對詞向量進行代數(shù)操作生成句子層面的向量,從而構(gòu)成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關(guān)。

一種核心模型是建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。這種模型包含了單詞包或者詞組包的模型、更結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)、延遲的基于卷積操作的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模型有很多優(yōu)點。通過訓(xùn)練可以獲得通用的詞向量來預(yù)測一段上下文中單詞是否會出現(xiàn)。通過有監(jiān)督的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠根據(jù)具體的任務(wù)進行良好的調(diào)節(jié)。除了作為強大的分類器,神經(jīng)網(wǎng)絡(luò)模型還能夠被用來生成句子[6]。

我們定義了一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并將它應(yīng)用到句子語義模型中。這個網(wǎng)絡(luò)可以處理長度不同的句子。網(wǎng)絡(luò)中的一維卷積層和多類型動態(tài)池化層是相互交錯的。多類型動態(tài)池化是一種對求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現(xiàn)在兩個方面。第一,多類型池化操作對一個線性的值序列進行操作,返回序列中的多個數(shù)值而不是單個最大的數(shù)值。第二,池化參數(shù)k可以被動態(tài)的選擇,通過網(wǎng)絡(luò)的其他參數(shù)來動態(tài)調(diào)整k的值。

卷積層的一維卷積窗口對句子特征矩陣的每一行進行卷積操作。相同的n-gram的卷積窗口在句子的每個位置進行卷積操作,這樣可以根據(jù)位置獨立地提取特征。一個卷積層后面是一個多類型動態(tài)池化層和一個非線性的特征映射表。和卷積神經(jīng)網(wǎng)絡(luò)在圖像識別中的使用一樣,為豐富第一層的表述,通過不同的卷積窗口應(yīng)用到句子上計算出多重特征映射表。后續(xù)的層也通過下一層的卷積窗口的卷積操作計算出多重特征映射表。最終的結(jié)構(gòu)我們叫它多類型池化的卷積神經(jīng)網(wǎng)絡(luò)。

在輸入句子上的多層的卷積和動態(tài)池化操作產(chǎn)生一張結(jié)構(gòu)化的特征圖。高層的卷積窗口可以獲取非連續(xù)的相距較遠的詞組的句法和語義關(guān)系。特征圖會引導(dǎo)出一種層級結(jié)構(gòu),某種程度上類似于句法解析樹。這種結(jié)構(gòu)不僅僅是和句法相關(guān),它是神經(jīng)網(wǎng)絡(luò)內(nèi)部所有的。

我們將此網(wǎng)絡(luò)在四種場景下進行了嘗試。前兩組實驗是電影評論的情感預(yù)測[2],此網(wǎng)絡(luò)在二分和多種類別的分類實驗中的表現(xiàn)都優(yōu)于其他方法。第三組實驗在TREC數(shù)據(jù)集(Li and Roth, 2002)上的6類問題的分類問題。此網(wǎng)絡(luò)的正確率和目前最好的方法的正確率持平。第四組實驗是推特的情感預(yù)測,此網(wǎng)絡(luò)將160萬條微博根據(jù)表情符號自動打標(biāo)來進行訓(xùn)練。在手工打標(biāo)的測試數(shù)據(jù)集上,此網(wǎng)絡(luò)將預(yù)測錯誤率降低了25%。

本文的概要如下。第二段主要闡述MCNN的背景知識,包括核心概念和相關(guān)的神將網(wǎng)絡(luò)句子模型。第三章定義了相關(guān)的操作符和網(wǎng)絡(luò)的層。第四章闡述生成的特征圖的處理和網(wǎng)絡(luò)的其他特點。第五章討論實驗和回顧特征學(xué)習(xí)探測器。

2 背景

MCNN的每一層的卷積操作之后都伴隨一個池化操作。我們先回顧一下相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型。然后我們來闡述一維的卷積操作和經(jīng)典的延遲的神經(jīng)網(wǎng)絡(luò)(TDNN)[3]。在加了一個最大池化層到網(wǎng)絡(luò)后,TDNN也是一種句子模型[5]。

2.1 相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型

已經(jīng)有很多的神經(jīng)網(wǎng)絡(luò)句子模型被描述過了。 一種比較通用基本的模型是神經(jīng)網(wǎng)絡(luò)詞包模型(NBoW)。其中包含了一個映射層將單詞、詞組等映射到更高的維度;然后會有一個比如求和之類的操作。結(jié)果向量通過一個或多個全連接層來進行分類。

有以外部的解析樹為基礎(chǔ)的遞歸神經(jīng)網(wǎng)絡(luò),還有在此基礎(chǔ)上更進一步的RNN網(wǎng)絡(luò)。

最后一種是以卷積操作和TDNN結(jié)構(gòu)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)句子模型。相關(guān)的概念是動態(tài)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),我們接下來介紹的就是它。

2.2 卷積

一維卷積操作便是將權(quán)重向量[m∈Rm]和輸入向量[s∈Rs]進行操作。向量m是卷積操作的過濾器。具體來說,我們將s作為輸入句子,[si∈R]是與句子中第i個單詞相關(guān)聯(lián)的單獨的特征值。一維卷積操作背后的思想是通過向量m和句子中的每個m-gram的點積來獲得另一個序列c:

[ci=mTsi-m+1:i (1)]

根據(jù)下標(biāo)i的范圍的不同,等式1產(chǎn)生兩種不同類型的卷積。窄類型的卷積中s >= m并且會生成序列[c∈Rs-m+1],下標(biāo)i的范圍從m到s。寬類型的卷積對m和s的大小沒有限制,生成的序列[c∈Rs+m-1],下標(biāo)i的范圍從1到s+m-1。超出下標(biāo)范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結(jié)果是寬類型的卷積結(jié)果的子序列。

寬類型的卷積相比于窄類型的卷積有一些優(yōu)點。寬類型的卷積可以確保所有的權(quán)重應(yīng)用到整個句子,包括句子收尾的單詞。當(dāng)m被設(shè)為一個相對較大的值時,如8或者10,這一點尤其重要。另外,寬類型的卷積可以確保過濾器m應(yīng)用于輸入句子s始終會生成一個有效的非空結(jié)果集c,與m的寬度和s句子的長度無關(guān)。接下來我們來闡述TDNN的卷積層。

4 驗與結(jié)果分析

我們對此網(wǎng)絡(luò)進行了4組不同的實驗。

4.1 電影評論的情感預(yù)測

前兩組實驗是關(guān)于電影評論的情感預(yù)測的,數(shù)據(jù)集是Stanford Sentiment Treebank.實驗輸出的結(jié)果在一個實驗中是分為2類,在另一種試驗中分為5類:消極、略微消極、中性、略微積極、積極。而實驗總的詞匯量為15448。

表示的是電影評論數(shù)據(jù)集情感預(yù)測準(zhǔn)確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機。在三種神經(jīng)網(wǎng)絡(luò)模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機初始化的;它們的維度d被設(shè)為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個非線性化層、最大池化層和softmax分類層。NBoW會將詞向量相加,并對詞向量進行非線性化操作,最后用softmax進行分類。2類分類的MCNN的參數(shù)如下,卷積層之后折疊層、動態(tài)多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動態(tài)多類型池化層的k的值為4。網(wǎng)絡(luò)的最頂層是softmax層。5類分類的MCNN有相同的結(jié)構(gòu),但是濾波窗口的大小分別為10和7,k的值為5。

我們可以看到MCNN的分類效果遠超其他算法。NBoW的分類效果和非神經(jīng)網(wǎng)絡(luò)算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因為過度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹來生成結(jié)構(gòu)化特征,其他模型都不需要依賴外部資源。

4.2 問題分類

問題分類在問答系統(tǒng)中應(yīng)用非常廣泛,一個問題可能屬于一個或者多個問題類別。所用的數(shù)據(jù)集是TREC數(shù)據(jù)集,TREC數(shù)據(jù)集包含6種不同類別的問題,比如一個問題是否關(guān)于地點、人或者數(shù)字信息。訓(xùn)練集包含5452個打標(biāo)的問題和500個測試集。

4.3 Twitter情感預(yù)測

在我們最后的實驗里,我們用tweets的大數(shù)據(jù)集進行訓(xùn)練,我們根據(jù)tweet中出現(xiàn)的表情符號自動地給文本進行打標(biāo)簽,積極的或是消極的。整個數(shù)據(jù)集包含160萬條根據(jù)表情符號打標(biāo)的tweet以及400條手工標(biāo)注的測試集。整個數(shù)據(jù)集包含76643個單詞。MCNN的結(jié)構(gòu)和4.1節(jié)中結(jié)構(gòu)相同。隨機初始化詞向量且維度d設(shè)為60。

我們發(fā)現(xiàn)MCNN的分類效果和其他非神經(jīng)網(wǎng)絡(luò)的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強的特征提取能力。

5 結(jié)語

在本文中我們闡述了一種動態(tài)的卷積神經(jīng)網(wǎng)絡(luò),它使用動態(tài)的多類型池化操作作為非線性化取樣函數(shù)。此網(wǎng)絡(luò)在問題分類和情感預(yù)測方面取得了很好的效果,并且不依賴于外部特征如解析樹或其他外部資源。

參考文獻

[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.

[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.

[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.

[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

篇2

關(guān)鍵詞: 電子郵件; 分類模型; 特征提?。?垃圾郵件; 主成分分析

中圖分類號: TN915.08?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)01?0077?03

Abstract: The E_mail classification is conducive to filter out the spam mail and save the network resources. In order to improve the accuracy of the E_mail classification, an E_mail classifier model using improved support vector machine is proposed. The original features of E_mail are extracted, and selected with the principal component analysis to reduce the feature quantity and improve the E_mail classification efficiency. The support vector machine is used to establish the E_mail classifier. The parameter selection method of the traditional support vector machine was improved to perfect the E_mail classification effect. The standard database UCI of the E_mail classification is used to analyze the classification performance. The results show that the improved support vector machine has solved the insufficient of the current E_mail classification model, and obtained the satisfied E_mail classification effect, which can help managers to block the spam mail.

Keywords: E_mail; classification model; feature extraction; spam mail; principal component analysis

0 引 言

隨著經(jīng)濟水平的不斷提高,家家戶戶有了計算機,網(wǎng)民越來越多。電子郵件(E_mail)是一種人們在網(wǎng)絡(luò)上交流的常用工具,受到了人們的廣泛關(guān)注[1]。網(wǎng)絡(luò)是一個新興事件,網(wǎng)絡(luò)中有大量垃圾郵件,它們不僅浪費網(wǎng)絡(luò)資源,給人們工作帶來困擾,而且給一些不法分子提供了可乘之機,因此,對E_mail進行有效分類找出其中的垃圾]件具有重要的實際意義[2]。

E_mail與文本有很多相似之處,為此一些學(xué)者將文本分類方法引入E_mail分類中,通過分類算法將郵件分為正常郵件和垃圾郵件[3]。同時E_mail是一種半結(jié)構(gòu)化文本,具有自身的特殊性,采用傳統(tǒng)文本分類方法用于E_mail分類,分類的精度低,郵件錯分現(xiàn)象嚴(yán)重,導(dǎo)致一些正常郵件被攔截,而且一些垃圾郵件沒有被過濾掉[4]。近些年來,一些學(xué)者將模式識別技術(shù)引入到E_mail分類中,首先提取E_mail的原始特征,然后采用K近鄰算法和神經(jīng)網(wǎng)絡(luò)等建立E_mail分類模型,獲得了不錯的E_mail分類效果[5]。E_mail的原始特征維數(shù)高,若直接輸入到K近鄰算法和神經(jīng)網(wǎng)絡(luò)進行分類,分類時間長、效率低,而且可能存在一些無用特征,對E_mail分類效果產(chǎn)生干擾[6]。特征篩選可以去除無用特征,減少特征數(shù)量,提高學(xué)習(xí)效率[7]。K近鄰算法假設(shè)E_mail的類別與特征間是線性變化關(guān)系,這與實際情況不相符,分類精度要低于神經(jīng)網(wǎng)絡(luò)[2]。神經(jīng)網(wǎng)絡(luò)雖然可以描述E_mail的類別與特征間的變化關(guān)系,但要求樣本多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,當(dāng)特征維數(shù)高時,出現(xiàn)“維數(shù)災(zāi)”現(xiàn)象的概率高[8]。支持向量機(Support Vector Machine,SVM)是一種新型機器學(xué)習(xí)算法,避免了“維數(shù)災(zāi)”現(xiàn)象的出現(xiàn),且分類效果要優(yōu)于神經(jīng)網(wǎng)絡(luò),在E_mail分類中得到了廣泛的應(yīng)用[9]。支持向量機參數(shù)優(yōu)化問題一直懸而未解,影響在E_mail分類中的應(yīng)用范圍[10]。

針對當(dāng)前E_mail分類模型存在的難題,為了提高郵件分類的精度,提出一種改進支持向量機的電子郵件分類器模型(ISVM),結(jié)果表明,改進支持向量機獲得了良好的電子郵件分類效果,可以滿足垃圾郵件處理的要求。

1 E_mail分類模型的工作原理

E_mail分類模型的工作原理如圖1所示。從圖1可以看出,特征提取和選擇是獲得較優(yōu)E_mail分類結(jié)果的基礎(chǔ),當(dāng)前E_mail特征提取和選擇研究少,主要采用人工憑經(jīng)驗確定特征的數(shù)量,特征選擇具有主觀性,影響E_mail分類器的構(gòu)建;E_mail的分類器是獲得理想分類結(jié)果的關(guān)鍵,雖然SVM可以描述E_mail的變化特點,但如果核函數(shù)及參數(shù)選擇不合理,E_mail分類效果很差,本文采用布谷鳥搜索算法選擇SVM的核函數(shù)參數(shù),以獲得高精度的E_mail分類結(jié)果。

2 改進支持向量機

2.1 標(biāo)準(zhǔn)支持向量機

支持向量機根據(jù)最優(yōu)分類超平面將訓(xùn)練樣本分開,而且類別之間的間隔最大。對于包含兩個樣本的訓(xùn)練集,如果超平面可將它們?nèi)糠珠_,表示訓(xùn)練樣本集是線性可分的,訓(xùn)練集的數(shù)量為那么訓(xùn)練集描述為:其中表示樣本輸入;表示樣本的類別。支持向量機的超平面如圖2所示。

基于支持向量機的懲罰參數(shù)和徑向基核參數(shù)影響的性能,本文選擇布谷鳥搜索算法確定和的值。

2.2 布谷鳥搜索算法

布谷鳥搜索算法(CS)是一種應(yīng)用范圍很廣的智能搜索算法,假設(shè)有三種狀態(tài),具體如下:

(1) 一只布谷鳥僅下一個蛋,并隨機分布于鳥巢中。

(2) 部分較優(yōu)的鳥巢直接進入到下一代,組成新的鳥巢[11]。

(3) 每一個鳥巢中的布谷鳥蛋被宿主發(fā)現(xiàn)的概率是相等的。

將支持向量機參數(shù)和編碼成為一個鳥巢位置,根據(jù)訓(xùn)練樣本計算每一組參數(shù)的和目標(biāo)函數(shù)值,并選擇目標(biāo)函數(shù)值最優(yōu)者作為當(dāng)前最優(yōu)鳥巢,然后對布谷鳥搜索的路徑和位置不斷迭次,產(chǎn)生新一代的鳥巢,當(dāng)?shù)螖?shù)達到最大迭代次數(shù)時,最優(yōu)鳥巢位置對應(yīng)的和即為找到的最優(yōu)參數(shù)。

3 改進支持向量機的E_mail分類

改進支持向量機的E_mail分類步驟為:

Step1:收集相應(yīng)數(shù)量的E_mail,并進行一些預(yù)處理,如刪除其中沒有意義的數(shù)據(jù),將它們轉(zhuǎn)換為相應(yīng)的格式。

Step2:提取E_mail特征,通過詞和類別的互信息量作為E_mail原始特征,對它們進行歸一化處理。

Step3:采用主成分分析法對E_mail原始特征進行選擇,提取最優(yōu)的特征子集,并根據(jù)特征子集對E_mail訓(xùn)練樣本和測試樣本進行處理,減少數(shù)據(jù)規(guī)模。

Step4:將訓(xùn)練樣本輸入到支持向量機進行訓(xùn)練,并采用布谷鳥搜索算法確定最優(yōu)參數(shù)和建立E_mail分類器。

Step5:采用測試樣本對E_mail分類器的性能進行測試和分析。

4 實驗結(jié)果與分析

為了分析ISVM的E_mail分類性能,選擇郵件分類的標(biāo)準(zhǔn)數(shù)據(jù)集――UCI數(shù)據(jù)庫作為研究對象,該數(shù)據(jù)集共有4 601個樣本,每一個樣本有58個特征,垃圾郵件的標(biāo)簽為“1”,正常郵件的標(biāo)簽為“0”,在Matlab 2014工具箱編程中實現(xiàn)E_mail分類模型。由于數(shù)據(jù)庫中的樣本比較多,隨機選擇30%的樣本進行仿真實驗,訓(xùn)練樣本和測試樣本數(shù)量采用31的形式進行劃分。采用分類準(zhǔn)確率(Precision)、分類召回率(recall)對結(jié)果進行分析,具體如下:

5 結(jié) 語

為了消除垃圾郵件對人們工作和生活的負(fù)面影響,提高電子郵件分類精度,本文提出一種改進支持向量機的電子郵件分類模型,結(jié)果表明,改進支持向量機解決了當(dāng)前電子郵件分類模型存在的不足,獲得了理想的電子郵件分類效果,減少了系統(tǒng)分發(fā)郵件的工作量,分類結(jié)果可以幫助管理人員攔截垃圾郵件,具有廣泛的應(yīng)用前景。

參考文獻

[1] 蒲筱哥.Web自動郵件分類技術(shù)研究綜述[J].情報W報,2009,28(2):233?241.

[2] 劉赫,劉大有,裴志利,等.一種基于特征重要度的郵件分類特征加權(quán)方法[J].計算機研究與發(fā)展,2009,46(10):1693?1703.

[3] 陳東亮,白清源.基于詞頻向量的關(guān)聯(lián)郵件分類[J].計算機研究與發(fā)展,2009,46(2):464?469.

[4] 吳江寧,劉巧鳳.基于圖結(jié)構(gòu)的中文郵件表示方法研究[J].情報學(xué)報,2010,32(4):618?624.

[5] 王波,黃迪明.遺傳神經(jīng)網(wǎng)絡(luò)在電子郵件過濾器中的應(yīng)用[J].電子科技大學(xué)學(xué)報,2005,34(4):505?508.

[6] 李惠娟,高峰,管曉宏,等.基于貝葉斯神經(jīng)網(wǎng)絡(luò)的垃圾郵件過濾方法[J].微電子學(xué)與計算機,2005,22(4):107?111.

[7] 陳華輝.一種基于潛在語義索引的垃圾郵件過濾方法[J].計算機應(yīng)用研究,2000,17(10):17?18.

[8] 宋勝利,王少龍,陳平.面向郵件分類的中文郵件語義表示方法[J].西安電子科技大學(xué)學(xué)報,2013,40(2):89?97.

[9] 張兢,侯旭東,呂和勝.基于樸素貝葉斯和支持向量機的郵件智能分析系統(tǒng)設(shè)計[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2010,24(1):77?81.

篇3

摘 要 水系是重要的地性線,常被看成是地形的“骨架”,對其他要素有一定的制約作用??焖偬崛∵b感影像上水系的線性特征,獲

>> 一種基于非監(jiān)督判別語義特征提取的文本分類算法 基于監(jiān)督局部線性嵌入特征提取的高光譜圖像分類 基于提取網(wǎng)站層次結(jié)構(gòu)的網(wǎng)頁分類方法 基于自動機模型的構(gòu)件集成軟件測試要素的提取 基于AAM關(guān)鍵特征點提取的人臉照片分類方法的研究與應(yīng)用 基于支持向量機分類水平集方法的圖像特征提取研究 基于局部序列圖像的虹膜特征提取與分類研究 基于分類結(jié)果的多光譜遙感影像端元提取方法 基于樣本熵的運動想象腦電信號特征提取與分類方法 基于小波包與共空間模式的腦電信號特征提取與分類 基于動態(tài)特征提取和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)流分類研究 基于局部保持投影的神經(jīng)尖峰電位特征提取與分類 中文文本分類中基于概念屏蔽層的特征提取方法 解題信息的分類與提取 基于風(fēng)險導(dǎo)向的內(nèi)部控制監(jiān)督要素的實施方案 基于光譜特征的監(jiān)督分類方法在黃河口濕地的應(yīng)用比較 結(jié)合均值漂移的基于圖的半監(jiān)督圖像分類 基于錨點建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用 基于紋理分類的高分辨率衛(wèi)星城市用地信息提取 基于局部學(xué)習(xí)的半監(jiān)督多標(biāo)記分類算法 常見問題解答 當(dāng)前所在位置:l.

[4]游代安.GIS輔助的遙感圖像處理與分析技術(shù)的研究[D].信息工程大學(xué),2001.

[5]郭德方.遙感圖像的計算機處理和模式識別[M].電子工業(yè)出版社,1984.

[6]王剛,李小曼,田杰.幾種TM影像的水體自動提取方法比較[J].測繪科學(xué),2008(03).

篇4

關(guān)鍵詞: 網(wǎng)絡(luò)購物評論; 文本分類; SVM; 多核學(xué)習(xí)

中圖分類號:F406.2 文獻標(biāo)識碼:A 文章編號:1006-8228(2012)04-43-03

A classification method of online reviews based on MKL-SVM

Hu Han

(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)

Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVM’s problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.

Key words: customer review; text classification; SVM; multiple kernel learning

0 引言

購物網(wǎng)站都建立有顧客評論系統(tǒng),收集顧客對于商品及網(wǎng)站服務(wù)的體驗感受。由于購物評論表達形式繁雜、內(nèi)容隨意、句型多樣,給企業(yè)有效跟蹤和管理用戶評論意見,帶來了很大的難度。

文本分類(text categorization)應(yīng)用分類函數(shù)或分類模型,把文本映射到多個類別中的某一類,使檢索或查詢的速度更快,準(zhǔn)確率更高。文本分類在自然語言處理與理解、信息組織與管理、內(nèi)容信息過濾等領(lǐng)域有著廣泛的應(yīng)用。主要分類方法有:貝葉斯、決策樹、支持向量機(Support Vector Machines, SVM)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。其中SVM通過分隔面模式擺脫了樣本分布、冗余特征以及過度擬合等因素的影響,具有很好的泛化學(xué)習(xí)能力[1]。但是SVM存在訓(xùn)練收斂速度慢,分類精度難以提高等缺點。

核函數(shù)是SVM解決非線性問題的方法,受限于單個核函數(shù)性能,使得SVM泛化學(xué)習(xí)能力有限,分類精度難以提升。多核學(xué)習(xí)(Multiple Kernel Learning,MKL)利用對同質(zhì)(homogeneous)或異質(zhì)(heterogeneous)核函數(shù)優(yōu)化整合,提高了SVM的學(xué)習(xí)能力和泛化性能。在處理大量異質(zhì)數(shù)據(jù)時,MKL具有很好的靈活性,且分類結(jié)果更清晰,便于解決現(xiàn)實應(yīng)用問題[2],但MKL涉及較多的相關(guān)參數(shù)的優(yōu)化。對MKL研究目前主要集中在圖像識別領(lǐng)域[3,4]。本文通過校準(zhǔn)算法確定MKL異質(zhì)核函數(shù)的優(yōu)化權(quán)系數(shù)和核參數(shù),建立基于多核學(xué)習(xí)的支持向量機(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評論分類中的應(yīng)用效果。

1 MKL-SVM方法描述

1.1 SVM核函數(shù)

SVM是基于統(tǒng)計學(xué)理論中的結(jié)構(gòu)風(fēng)險最小化原理,具有高泛化性能的通用學(xué)習(xí)機。設(shè)分割面,樣本集線性可分時,SVM通過一個分割超平面,把訓(xùn)練樣本點分類,使兩類訓(xùn)練點到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價于使||ω||2最小。最優(yōu)分類面的求解可以轉(zhuǎn)化為優(yōu)化問題:

s.t.

利用Lagrange優(yōu)化可將上述問題轉(zhuǎn)為其對偶問題:求解下列函數(shù):

max:

s.t.和。

最優(yōu)分類函數(shù)是

。

上述式中a:為Lagrange非負(fù)乘子

將低維的輸入空間數(shù)據(jù)通過非線性映射函數(shù)映射到高維屬性空間,輸入空間線性不可分問題在屬性空間將轉(zhuǎn)化為線性可分問題。這種非線性映射函數(shù)稱之為核函數(shù)[6]。設(shè)x在χ對應(yīng)一個映射到高緯空間,φ(x)為核映射函數(shù),K核函數(shù)為,,SVM尋找的超平面胃。此時目標(biāo)函數(shù)變?yōu)椋?/p>

考慮最大分割和訓(xùn)練誤差,優(yōu)化公式為:

s.t.

1.2 多核學(xué)習(xí)

設(shè)函數(shù)集合M由多個核函數(shù)K1…Km組成,核函數(shù)對應(yīng)的映射函數(shù)是φ1…φM。MKL[7]公式:

s.t.

其中ωk表示φk在整個學(xué)習(xí)機中的權(quán)重。

其中00, k=1,2….M;多核學(xué)習(xí)核函數(shù)KMKL是Ki的凸線性組合:;最終的分類函數(shù)。

1.3 MKL-SVM及優(yōu)化參數(shù)計算

MKL-SVM核函數(shù)的選擇取決于對數(shù)據(jù)處理的要求。具有全局性的核函數(shù)和局部性的核函數(shù)的分類性能互補,可以使用不同核函數(shù)組成多核核函數(shù)[8],但是如果MKL異質(zhì)核函數(shù)種類過多,會使SVM訓(xùn)練過于復(fù)雜。因此,本研究選用M=2,核函數(shù)選擇了:Gaussian徑向基核函數(shù)RBF (Radial Basis Function)。局部核函數(shù)具有較好的學(xué)習(xí)能力,而泛化推廣能力較弱。多項式核函數(shù)(Polynomial Function, PF)是一個全局性核函數(shù),具有較好的泛化推廣能力,而學(xué)習(xí)能力則要弱些。Sigmoid核函數(shù)在神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,具有良好的全局分類性能。對有下面2種實現(xiàn)形式:

MKL-SVM計算中核參數(shù)σ、d、β0、β需要尋找合適的值使得SVM測試錯誤率最小。權(quán)系數(shù)λ對MKL-SVM起著關(guān)鍵作用也需要進行尋優(yōu)。核參數(shù)和權(quán)系數(shù)的確定是MKL-SVM非常重要的環(huán)節(jié)。本文利用核函數(shù)之間的關(guān)系等價于核矩陣之間的關(guān)系,結(jié)合交叉驗證技術(shù)LOO和核校準(zhǔn)(kernel alignment)[9],建立如下優(yōu)化求解步驟:

①,表示兩個核矩陣之間的內(nèi)積。

核校準(zhǔn)度量k1與k2在樣本集S上的差異。核校準(zhǔn)是一個標(biāo)量值,體現(xiàn)了不同核函數(shù)之間的差異關(guān)系。

② 對k1,k2使用LOO方法,求出核參數(shù),使達到最大的核參數(shù)。

③ 定義函數(shù)

④ 構(gòu)造一個權(quán)參數(shù)λ和乘子αi的拉格朗日方程,構(gòu)造二次規(guī)劃子問題:

⑤ 重復(fù)步驟④直到誤差最小,算法收斂到最優(yōu)的λ值。

2 實例分析

2.1 評估標(biāo)準(zhǔn)和分類維度

表1 購物評論分類維度

[[評論對象\&編號\&維度\&解釋\&售前服務(wù)\&A1\&購買咨詢\&是否提供在線問答解決顧客疑問\&A2\&信息提供全面性\&網(wǎng)站商品信息是否滿足顧客需求\&商品\&B1\&定價\&價格浮動給顧客帶來的影響\&B2\&商品特征\&對商品使用感受\&網(wǎng)站服務(wù)\&C1\&支付方式\&網(wǎng)站方便、種類多、安全\&C2\&內(nèi)部配貨、調(diào)貨\&企業(yè)內(nèi)部訂單處理速度\&C3\&信息溝通\&及時傳遞商品處理信息給顧客\&物流服務(wù)\&D1\&及時性\&物流時間是否合理\&D2\&態(tài)度\&快遞服務(wù)、送貨上門態(tài)度\&D3\&質(zhì)量\&外包裝磨損、安全\&售后服務(wù)\&E1\&換、退貨\&問題商品的處理\&]]

對于需要分類的n個狀態(tài),我們以ce表示對第i個狀態(tài)分類出的正確信息個數(shù),te表示沒有分類出的正確信息個數(shù),fe為錯誤信息個數(shù)。以精確度P(Precision)表示系統(tǒng)正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統(tǒng)分類出的正確信息占所有可能正確信息的比例,。評論模型性能需要同時考慮P和R,為此引入,其中β是P和R的相對權(quán)重,決定對P側(cè)重還是對R側(cè)重,通常設(shè)定為1。F值越大,說明分類性能越好。

圍繞購物網(wǎng)站服務(wù)流程,本研究結(jié)合顧客購物評論中的常見主題,總結(jié)出了評論的分類維度(表1)。

2.2 方法評估與應(yīng)用

本文從卓越亞馬遜、當(dāng)當(dāng)網(wǎng)等購物網(wǎng)站,下載了不同商品的3000條購物評論。隨機抽取2000條作為訓(xùn)練集,其余作為測試集,對比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優(yōu)于Polynomial;而MKL-GP和MKL-GS分類性能都優(yōu)于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數(shù)在某些特定條件下,才滿足核函數(shù)對稱、半正定的要求,因此影響了其分類的性能。

圖1 不同方法分類F值

表2 數(shù)據(jù)集實驗結(jié)果

[[樣本量\&Polynomial

SVM (F值)\&Gaussian RBF

SVM(F值)\&MKL-GS

SVM(F值)\&MKL-GP

SVM(F值)\&300\&0.6573\&0.6639\&0.5081\&0.6047\&600\&0.6894\&0.7429\&0.7026\&0.7493\&1000\&0.7047\&0.7579\&0.8081\&0.8169\&2000\&0.7715\&0.8040\&0.8559\&0.8621\&3000\&0.7745\&0.8037\&0.8551\&0.8676\&]]

本文使用不同的樣本量對兩種算法進行對比,其中F值使用均值。從表2可以看出,在樣本量不夠大時,MKL-GS受Sigmoid函數(shù)特性影響性能較差;隨著樣本數(shù)量的增加,MKL優(yōu)勢逐漸明顯,表現(xiàn)出優(yōu)于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進一步優(yōu)化。

3 結(jié)束語

網(wǎng)絡(luò)購物評論分析需要多種技術(shù)的結(jié)合。MKL-SVM方法通過集成學(xué)習(xí)發(fā)揮異質(zhì)核函數(shù)不同特性,實現(xiàn)了購物評論分類性能的提升。本文所做的工作僅僅是購物評論分析的第一步,還需要結(jié)合文本挖掘、情感分析、營銷分析等方法,才能幫助企業(yè)掌握消費者的感受,給予更多智能化的決策建議。網(wǎng)絡(luò)上存在各類評論、新聞、博客、微博,對這些文本的分類分析,只要通過優(yōu)選核函數(shù)以及相關(guān)參數(shù),可以參照MKL-SVM方法獲取更好的分類性能。

參考文獻:

[1] 蘇金樹,張博鋒,徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J].軟件學(xué)報,2006.17(9):1848~1859

[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14

[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565

[4] Koji Tsuda, Gunnar Rätsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338

[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790

[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782

[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12

篇5

Apache Kafka:以著名的捷克作家命名的Apache Kafka用于構(gòu)建實時數(shù)據(jù)流管道和流媒體應(yīng)用程序。為什么這么受歡迎?因為它能夠以容錯的方式存儲,管理和處理數(shù)據(jù)流,并且十分快速。鑒于社交網(wǎng)絡(luò)環(huán)境處理數(shù)據(jù)流,Kafka目前非常受歡迎。

ApacheMahout:Mahout提供了一個用于機器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫,也是創(chuàng)建更多算法的環(huán)境。換句話說,是一個機器學(xué)習(xí)的天堂環(huán)境。

ApacheOozie:在任何編程環(huán)境中,需要一些工作流程系統(tǒng)來以預(yù)定義的方式和定義的依賴關(guān)系來安排和運行工作。Oozie提供的大數(shù)據(jù)工作以Apachepig,MapReduce和Hive等語言編寫。

Apache Drill,Apache Impala,Apache Spark SQL:所有這些都提供了快速和交互式的SQL,如與Apachehadoop數(shù)據(jù)的交互。如果你已經(jīng)知道SQL,并處理以大數(shù)據(jù)格式(即HBase或HDFS)存儲的數(shù)據(jù),這些功能將非常有用。

ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL讀取,寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。

ApachePig:Pig是在大型分布式數(shù)據(jù)集上創(chuàng)建查詢執(zhí)行例程的平臺。所使用的腳本語言叫做PigLatin。據(jù)說Pig很容易理解和學(xué)習(xí)。但問題是有多少人能從Pig學(xué)到什么?

Apach eSqoop:用于將數(shù)據(jù)從Hadoop移動到非Hadoop數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。

Apache Storm:一個免費的開源實時分布式計算系統(tǒng)。它使得使用Hadoop進行批處理的瞬時處理可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。

人工智能(AI):人們可能會問,為什么在這里會有人工智能?人工智能不是一個單獨的領(lǐng)域,所有這些趨勢技術(shù)都是如此相關(guān),人工智能開發(fā)智能機器和軟件的方式,使得硬件和軟件的這種組合能夠感知環(huán)境,在需要時采取必要的措施,并繼續(xù)學(xué)習(xí)這些操作。

行為分析:有沒有想過谷歌如何為人們需要的產(chǎn)品/服務(wù)提供廣告?行為分析側(cè)重于理解消費者和應(yīng)用程序所做的事情,以及如何以及為什么它們以某種方式起作用。它是關(guān)于了解人們的網(wǎng)上沖浪模式,社交媒體互動,電子商務(wù)行動(購物車等),并連接這些無關(guān)的數(shù)據(jù)點,并試圖預(yù)測結(jié)果。

Brontobytes:10的27次冪,這是數(shù)字宇宙的大小。在這里,可以了解TB字節(jié),PB字節(jié),EB字節(jié),ZB字節(jié),YB字節(jié),以及Brontobyte。人們今后會更多地了解這些術(shù)語。

商業(yè)智能(BI):在這里引用調(diào)研機構(gòu)Gartner對商業(yè)智能的定義。商業(yè)智能(BI)是一個總括的術(shù)語,其中包括應(yīng)用程序,基礎(chǔ)設(shè)施和工具以及最佳實踐,可以訪問和分析信息,以改善和優(yōu)化決策和績效。

生物特征:這就是JamesBondish技術(shù)與分析技術(shù)相結(jié)合,通過一個或多個物理特征識別人,如面部識別,虹膜識別,指紋識別等。

點擊流分析:用于分析用戶在網(wǎng)絡(luò)上瀏覽的在線點擊。曾經(jīng)想過為什么某些Google廣告還會繼續(xù)關(guān)注你,即使切換網(wǎng)站等?因為知道你在點擊什么。

聚類分析:試圖識別數(shù)據(jù)中的結(jié)構(gòu)的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說,它試圖確定同一組案例,即觀察者,參與者,回答者。如果分組不是先前已知的,則使用聚類分析來識別病例組。因為它是探索性的,它確定了依賴變量和獨立變量之間的區(qū)別。SPSS提供的不同的聚類分析方法可以處理二進制,名義,順序和比例(間隔或比率)數(shù)據(jù)。

比較分析:大數(shù)據(jù)的核心在分析中。顧名思義,比較分析是使用諸如模式分析,過濾和決策樹分析之類的統(tǒng)計技術(shù)來比較多個進程,數(shù)據(jù)集或其他對象。人們知道它的技術(shù)性很差,但不能完全避開這個術(shù)語。比較分析可用于醫(yī)療保健,比較大量的醫(yī)療記錄,文件,圖像等更有效和更準(zhǔn)確的醫(yī)療診斷。

連接分析:你一定已經(jīng)看到這些像蜘蛛網(wǎng)一樣的網(wǎng)絡(luò)圖表連接主題等,以識別某些主題的影響者。連接分析是有助于發(fā)現(xiàn)網(wǎng)絡(luò)中人員,產(chǎn)品和系統(tǒng)之間的這些相互關(guān)聯(lián)的連接和影響,甚至組合來自多個網(wǎng)絡(luò)的數(shù)據(jù)的分析。

數(shù)據(jù)分析師:數(shù)據(jù)分析師是一個非常重要和受歡迎的工作職位,除了準(zhǔn)備報告之外,它還負(fù)責(zé)收集,操縱和分析數(shù)據(jù)。

數(shù)據(jù)清理:這有點不言自明,它涉及從數(shù)據(jù)庫中檢測和糾正或刪除不準(zhǔn)確的數(shù)據(jù)或記錄。還記得“臟數(shù)據(jù)”嗎?那么,使用人工和自動化工具和算法的組合,數(shù)據(jù)分析人員可以糾正和豐富數(shù)據(jù)以提高其質(zhì)量。記住,骯臟的數(shù)據(jù)會導(dǎo)致錯誤的分析和錯誤的決策。

DaaS:你有SaaS,PaaS和DaaS為代表的數(shù)據(jù)即服務(wù)嗎?通過向客戶提供按需訪問云托管數(shù)據(jù),DaaS提供商可以幫助快速獲取高質(zhì)量的數(shù)據(jù)。

數(shù)據(jù)虛擬化:這是數(shù)據(jù)管理的一種方法,允許應(yīng)用程序檢索和操作數(shù)據(jù),而不需要其存儲位置及其格式等的技術(shù)細(xì)節(jié)。例如,社交網(wǎng)絡(luò)將人們的照片存儲在他們的網(wǎng)絡(luò)中。

臟數(shù)據(jù):現(xiàn)在,大數(shù)據(jù)變得很流行,人們開始在數(shù)據(jù)中添加形容詞,產(chǎn)生新的術(shù)語,如暗數(shù)據(jù)、臟數(shù)據(jù)、小數(shù)據(jù),現(xiàn)在是智能數(shù)據(jù)。骯臟的數(shù)據(jù)就是不干凈的數(shù)據(jù),換句話說,是不準(zhǔn)確、重復(fù)的,以及不一致的數(shù)據(jù)。顯然,企業(yè)不希望與臟數(shù)據(jù)關(guān)聯(lián)。

模糊邏輯:人們對100%這樣的事物有多少把握?非常罕見。人類的大腦將數(shù)據(jù)聚合成部分真理,然后再抽象成某種閾值,來決定我們的反應(yīng)。模糊邏輯是一種通過模仿部分真理來模仿人腦的運算,而不是像布爾代數(shù)的其余部分那樣的“0”和“1”這樣的絕對真理。模糊邏輯在自然語言處理中得到了廣泛的應(yīng)用,并已發(fā)展成為其他與數(shù)據(jù)相關(guān)的學(xué)科。

游戲化:在一個典型的游戲中,有人們喜歡的得分要素,與他人競爭,某些游戲規(guī)則等元素。大數(shù)據(jù)中的游戲化是使用這些概念來收集數(shù)據(jù)或分析數(shù)據(jù)或通常激勵用戶。

圖形數(shù)據(jù)庫:圖形數(shù)據(jù)庫使用的概念,如節(jié)點和邊界代表人員/企業(yè)和他們的相互關(guān)系,從社交媒體挖掘數(shù)據(jù)。曾經(jīng)想過,亞馬遜如何告訴你在購買產(chǎn)品時,別人買了什么?是的,圖形數(shù)據(jù)庫!

Hadoop用戶體驗(Hue):Hue是一個開放源代碼界面,使Apache Hadoop變得更加容易。它是一個基于Web的應(yīng)用程序,并且具有用于HDFS的文件瀏覽器,MapReduce的作業(yè)設(shè)計器,用于制作協(xié)調(diào)器和工作流程的Oozie應(yīng)用程序,Shell,Impala和HiveUI以及一組HadoopAPI。

HANA:高性能分析應(yīng)用程序,來自SAP的軟件/硬件內(nèi)存中平臺,專為大量數(shù)據(jù)交易和分析而設(shè)計。

HBase:一個分布式,面向列的數(shù)據(jù)庫。它使用HDFS作為其底層存儲,并支持使用MapReduce和事務(wù)交互的批量計算。

負(fù)載平衡:跨多臺計算機或服務(wù)器分布工作負(fù)載,以實現(xiàn)系統(tǒng)的最佳結(jié)果和利用率。

元數(shù)據(jù):元數(shù)據(jù)是描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了有關(guān)數(shù)據(jù)的基本信息,可以使查找和處理特定數(shù)據(jù)實例更容易。例如,作者,創(chuàng)建日期和日期修改以及文件大小是非?;镜奈臋n元數(shù)據(jù)。除文檔文件外,元數(shù)據(jù)也用于圖像,視頻,電子表格和網(wǎng)頁。

Mongo DB:一個跨平臺的開源數(shù)據(jù)庫,它使用面向文檔的數(shù)據(jù)模型,而不是傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)。這種類型的數(shù)據(jù)庫結(jié)構(gòu)旨在使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在某些類型的應(yīng)用程序中更加容易和快速地集成。

Mashup:幸運的是,這個術(shù)語對于我們在日常生活中了解mashup的定義類似?;旧希琈ashup是將不同數(shù)據(jù)集合并為單個應(yīng)用程序的一種方法(示例:將房地產(chǎn)清單與人口統(tǒng)計數(shù)據(jù)或地理數(shù)據(jù)相結(jié)合)。這是一個非常好的可視化。

多維數(shù)據(jù)庫:針對數(shù)據(jù)在線分析處理(OLAP)應(yīng)用程序和數(shù)據(jù)倉庫進行優(yōu)化的數(shù)據(jù)庫。它只不過是數(shù)據(jù)多個數(shù)據(jù)源的中央存儲庫。

多值數(shù)據(jù)庫:它們是一種直接了解三維數(shù)據(jù)的NoSQL和多維數(shù)據(jù)庫。它們直接用于直接操作HTML和XML字符串。

自然語言處理:為使計算機更精確地理解日常人類語言而設(shè)計的軟件算法,使人們能夠更自然、更有效地與之交互。

神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)是一個美麗的生物學(xué)啟發(fā)的編程范例,使計算機能夠從觀測數(shù)據(jù)中學(xué)習(xí)。有人稱編程范例很美,本質(zhì)上,人工神經(jīng)網(wǎng)絡(luò)是由現(xiàn)實生活中大腦的生物學(xué)啟發(fā)的模型。與這種神經(jīng)網(wǎng)絡(luò)密切相關(guān)的是深度學(xué)習(xí)。深入學(xué)習(xí)則是一套功能強大的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)。

模式識別:當(dāng)一個算法在大數(shù)據(jù)集或不同的數(shù)據(jù)集中定位遞歸或規(guī)律時,就會出現(xiàn)模式識別。它緊密相連,甚至被認(rèn)為是機器學(xué)習(xí)和數(shù)據(jù)挖掘的代名詞。這種可見性可以幫助研究人員發(fā)現(xiàn)見解或得出結(jié)論,否則會被掩蓋。

RFID-射頻識別:一種使用無線非接觸式射頻電磁場傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)革命,RFID標(biāo)簽可以嵌入到每一個可能的“東西”中,以產(chǎn)生需要分析的巨大數(shù)據(jù)量。

SaaS:軟件即服務(wù),使供應(yīng)商能夠托管應(yīng)用程序并通過互聯(lián)網(wǎng)使其可用。SaaS提供商通過云計算提供服務(wù)。

半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是指以常規(guī)方式未被捕獲或格式化的數(shù)據(jù),例如與傳統(tǒng)數(shù)據(jù)庫字段或公共數(shù)據(jù)模型相關(guān)聯(lián)的數(shù)據(jù)。它也不是原始的或完全非結(jié)構(gòu)化的,并且可能包含一些數(shù)據(jù)表,標(biāo)簽或其他結(jié)構(gòu)元素。圖形和表格,XML文檔和電子郵件是半結(jié)構(gòu)化數(shù)據(jù)的示例,它在萬維網(wǎng)上是非常普遍的,通常在面向?qū)ο蟮臄?shù)據(jù)庫中。

情緒分析:情緒分析涉及捕捉和跟蹤消費者在各種交互或文件(包括社交媒體,客戶服務(wù)代表呼叫,調(diào)查等)中表達的意見,情緒或感受。文本分析和自然語言處理是情緒分析過程中的典型活動。目標(biāo)是確定或評估對公司,產(chǎn)品,服務(wù),人員或事件表達的情緒或態(tài)度。

空間分析:指分析地理數(shù)據(jù)或拓?fù)鋽?shù)據(jù)的空間數(shù)據(jù),以識別和理解分布在地理空間中的數(shù)據(jù)內(nèi)的模式和規(guī)律。

流處理:流處理旨在通過“連續(xù)”查詢對實時和流數(shù)據(jù)進行操作。隨著從社交網(wǎng)絡(luò)不斷流出的數(shù)據(jù),流處理和流分析的確需要在這些流中不間斷地計算數(shù)學(xué)或統(tǒng)計分析,以便實時處理大量的數(shù)據(jù)。

智能數(shù)據(jù):智能數(shù)據(jù)據(jù)稱是在通過算法進行的一些過濾之后,其數(shù)據(jù)是有用的和可操作的。

TB字節(jié):一個相對較大的數(shù)字?jǐn)?shù)據(jù)單元,一T字節(jié)(TB)等于1000GB字節(jié)。據(jù)估計,10T字節(jié)可以容納美國國會圖書館的全部印刷品,而1T字節(jié)可以容納1000份百科全書。

可視化:通過正確的可視化,原始數(shù)據(jù)可以投入使用。當(dāng)然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數(shù)據(jù)變量的復(fù)雜圖形,同時仍然可以理解和可讀

篇6

[關(guān)鍵詞]文本挖掘 文本挖掘工具 開源文本挖掘工具

[分類號]TP391

1、文本挖掘工具概述

文本挖掘隸屬于數(shù)據(jù)挖掘這一交叉學(xué)科的一個具體研究領(lǐng)域,它的主要任務(wù)是從海量文本中發(fā)現(xiàn)潛在規(guī)律和趨勢。文本類數(shù)據(jù)源由新聞文章、研究論文、書籍、期刊、報告、會議文獻、技術(shù)檔案、技術(shù)標(biāo)準(zhǔn)、產(chǎn)品樣本、專利說明書、Web頁面等半結(jié)構(gòu)化或者高度非結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成,含有較多機器所難于理解的自然語言,這使得文本挖掘工具與傳統(tǒng)的以結(jié)構(gòu)化數(shù)據(jù)為對象的數(shù)據(jù)挖掘工具有很大不同。

1.1 商業(yè)文本挖掘工具

近年來,國內(nèi)外文本挖掘技術(shù)發(fā)展較快,許多技術(shù)已經(jīng)進入商業(yè)化階段。各大數(shù)據(jù)挖掘工具的提供商也都推出了自己的文本挖掘工具。這些工具除具備常規(guī)的文本挖掘功能(如數(shù)據(jù)預(yù)處理、分類、聚類和關(guān)聯(lián)規(guī)則等)外,針對龐大的、非結(jié)構(gòu)化數(shù)據(jù)都能做出較好的應(yīng)對,支持多種文檔格式,文本解析能力強大,大部分支持通用數(shù)據(jù)訪問,但是價格都十分昂貴。由于每個提供商的專注領(lǐng)域或企業(yè)背景不同,工具的定位和適用性也有所不同。本文以目前市面上較為主流的10款商業(yè)文本挖掘工具為對象,針對其不同點進行了簡要的分析比較,見表1。

1.2 開源文本挖掘工具

目前開源文本挖掘較多,但大部分工具由于其固定的算法只適用于特定的場景,應(yīng)用范圍較窄,與其相關(guān)的文獻資料極少,故不納入本文的比較范圍。本文對10款較具普適性的主流開源工具進行了比較,見表2。

1.3 小結(jié)

大部分商業(yè)文本挖掘工具都對多語言、多格式的數(shù)據(jù)提供了良好的支持,且數(shù)據(jù)的前期處理功能都比較完善,支持結(jié)構(gòu)化、半結(jié)構(gòu)化和完全非結(jié)構(gòu)化數(shù)據(jù)的分析處理。開源文本挖掘工具一般會有自己固有的格式要求,國外開源文本挖掘工具對中文的支持欠佳,而且大部分開源工具仍然停留在只支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的階段。

商業(yè)文本挖掘工具的分類、回歸、聚類和關(guān)聯(lián)規(guī)則算法普遍都較開源文本挖掘工具齊全,包含了目前主流的算法,只是每個工具在算法的具體實現(xiàn)上存在差異。同時,前者在處理龐大的數(shù)據(jù)量時依舊能夠保持較高的速度和精度,后者則顯得有些望塵莫及。

目前文本挖掘還處于探索發(fā)展的階段,其中商業(yè)文本挖掘工具的發(fā)展要快于開源文本挖掘工具。不過,任何事物都有其兩面性,大部分商業(yè)軟件由于其高質(zhì)量和稀缺性而非常昂貴,不適合小企業(yè)和科研機構(gòu)。優(yōu)秀的開源文本挖掘工具則能在最大程度上滿足相關(guān)需求,并且還能夠支持加載使用者自己擴充的算法,或者直接嵌入到使用者自己的程序當(dāng)中去。

2、典型的開源文本挖掘工具比較

筆者選取了四款具有代表性的開源文本挖掘工具,在數(shù)據(jù)格式、功能模塊和用戶體驗三個方面進行詳細(xì)分析。其中Weka以算法全面得到了許多數(shù)據(jù)挖掘工作人員的青睞,LingPipe是專門針對自然語言處理開發(fā)的工具包,LIBSVM是SVM模式識別與回歸的工具包,ROST CM在各大高校應(yīng)用面非常廣,對中文的支持最好。具體比較情況如下:

2.1 數(shù)據(jù)格式

開源工具通常做不到像商業(yè)工具那樣對各種格式的數(shù)據(jù)都提供良好的支持,而會有一定的格式限制,甚至要求自身專有的數(shù)據(jù)格式。在選擇工具時,應(yīng)該首先考慮數(shù)據(jù)是否符合或者經(jīng)轉(zhuǎn)換后能夠符合工具的要求。同時,如果對工具分析的結(jié)果還要進行后續(xù)處理,也應(yīng)該事先考慮到所使用的工具的輸出格式是否常見或者能否轉(zhuǎn)換為常見的格式,以支持后期的工作。四款開源文本挖掘工具的格式要求以及輸出格式如表3所示:

可見,四款開源工具都有自己固定的格式要求,需要針對采集到的數(shù)據(jù)做格式化處理。雖然Weka支持常見的CSV格式,但是在進行后期分析時ARFF格式的文檔效果更好,一般會使用其自帶工具將CSV轉(zhuǎn)換為ARFF。Weka不支持txl格式的文檔,需要使用者用另外的工具或者自己編寫代碼實現(xiàn)格式轉(zhuǎn)換。LIBSVM使用數(shù)據(jù)格式為:::…,相關(guān)幫助文檔里提供了格式轉(zhuǎn)換函數(shù)write41ibsvm()。Lingpipe和Rost CM都支持Text文檔。

LIBSVM的數(shù)據(jù)輸出格式需要專用的工具才能打開查看,難以集成到其他應(yīng)用。其他三個開源工具的數(shù)據(jù)輸出格式更易于擴展使用。

2.2 功能模塊

功能模塊是工具開發(fā)時的重中之重,但功能最全的并非就是最好的,因為全面經(jīng)常會導(dǎo)致淺顯,而不夠深入、不夠?qū)I(yè)的分析結(jié)果是使用人員所不愿見到的。應(yīng)該根據(jù)實際情況,針對性地選擇最合適的工具來完成分析工作,這樣可達到事半功倍的效果。因此,工具的功能模塊是否符合自己的要求,通常直接左右著使用者的挑選意愿。筆者對四款開源的文本挖掘工具從文本預(yù)處理操作步驟、文本分類和回歸、文本聚類和關(guān)聯(lián)規(guī)則的各種常見算法以及能否訪問數(shù)據(jù)庫、模型評估和二次開發(fā)接口等方面進行了較為詳細(xì)的比較。

文本預(yù)處理是文本挖掘過程中至關(guān)重要的一步,它商接影響到分類、聚類、關(guān)聯(lián)規(guī)則等后期工作的效果。其中文本分詞、去停用詞、詞頻分析、文本特征提取是較為常規(guī)的操作,也是文本預(yù)處理最核心的內(nèi)容。

文本分類是在經(jīng)過預(yù)處理的數(shù)據(jù)上,選擇分類器進行訓(xùn)練、評價和反饋結(jié)果的過程。本文中,筆者僅針對分類器進行比較。常見的分類算法有TF-IDF分類、Naive Bayes分類、Knn分類、決策樹分類、神經(jīng)網(wǎng)絡(luò)分類和支持向量分類機(SVM)。分類器不存在優(yōu)劣,每一組數(shù)據(jù)都有其適合的分類器,所以在訓(xùn)練分類模型時,需要嘗試不同的分類器和不同的參數(shù),以實現(xiàn)模型優(yōu)化。

篇7

【關(guān)鍵詞】 IP化網(wǎng)絡(luò)文本 文本分類 文本聚類 組織框架

一、引言

隨著移動運營商網(wǎng)絡(luò)IP化改造日益深入,運營商內(nèi)部積累了大量跟IP化網(wǎng)絡(luò)相關(guān)的文本,而如果移動IP化網(wǎng)絡(luò)文本無法快速、準(zhǔn)確地進行分類,將會直接造成網(wǎng)絡(luò)維護工作無章可循,進而影響到網(wǎng)絡(luò)的安全性?,F(xiàn)有處理移動IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,因此,迫切需要人們研究出相關(guān)工具以對大規(guī)模的文本信息進行有效的過濾并進行自動分類組織。

本文在基于文本分類[1] [3]、聚類算法的基礎(chǔ)上實現(xiàn)了一種建立移動IP化網(wǎng)絡(luò)文本組織框架的方法,提出了一套完備且可完善的文本組織框架:采用人工聚類與機器聚類相結(jié)合的方式得到了一套科學(xué)合理的文本組織方法;采用重復(fù)分類訓(xùn)練學(xué)習(xí)過程及定期重復(fù)框架聚類過程的方式實現(xiàn)了該套文本組織框架的動態(tài)完善;將移動IP化網(wǎng)絡(luò)文本進行系統(tǒng)化管理,網(wǎng)管人員可隨時根據(jù)需要從文本庫中搜索和查詢所需要的文本,獲取相關(guān)知識。對文本分類聚類模型進行測試,結(jié)果顯示,多聚類算法得出的第二文本框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達到了70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。系統(tǒng)的部署與應(yīng)用,改變了中國移動在開展IP化過程中缺乏智能化分析系統(tǒng)的現(xiàn)狀,提高了網(wǎng)絡(luò)維護的針對性、主動性和前瞻性。

二、文本分類聚類技術(shù)模型設(shè)計

2.1 現(xiàn)有文本處理方式存在的問題

現(xiàn)有處理移動IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,網(wǎng)管人員通過查看一定數(shù)量的移動IP化網(wǎng)絡(luò)文本的全部內(nèi)容、摘要或關(guān)鍵字根據(jù)個人的工作經(jīng)驗、理解預(yù)先建立移動IP化網(wǎng)絡(luò)文本組織框架,然后根據(jù)建立的移動IP化網(wǎng)絡(luò)文本組織框架以及新的移動IP化網(wǎng)絡(luò)文本中包含的相關(guān)內(nèi)容,對該新文本進行手工分類歸檔,并通過不定期的檢查和整理的方式維護分類歸檔的移動IP化網(wǎng)絡(luò)文本。當(dāng)需要查詢IP化網(wǎng)絡(luò)相關(guān)文本時,輸入相關(guān)搜索特征詞,系統(tǒng)從移動IP化網(wǎng)絡(luò)文本組織框架的相應(yīng)分類中查詢特征詞對應(yīng)的文本,并輸出給查詢?nèi)藛T。

有上述可見,現(xiàn)有移動IP化網(wǎng)絡(luò)文本(以下簡稱為文本)處理方式存在以下缺點:(1)文本組織框架缺乏科學(xué)性及一致性?,F(xiàn)有的文本處理方式屬于粗放式的文檔管理方式,文本組織框架以及文檔的整理分類完全取決于網(wǎng)管人員的專業(yè)知識水平、業(yè)務(wù)能力及工作態(tài)度,分類的方式受個人主觀因素影響較大,不同的人有不同的看法,在這樣的方式下,很難保證各個網(wǎng)管人員構(gòu)建的文本組織框架采用統(tǒng)一客觀的分類標(biāo)準(zhǔn),缺乏科學(xué)合理性。(2)效率較低,準(zhǔn)確率不能保證。人工歸檔的方式需要消耗較多的時間,尤其在文本數(shù)量較大的情況下,不能實現(xiàn)較高的處理效率;并且這種人工歸檔的分類方式還會受到一些個人因素的影響,如專業(yè)知識水平、人為判斷的失誤等的影響,使得分類準(zhǔn)確率不高[2]。(3)不利于網(wǎng)管人員的檢索、利用現(xiàn)有文本知識。采用現(xiàn)有的處理方式處理移動IP化網(wǎng)絡(luò)文本,即網(wǎng)管人員按照自身已經(jīng)建立的文本組織框架以及閱讀文本后的理解來對文本分類,使得不同專業(yè)人員的分類方式存在偏差。由于未能采用統(tǒng)一客觀的分類標(biāo)準(zhǔn),從而使得相應(yīng)的網(wǎng)管人員對該文本的搜索、查詢與利用變得十分困難,致使文本知識的利用率低下,而且,檢索得到的文本出現(xiàn)重復(fù),也增加了檢索所需的時間,浪費了系統(tǒng)資源。

2.2 文本分類聚類模型的設(shè)計思路

該模型的主要理論基礎(chǔ)是文件聚類和文本分類算法,前者的基礎(chǔ)是先把文本進行分詞[4]和向量化表示[5] [6],即預(yù)處理過程,之后根據(jù)一定的聚類算法把具有相似性質(zhì)的文本歸為一類,以此為基礎(chǔ)可形成文本組織框架;分類的過程則是在已有文本框架的基礎(chǔ)上進行數(shù)據(jù)的訓(xùn)練過程,形成一定的分類器模型,當(dāng)有新文本進來時可以自動根據(jù)文本內(nèi)容進行文本分類。具體過程如圖1所示。

為了改變目前IP化網(wǎng)絡(luò)文本管理過程中的不足,本文在對文本挖掘進行較為廣泛的探索與研究的基礎(chǔ)上,結(jié)合人工分類及基于統(tǒng)計方法的文本聚類與文本分類方法,設(shè)計了一種面向IP化網(wǎng)絡(luò)文本挖掘算法模型。該模型充分利用了IP化網(wǎng)絡(luò)中專業(yè)術(shù)語較多的特點,通過總結(jié)歸納這些術(shù)語,形成分詞庫,抽取文本的特征詞[8-11],計算文本特征向量[8-11],實現(xiàn)文本聚類及文本分類算法的應(yīng)用。

2.3 文本分類聚類模型

對文本數(shù)據(jù)的建模和處理思路如圖2所示。

(1)模型數(shù)據(jù)源

IP承載網(wǎng)建設(shè)與維護相關(guān)OA文、維護管理辦法、建設(shè)文檔等。核心網(wǎng)VOIP改造相關(guān)OA文、維護管理辦法、建設(shè)文檔等。

(2)模型大致流程

首先為保證所形成的文本組織框架的質(zhì)量,需要選擇精度高、適應(yīng)性強的聚類算法作為聚類工具,在流程的開始階段需要進行小樣本的數(shù)據(jù)實驗,對K-means[7]、模糊C、蟻群以及層次聚類算法所形成的文本框架進行比較,并結(jié)合人工分類框架進行評估,最后選出蟻群算法這種最適合IP化網(wǎng)絡(luò)安全文本的聚類算法作為后續(xù)流程的主要聚類算法。

在選出最優(yōu)的聚類算法之后開始使用該算法對全部的文本集進行聚類,形成初步的文本組織框架;該框架作為分類的先驗知識進行分類的訓(xùn)練形成分類器,訓(xùn)練方法有很多,本文采用了支撐向量機(SVM [6])和KNN[7]兩種方法進行訓(xùn)練,通過比較發(fā)現(xiàn)前者較優(yōu)。

分類器形成之后,當(dāng)有新的文本進來時,分類器會自動根據(jù)文本內(nèi)容對其進行分類,并將文本歸入相應(yīng)的文件夾下。每周一段時間可以結(jié)合專家知識對誤判率進行計算和評估,如果誤判率高于臨界值,就說明原來的文本框架已經(jīng)不再適用于新的文本集,需要對現(xiàn)有的全部文本集進行重新聚類形成新的文本分類框架,這樣就實現(xiàn)了文本組織框架的更新和完善過程?;谒纬傻奈谋究蚣埽W(wǎng)絡(luò)安全維護人員可以進行方便快捷的檢索和學(xué)習(xí)。

(3)模型預(yù)期效果

①可優(yōu)選一種與人工分類結(jié)果較為接近的文本聚類算法,可實現(xiàn)大數(shù)據(jù)量文本的準(zhǔn)確聚類;②可對新增文本進行較為準(zhǔn)確的分類,減輕網(wǎng)管人員進行文本管理的壓力;③可實現(xiàn)對文本的多為搜索,幫忙網(wǎng)管人員更為精確地找到所需要的文本。

三、文本分類聚類技術(shù)模型的實現(xiàn)

3.1 文本分類聚類技術(shù)模型實現(xiàn)概述

所述的數(shù)據(jù)輸入模塊用于采集IP化網(wǎng)絡(luò)安全文本數(shù)據(jù);所述的數(shù)據(jù)分析模型用于接收數(shù)據(jù)輸入模塊傳遞來的數(shù)據(jù),并且對接收到的數(shù)據(jù)進行挖掘分析,形成四個數(shù)據(jù)分析子模塊;所述的分析結(jié)果輸出模塊用于把數(shù)據(jù)分析模塊分析的結(jié)果結(jié)合輸出要求呈現(xiàn)給輸出端;在模型中,所述的移動IP化網(wǎng)絡(luò)文本數(shù)據(jù)包括設(shè)備指標(biāo)文本、IP承載網(wǎng)文本、交換設(shè)備文本、全網(wǎng)業(yè)務(wù)文本及安全管理與網(wǎng)管支撐文本;所述的數(shù)據(jù)分析模塊中的四個數(shù)據(jù)分析子模塊分別是:專家處理子模塊、多聚類算法子模塊、文本分類及文本框架完善子模塊和文本組織框架合成模塊。具體如圖3所示。

本文同時提供上述文本數(shù)據(jù)分析模型的實現(xiàn)方法,具體步驟如圖4所示。

下面結(jié)合實例給予說明:

1.數(shù)據(jù)輸入步驟:通過數(shù)據(jù)輸入模塊導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù),IP化網(wǎng)絡(luò)文本數(shù)據(jù)包括集團公司、省公司、地市公司的很多發(fā)文、管理辦法和不同地方網(wǎng)絡(luò)維護案例文本及不同部門交流文本數(shù)據(jù)。

2. 數(shù)據(jù)分析步驟:

A.專家處理子模塊步驟:本文的方法以IP化網(wǎng)絡(luò)文本數(shù)據(jù)為基礎(chǔ),先通過專家處理子模塊讓專家對現(xiàn)有小樣本的文本數(shù)據(jù)進行整理,得出IP化網(wǎng)絡(luò)文本數(shù)據(jù)的分類框架。比如框架第一層氛圍分為指標(biāo)類材料、IP承載網(wǎng)類材料、交換設(shè)備類材料、全網(wǎng)業(yè)務(wù)材料、安全管理與網(wǎng)管支撐材料五大類,每一大類都又分為不同子類。如表1所示。

B.多聚類算法處理子模塊:通過聚類算法子模塊采用不同的聚類算法對小樣本的IP化網(wǎng)絡(luò)文本數(shù)據(jù)進行分析,得出不同的分類結(jié)果;比如通過k-means聚類算法、模糊c均值聚類算法、蟻群聚類算法、層次聚類算法等不同聚類方法進行聚類計算,并輸出聚類結(jié)果。通過對小數(shù)據(jù)樣本聚類得出的結(jié)果作為評價來選出適合IP化網(wǎng)絡(luò)文本的聚類算法,當(dāng)遇到大的數(shù)據(jù)樣本時,應(yīng)用已經(jīng)選出的聚類算法進行挖掘。比如小樣本中蟻群聚類算法結(jié)果最為貼近專家分類結(jié)果,后面的聚類方法就都采用蟻群聚類算法來進行挖掘。

C.文本組織框架合成模塊:把聚類算法子模塊輸出的分類結(jié)果和專家分類結(jié)果比對,采用專家分類結(jié)果作為文本數(shù)據(jù)分類的框架,將小樣本的專家分類結(jié)果作為指導(dǎo),將和專家分類結(jié)果最相近的聚類算法的聚類結(jié)果填入專家分類結(jié)果中,實現(xiàn)全部文本數(shù)據(jù)的合理分類。

D.文本分類及文本框架完善子模塊:新的文本進來,文本分類及文本框架完善模塊會依據(jù)現(xiàn)有合理的文本組織通過文本分類算法對新進入的文本進行分類,專家判斷錯誤率到達了多少,如果錯誤率高于閾值,就會記錄為誤判,把所有的數(shù)據(jù)用在階段最優(yōu)的算法重新進行聚類計算,然后通過文本組織框架合成模塊合成新的文本組織框架;具體的邏輯框架圖如圖5所示。

3.分析結(jié)果輸出步驟:在數(shù)據(jù)分析結(jié)果輸出模塊,用戶可以根據(jù)自己的需求通過樹形框架結(jié)構(gòu)找到自己想要的文本,也可以通過關(guān)鍵詞搜索,得到最相關(guān)的搜索結(jié)果。大大提高對公司現(xiàn)有文本資源的利用效率。

3.2 文本分類聚類技術(shù)模型的具體實現(xiàn)

本模型是一種建立移動IP化網(wǎng)絡(luò)文本組織框架的方法。該方法根據(jù)預(yù)先設(shè)定的樣本量建立第一文本組織框架,應(yīng)用多聚類算法對所述預(yù)先設(shè)定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法建立的第二文本組織框架,根據(jù)所述第一文本組織框架和所述第二文本組織框架建立文本組織框架。本模型在實現(xiàn)過程中具體流程如圖6所示。

步驟1:根據(jù)預(yù)先設(shè)定的樣本量建立第一文本組織框架。本步驟中,預(yù)先設(shè)定的樣本量為一定數(shù)量的IP化網(wǎng)絡(luò)文本,本實驗中,預(yù)先設(shè)定的樣本量為小樣本量,IP化網(wǎng)絡(luò)領(lǐng)域內(nèi)的專業(yè)技術(shù)人員根據(jù)已有的專業(yè)技術(shù)框架、自身的工作過程中積累的經(jīng)驗及對文本的理解來實現(xiàn)IP化網(wǎng)絡(luò)文本組織框架的制定,比如,根據(jù)各文本的文本特征向量[8-11],建立五大類的IP化網(wǎng)絡(luò)文本組織框架,即文本組織框架包括:指標(biāo)類材料、IP承載網(wǎng)類材料、交換設(shè)備類材料、全網(wǎng)業(yè)務(wù)材料及安全管理與網(wǎng)管支撐材料,并計算每類對應(yīng)的分類文本特征向量[8-11]。當(dāng)然,實際應(yīng)用中,也可以根據(jù)實際的需要,按照文本特征向量[8-11]構(gòu)造其他類型的IP化網(wǎng)絡(luò)文本組織框架,比如,將IP化網(wǎng)絡(luò)文本按照集團公司、省公司、地市公司的發(fā)文、管理辦法、不同地方網(wǎng)絡(luò)維護案例文本及不同部門交流文本數(shù)據(jù)進行劃分,構(gòu)造相應(yīng)類別的IP化網(wǎng)絡(luò)文本組織框架。

在模型實現(xiàn)過程中,對于IP化網(wǎng)絡(luò)文本組織框架下的每個大類,又可以分為不同的子類并設(shè)置每個子類對應(yīng)的子分類文本特征向量[8-11],比如,將IP化承載網(wǎng)類材料分為五大子類,分別為:設(shè)備建設(shè)方案、日常維護管理辦法、安全評估與巡檢、省際IP承載網(wǎng)相關(guān)文件、網(wǎng)絡(luò)改造與調(diào)整;交換設(shè)備類材料分為工程建設(shè)方案及管理辦法、專項提升活動等子類;全網(wǎng)業(yè)務(wù)材料分為網(wǎng)絡(luò)運行維護實施、應(yīng)急處理與重大故障等子類;安全管理與網(wǎng)管支撐材料分為賬號與口令安全管理辦法、其他安全管理辦法及文件等子類。請參見表2所示的IP化網(wǎng)絡(luò)文本組織框架示例。

本步驟中,由于專業(yè)技術(shù)人員具有良好的專業(yè)技術(shù)水平及豐富的經(jīng)驗,對文本的理解較為全面、準(zhǔn)確,使得對文本進行分類的準(zhǔn)確性高,描述各個分類的文本特征向量[8-11]恰當(dāng)、準(zhǔn)確性高。從而使得建立的文本組織框架科學(xué)性強、可信度高,可作為優(yōu)選聚類算法的主要依據(jù);同時,由于預(yù)先設(shè)定的樣本數(shù)量不會太多,分類、歸檔所需的時間較少,屬于在人工可處理的范圍內(nèi)。

步驟2:應(yīng)用多聚類算法對預(yù)先設(shè)定的樣本量進行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。

該優(yōu)選聚類算法將在第一文本組織框架已無法進行準(zhǔn)確分類的情況下,啟動計算,得出第二文本組織框架,用于文本分類。

本步驟中,多聚類算法(文本挖掘算法)包括:k-means[7]聚類算法(k-means Clustering Algorithm)、模糊c均值聚類算法(Fuzzy C-means Clustering Algorithm)、蟻群聚類算法(Ant Colony Optimization Algorithm)、層次聚類算法(Hierarchical Clustering Algorithm)等。各算法及對文本的聚類流程屬于現(xiàn)有技術(shù),其詳細(xì)描述請參見相關(guān)技術(shù)文獻,在此不再累贅。

實際應(yīng)用中,由于不同的聚類算法對相同數(shù)量的樣本進行聚類時,其聚類結(jié)果可能存在較大的差別,且各聚類算法的聚類結(jié)果真實可靠性也無從評估,因而,采用不同的聚類算法將對聚類結(jié)果產(chǎn)生實質(zhì)性的影響。本示例中,通過選用不同的聚類算法對預(yù)先設(shè)定的相同數(shù)量的樣本進行聚類,對聚類結(jié)果(文本組織框架)與第一步中建立的IP化網(wǎng)絡(luò)文本組織框架進行比較,選取與人工分類結(jié)果的相近程度最好的聚類算法結(jié)果對應(yīng)的聚類算法,作為優(yōu)選聚類算法。

步驟3:以第一為文本組織框架作為文本分類依據(jù)。本步驟中,在得到第一文本組織框架及優(yōu)選的聚類算法的基礎(chǔ)。

步驟4:根據(jù)所述文本組織框架,對新文本進行分類。本步驟中,導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù)后,按照每個樣本包含的內(nèi)容,抽取文本中的關(guān)鍵詞,構(gòu)造各文本的文本特征向量[8-11],以文本組織框架為依據(jù),將新文本的文本特征值與文本組織框架中各類包含的文本特征值進行匹配,將該新文本分類至文本組織框架中相應(yīng)的類別中。

被分類的樣本經(jīng)過預(yù)處理,抽取文本中的特征詞[8-11],獲取各文本的文本特征向量,與文本組織框架中各子類包含的文本特征向量進行匹配,將各文本分類到文本組織框架中相應(yīng)的子類;于此同時,抽取新增的部分文本進行人工分類,比較人工分類與自動分類的誤差,當(dāng)誤差超過閾值時,啟動已選出的優(yōu)選聚類算法建立的第二文本組織將文本分類,比如,上述示例第二步中,假設(shè)蟻群聚類算法對預(yù)先設(shè)定的樣本的算法結(jié)果(第二文本組織框架)最為貼近建立的第一文本框架。當(dāng)誤差超過閾值時,重新啟動蟻群聚類算法計算第二文本組織框架。

本模型實現(xiàn)過程中,還可以利用文本分類結(jié)果,對所建立的文本組織框架進行調(diào)整,參見步驟5。

步驟5:從新的文本中,選取一定數(shù)量的文本,根據(jù)第一文本組織框架進行人工分類;本步驟中,選取的這一定數(shù)量的文本,在步驟4中已進行了自動分類,將自動分類結(jié)果與人工分類結(jié)果進行比較。

步驟6:將自動分類結(jié)果與人工分類結(jié)果進行比較,如果自動分類結(jié)果誤差大于預(yù)先設(shè)定的閾值,啟動優(yōu)選聚類算法,計算新文本組織框架,作為第二文本組織框架,代替第一文本組織框架。本步驟中,預(yù)先設(shè)定的閾值可以是自動分類結(jié)果與人工分類結(jié)果中包含的相異的文本個數(shù)與人工分類結(jié)果包含的文本個數(shù)之比。如果沒有超出該閾值,表明當(dāng)前建立的文本組織框架運行良好,可靠性高;如果超出該閾值,需要按照人工分類結(jié)果調(diào)整文本組織框架中各大類相應(yīng)子類對應(yīng)的文本特征向量[8-11],或者重新應(yīng)用前述優(yōu)選的聚類算法對所有文本(新舊文本)進行聚類,得到新的文本組織框架,用該新的文本組織框架代替原有的文本組織框架,當(dāng)自動分類結(jié)果誤差大于預(yù)先設(shè)定的閾值時,重新啟動優(yōu)選的聚類算法進行聚類得到新的文本組織框架。

實際應(yīng)用中,上述對所建立的文本組織框架進行調(diào)整,主要是在利用第一文本組織框架對新文本分類時,由于建立的第一文本組織框架是基于有限的樣本量,因而,在大樣本量的情況下,可能存在一定的分類誤差,而且隨著樣本量的不斷增大,其誤差可能也越來越大,因而,通過人工評估,當(dāng)誤差超出預(yù)先設(shè)定的閾值時,可以用前述的優(yōu)選文本聚類算法結(jié)合人工評估結(jié)果重新生成文本組織框架,以替換該第一文本組織框架。

當(dāng)然,在建立文本組織框架后,網(wǎng)管人員就可以利用該文本組織框架進行搜索和查詢,獲取所需的文本,例如,網(wǎng)管人員可以輸入搜索特征詞,文本組織框架查詢關(guān)鍵詞對應(yīng)的文本特征值[8-11],將該文本特征值所屬的搜索結(jié)果(文本概述等信息以及文本所屬的大類及子類)輸出給網(wǎng)管人員,這樣,與傳統(tǒng)的關(guān)鍵詞的搜索方式不同,由于可根據(jù)文本特征值進行搜索,搜索情況更接近文本的內(nèi)容,每個文本可供搜索的內(nèi)容更多,使用文本搜索更貼近文本內(nèi)容。

四、測試與分析

通過模塊層次圖和數(shù)據(jù)流圖的進一步設(shè)計,基于VC編程環(huán)境,本研究將設(shè)計的模型進一步在機器上實現(xiàn),開發(fā)出IP化文本分類組織框架和基于文本內(nèi)容的搜索。測試結(jié)果表明多聚類算法得出的第二文本組織框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達到了70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.1 測試系統(tǒng)

對于中國運營商來說,3G的日益臨近,網(wǎng)絡(luò)IP化成為一種不可逆轉(zhuǎn)的趨勢。通過對現(xiàn)有網(wǎng)絡(luò)進行IP化的改造來實現(xiàn)多網(wǎng)融合最終完成3G網(wǎng)絡(luò)的建設(shè)已經(jīng)成為國內(nèi)外各大運營商的共識,IP化網(wǎng)絡(luò)在核心網(wǎng)的比重越來越大。目前,對計算機IP網(wǎng)絡(luò)的評估已經(jīng)有一些研究成果及應(yīng)用系統(tǒng)。但是,針對運營商中IP化網(wǎng)絡(luò)具體特點,建立科學(xué)、可行的安全評估模型但成了擺在中國運營商面前的一個重要的問題,同時也是在地市公司在從事具體維護工作中不得不去思考的一個問題。

目前,對于IP網(wǎng)絡(luò)的評估方法一般需要一些先驗知識,如威脅出現(xiàn)的概率、無形資產(chǎn)賦值等,而準(zhǔn)備獲得這些數(shù)據(jù)是存在困難的,為此,已有的模糊、神經(jīng)網(wǎng)絡(luò)等方法建立的安全估計模型只能對于局部系統(tǒng)進行評價,且多局限的理論的說明,未能有一些全面的,可行的安全評估模型及可投入使用的評估系統(tǒng)的產(chǎn)生。因此,本產(chǎn)品希望從移動運營商IP化網(wǎng)絡(luò)的運營實際出發(fā),從技術(shù)、管理、安全意識等更加宏觀的層面來審視安全評估問題,并依托省網(wǎng)管已經(jīng)建立的“網(wǎng)絡(luò)運營支撐平臺”,建立基于粗糙集的IP化網(wǎng)絡(luò)安全評估系統(tǒng)。

對于地市公司公司來說,隨著公司網(wǎng)絡(luò)集中化建設(shè)的進行,地市公司對IP網(wǎng)絡(luò)的維護權(quán)限多停留在設(shè)備的維護方面,維護行為也多以被動實施為主,往往缺乏對自身網(wǎng)絡(luò)安全性的科學(xué)及客觀的把握。為此,該系統(tǒng)所采用的模型也從地市公司IP化網(wǎng)絡(luò)的具體建設(shè)及維護實踐出發(fā),采用粗糙集的理論來建立網(wǎng)絡(luò)的安全模型、采用粗糙集理論來分析網(wǎng)絡(luò)各項安全因素的輕重關(guān)系,輸出決策規(guī)則,建立IP網(wǎng)絡(luò)下客戶感知及網(wǎng)絡(luò)質(zhì)量的共同提升模型,從而建立起一套科學(xué)完善的IP網(wǎng)絡(luò)評估算法,從而為地市公司從事IP化網(wǎng)絡(luò)的建設(shè)和維護提供指導(dǎo),變被動為主動,全面提升IP化網(wǎng)絡(luò)建設(shè)與維護的有效性。

本文設(shè)計的文本挖掘模塊作為該系統(tǒng)中重要的一個組成部分,對于IP化安全文的深入挖掘,實現(xiàn)IP化網(wǎng)絡(luò)的安全保障起著重要的作用。對于粗糙集實現(xiàn)網(wǎng)絡(luò)安全評估方面因為不是論文的主要內(nèi)容。因此不作主要描述。本文重點描述了一種面向IP化網(wǎng)絡(luò)文本挖掘模型在系統(tǒng)中的具體實現(xiàn)。

文本模塊從文本導(dǎo)入、文本框架導(dǎo)入、聚類方法選擇、文本聚類、文本分類、文本搜索和瀏覽等方面把模型中的主要功能分別在不同模塊中實施。其中聚類方法選擇模塊中集成了K-means聚類算法、模糊C聚類算法、分層聚類算法和蟻群聚類算法,是模塊中的核心部分。系統(tǒng)的模塊層次如圖7所示。

在系統(tǒng)的模型層次圖的基礎(chǔ)上,進一步設(shè)計研究了系統(tǒng)的數(shù)據(jù)流圖,從數(shù)據(jù)輸入層、數(shù)據(jù)預(yù)處理層、核心算法層、用戶使用層等層面圍繞文本組織框架為核心全面鋪開。找出系統(tǒng)輸入、處理、輸出過程中的關(guān)鍵數(shù)據(jù)存儲和邏輯處理,理清了內(nèi)部邏輯的相互關(guān)系。系統(tǒng)的數(shù)據(jù)流圖如圖8所示。

4.2 系統(tǒng)相關(guān)模塊的功能說明

在系統(tǒng)實現(xiàn)過程中,主要實現(xiàn)了如下幾個模塊:IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊,各模型具體功能如下:(1) IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊:用于導(dǎo)入IP化網(wǎng)絡(luò)安全文本數(shù)據(jù),分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2) 第一文本組織框架處理模塊:用于對接收的文本進行分類整理,建立第一移動IP化網(wǎng)絡(luò)文本組織框架,并將建立的第一移動IP化網(wǎng)絡(luò)文本組織框架信息分別輸出至聚類結(jié)果匹配模塊及文本組織框架生成模塊;(3)多聚類算法模塊:用于根據(jù)預(yù)先設(shè)置的多聚類算法對接收的文本進行聚類,向聚類結(jié)果匹配模塊輸出聚類結(jié)果;(4) 聚類結(jié)果匹配模塊:用于根據(jù)接收的第一移動IP化網(wǎng)絡(luò)文本組織框架信息匹配來自多聚類算法模塊的聚類結(jié)果,將與第一文本組織框架最為相似的聚類算法的聚類結(jié)果信息輸出至文本組織框架生成模塊;(5) 文本組織框架生成模塊:用于根據(jù)接收的第一移動IP化網(wǎng)絡(luò)文本組織框架信息以及聚類結(jié)果信息建立文本組織框架。

IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊等5模塊具體邏輯關(guān)系如圖9所示。

在實現(xiàn)過程中,該模塊可以進一步包括如下可擴展模塊:(1)文本分類模塊,用于依據(jù)文本組織框架生成模塊中存儲的文本組織框架信息,對來自IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊的文本進行自動分類。(2)文本組織框架調(diào)整模塊,用于接收來自文本分類模塊的自動分類結(jié)果、以及來自第一文本組織框架處理模塊對同批量文本的人工分類結(jié)果并進行比較,如果自動分類結(jié)果誤差大于預(yù)先設(shè)定的閾值,按照人工分類結(jié)果調(diào)整文本組織框架生成模塊存儲的文本組織框架信息。(3)搜索和查詢模塊,用于接收來自外部的搜索關(guān)鍵詞,發(fā)送至文本組織框架生成模塊,將文本組織框架生成模塊根據(jù)存儲的文本組織框架信息查詢得到的關(guān)鍵詞對應(yīng)的文本信息進行輸出。

系統(tǒng)中各模塊相互協(xié)同共同完成模型所要求的功能,流程如下:(1)IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊,其中,IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊,用于導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù),分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2)第一文本組織框架處理模塊,主要有領(lǐng)域?qū)<襾硗瓿桑I(lǐng)域?qū)<彝ㄟ^人工的方式來獲取接收的文本信息中包含的關(guān)鍵詞,根據(jù)關(guān)鍵詞構(gòu)造各文本的文本特征向量[8-11],利用文本特征向量對所述預(yù)先設(shè)定的樣本量的IP化網(wǎng)絡(luò)文本進行分類整理,建立第一IP化網(wǎng)絡(luò)文本組織框架,并將建立的第一IP化網(wǎng)絡(luò)文本組織框架信息分別輸出至聚類結(jié)果匹配模塊及文本組織框架生成模塊;(3)多聚類算法處理模塊,用于根據(jù)預(yù)先設(shè)置的多聚類算法對接收的文本進行聚類,向聚類結(jié)果匹配模塊輸出聚類結(jié)果;聚類結(jié)果匹配模塊,用于根據(jù)接收的第一IP化網(wǎng)絡(luò)文本組織框架信息匹配來自多聚類算法模塊的聚類結(jié)果,將與第一文本組織框架最為相似的聚類算法的聚類結(jié)果信息輸出至文本組織框架生成模塊;(4)文本組織框架生成模塊,用于根據(jù)接收的第一IP化網(wǎng)絡(luò)文本組織框架信息以及聚類結(jié)果信息建立文本組織框架。

4.3 系統(tǒng)相關(guān)模塊的功能說明

通過移動公司的IP化網(wǎng)絡(luò)文本測試了本研究設(shè)計的功能模塊,測試結(jié)果顯示文本框架與專家分類框架具有很大區(qū)分特征,文本分類的正確率達到70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.3.1 文本聚類測試結(jié)果分析

該部分通過文本聚類實現(xiàn)文本框架的形成。系統(tǒng)提供四種聚類方法的實現(xiàn):K-means[7]、模糊C聚類、層次聚類、蟻群聚類算法;每種聚類之后,都將在下方的顯示框中展示聚類的結(jié)果,也即文本組織框架。之后通過比較不同聚類的聚類結(jié)果,選出最優(yōu)的聚類算法。

K-means[7]聚類算法可以調(diào)整三個參數(shù):聚類數(shù)目、最大迭代次數(shù)、文檔向量維數(shù)?,F(xiàn)有文本專家聚類分為3類:IP承載網(wǎng)、全網(wǎng)業(yè)務(wù)、安全管理與網(wǎng)管支撐。

模糊C均值聚類算法可以調(diào)整五個參數(shù):聚類數(shù)目、誤差限、參數(shù)m、最大迭代次數(shù)、文檔向量維數(shù)。其中參數(shù)m的調(diào)整范圍為1.5~2.5。如圖10所示。

其中K-means[7]聚類算法將文本通過迭代1000次,采用100個特征詞提取出文檔向量,分出第一類的文本數(shù)量為67,第二類的文本數(shù)量為2,第三類文本數(shù)量為1。如圖11所示。

4.3.2 文本分類測試結(jié)果分析

該部分暫時無需選擇路徑,僅采用樣本數(shù)據(jù)實現(xiàn),因為專家分類文檔沒有經(jīng)過聚類算法,提取不出特征值,無法作為分類;此環(huán)節(jié)耗時較長,可能需2-3分鐘,各機器性能不一可能略有差別。

本部分工作的基礎(chǔ)是使用上一步驟選取最優(yōu)的聚類算法對所有文本進行聚類形成合理的文本組織框架并訓(xùn)練形成分類器。分類器形成后,就可以對新進入的文本進行分類,一般分類正確率在70%以上。

圖12展示了對實驗數(shù)據(jù)進行分類的結(jié)果,對34個文本進行分類,分類正確率達到80%。證明該文本框架所形成的分類器具有較好的分類能力。圖中標(biāo)紅的文本本分到了錯誤的類別中了,其余是被正確分類的文本;分完后可以查看通過上面的選擇查看單個文本分類情況,如圖13。

4.3.3 文本搜索測試結(jié)果分析

本部分是基于前述文本組織框架的文本搜索模塊,目前系統(tǒng)可供使用的檢索詞包括發(fā)文單位(集團、省公司、使公司)、文本類別(通知、申請、報告、自查報告、緊急通知等)、文件名(輸入要找的關(guān)鍵詞,系統(tǒng)將使用該關(guān)鍵詞在所有文本的文件名中進行檢索)、發(fā)文時間等。系統(tǒng)正在實現(xiàn)的功能是基于特征詞的檢索,在文本分詞階段每一個文本都被分成若干特征詞所表示的向量,輸入特征詞就可以實現(xiàn)基于內(nèi)容的檢索,大大提高了檢索的效率和準(zhǔn)確度。

其中基于內(nèi)容的特征詞的搜索是一個創(chuàng)新,通過文本訓(xùn)練,提取出所有搜索范圍內(nèi)的文本的特征詞,通過特征詞的頻率來確定不同文本的區(qū)別,如100維特征詞的訓(xùn)練結(jié)果就將不同文本通過挑選出來的100個文本特征詞的頻率來表示,實現(xiàn)文本的向量化,如果某一特征詞在文本中沒有出現(xiàn),則向量這個點上的取值為0。訓(xùn)練后的文本集就形成了一張二維表,一個維度是文本,一個維度是特征詞,這個二維表是基于文本內(nèi)容訓(xùn)練出來的,通過此二維表的特征詞來搜索文本比其他幾個維度效率更好,效果更好。

如圖14所示,搜索范圍選擇IP化安全管理系統(tǒng)文件夾中的clusters文件夾(因為要基于特征詞搜索需要有能提供特征詞的文件夾)。

查詢得到的文本可直接在檢索結(jié)果欄中打開閱讀。如圖15所示。

篇8

關(guān)鍵詞:越南語;語料庫;分詞軟件

中圖分類號:TP391.1

包括越南國家本身,世界上約有九千萬人講越南語;按世界母語使用人數(shù)排行,越南語列第十六位,顯然,越南語已經(jīng)不是真正意義上的小語種,而是一門重要的語言。盡管越南語的語系歸屬尚未確定,有語言學(xué)者認(rèn)為越南語是一種孤立語言;較多的學(xué)者則認(rèn)為越南語屬于南亞語系的孟-高棉語族,但無容置疑的是越南語與印歐語言密切相關(guān)。在書寫形式上,現(xiàn)代越南語采用的是擴展的拉丁符號;在組成上,越南語單音節(jié)詞居多;在形態(tài)上,語法意義是通過語法詞等詞來實現(xiàn)。以上特點使得越南語與西方語言與東方語言既有相似之處,又有區(qū)別。實際上,一般認(rèn)為,在越南語中,詞匯是由"ti?ng"(字)構(gòu)成。目前,越南語共有字八千左右。有的字本身就是一個詞,有的由二個字構(gòu)成,有的由三個字構(gòu)成,甚至有的由四、五個字構(gòu)成。因此越南語的詞匯構(gòu)成比較復(fù)雜,具體來講就是復(fù)合詞多,但由于在書寫上字與字之間有空格(有的字本身就是詞,也就是詞與詞之間有空格),這與英語等西方語言相似,而英語等書寫時空格是詞的天然分隔界線;越南語則需要判斷詞的構(gòu)成。其實,漢語由漢字組成,有的漢字本身就是一個詞,有的則不是,是由兩個或兩個以上的漢字構(gòu)成。在這一點上,越南語與漢語呈現(xiàn)出較強的相似性。在自然語言處理、語言研究等領(lǐng)域,詞匯劃界是第一步,也是最關(guān)鍵的一步。在分詞的實踐過程中,少量的語料可通過人工來完成,但大批量的語料通過人工來做顯然不可能。因此開發(fā)計算機程序來進行自動分詞并進行自動詞性標(biāo)注成為趨勢。以漢語為例,現(xiàn)在比較成熟的分詞軟件比較多,典型的有中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)分詞正確率高達97.58%,已被日本、新加坡、韓國、美國以及其他國家和地區(qū)的人員使用。(見劉克強,2009);此外,教育部語言文字應(yīng)用研究所計算語言學(xué)研究室研制的CorpusWordParser也被廣大用戶使用。越南語分詞與標(biāo)注軟件發(fā)展相對緩慢,但近幾年來也有相當(dāng)不錯的幾件產(chǎn)品問世,促進了越南語自然語言處理及越南語研究的發(fā)展。下面首先回顧下分詞軟件的發(fā)展與歷史,然后介紹越南語分詞軟件,最后說明分詞后的語料的作用。

1 分詞軟件的類型及特點

分詞軟件顧名思義一般是指給文本進行分詞并標(biāo)注詞類的計算機程序。分詞軟件的研制始于英語語料。自從世界上第一個電子語料庫Brown語料庫于1964年問世,學(xué)者們經(jīng)過十年左右的努力,終于推出了第一個詞性標(biāo)注版的Brown語料庫??梢哉f,Brown語料庫無論是在語料庫建設(shè)方面還是在計算機自動詞性標(biāo)注方面都是開拓性的。Brown語料庫的標(biāo)注程序名為TAGGIT,是基于英語語言規(guī)則設(shè)計的,該程序工作分兩個階段:第一階段先給每個詞指定一個或幾個初始詞性,如“l(fā)ike”給出介詞、動詞、名詞、形容詞、連詞及副詞共六種初始詞性;第二階段運用“上下文框架規(guī)則”進行詞性排歧,盡可能地獲得唯一的詞性。程序使用的上下文框架規(guī)則多達3300條,標(biāo)注的準(zhǔn)確率為77%(Greene&Rubin,1971),該系統(tǒng)采用86種詞性標(biāo)記。盡管現(xiàn)在看來準(zhǔn)確率較低,但當(dāng)時已為詞性自動標(biāo)注的一大突破,此后問世的其它類型的標(biāo)注軟件很多是在標(biāo)注后的Brown語料庫訓(xùn)練基礎(chǔ)上研制的。

根據(jù)程序所使用的原理,可將軟件分成三類:基于語法規(guī)則;基于概率;基于神經(jīng)網(wǎng)絡(luò)/基于轉(zhuǎn)換(模板)。上述的TAGGIT是典型的基于語法規(guī)則的詞性標(biāo)注系統(tǒng),應(yīng)該說對于特定的語料,使用限于一定的范圍內(nèi),基于規(guī)則的錯誤率較低,但由于語言規(guī)則的不可窮盡性和語言的復(fù)雜性,特殊是語料容量龐大時,這種方法的局限性就明顯出來,準(zhǔn)確率會大打折扣。

基于概率的方法,就是利用統(tǒng)計的方法,通過概率確定詞的具體詞性。LOB語料庫首先采用此方法。在英國蘭卡斯特(Lancaster)大學(xué)由著名語言學(xué)家Leech的領(lǐng)導(dǎo)下,研究小組根據(jù)LOB語料庫提供的133×133個標(biāo)注過渡矩陣研制了CLAWS(the Constituent Likelihood Automatic Word-tagging System)程序,使用133種詞性標(biāo)記,標(biāo)注準(zhǔn)確率達96-97%。此后不斷改進,目前推出CLAWS 4.0版,詞性標(biāo)記多達170個。基于概率的方法是準(zhǔn)確率高,能處理“不規(guī)范”的表達,但由于使用的矩陣概率的方法,缺少語言學(xué)信息,不能處理相距較遠的附碼。

基于神經(jīng)網(wǎng)絡(luò)/基于轉(zhuǎn)換(模板)的方法,目前介紹較少,因此往往將基于轉(zhuǎn)換的方法稱為詞性標(biāo)注的第三種方法。該方法也使用概率統(tǒng)計原則,但與概率方法不同的是,在詞類最可能的概率獲得后,編制一套轉(zhuǎn)換規(guī)則的模板,用這模板重新標(biāo)注語料,再次產(chǎn)生新的規(guī)則,如此周而復(fù)始,直到?jīng)]有新的規(guī)則。此方法總體正確率高,效率也高,但缺點是如果標(biāo)注語料與訓(xùn)練語料語域類型不同時,則準(zhǔn)確率明顯下降,呈現(xiàn)不穩(wěn)定性。

2 越南語詞性標(biāo)注軟件

越南語的詞性標(biāo)注軟件發(fā)展相對滯后,據(jù)可獲得的文獻,這些軟件基本都是在本世紀(jì)初近更近的時間研制的,目前可以下載共享的有VLSP(Vietnamese Language and Speech Processing),即越南越南語語言及言語處理項目組成員開發(fā)的系列軟件,其中包括分詞軟件,如VietTagger,JVnTagger及JVnTextPro。其中,后者兩者為前者的升級版,目前版本分別為JVnTagger 1.0.0,JVnTextPro 2.0;另一個就是越南河內(nèi)國家大學(xué)Lê H?ng Ph??ng博士開發(fā)的越南語文本處理工具包vnToolkit 3.0,其中含括分詞軟件vnTokenizer、詞性標(biāo)注軟件vnTagger以及分句軟件vnSentDetector。據(jù)Lê H?ng Ph??ng個人主頁介紹,vnTokenizer 的準(zhǔn)確率和召回率介于96%―98%之間,而vnTagger的準(zhǔn)確率達到96%左右,目前vnTagger的最新版本為4.2.0。

軟件VietTagger,JVnTagger及JVnTextPro依據(jù)最大熵原理和條件隨機場開發(fā),屬于概率型分詞軟件,軟件按輸入文本、斷句、切句、分詞、標(biāo)注及輸出六個步驟進行,用戶可在此基礎(chǔ)上進行二次開發(fā);vnTagger可在Unix/Linux和Windows操作系統(tǒng)下運行。下表以JVnTagge 1.0.0和vnTagger 4.2.0版本為例,列出兩款軟件的特點:

表1 JVnTagge 1.0.0和vnTagger4.2..0特點

開發(fā)者 準(zhǔn)確率 語言 賦碼集 處理對象 輸出格式

JVnTagger 1.0.0 Phan Xu?n Hi?u 93% Java 17 文件夾 txt

vnTagger 4.2.0 Lê H?ng Ph??ng 96% Java 17 單文本 Txt,xml

從上表可發(fā)現(xiàn),JVnTagge 1.0.0的最大特點是可進行批量標(biāo)注,效率高;vnTagger 4.2.0的優(yōu)勢在于準(zhǔn)確率高,而且輸出文件格式除.txt文件外,還可以生成.xml文件,便于文件及數(shù)據(jù)間的傳輸。

3 分詞標(biāo)注文本的應(yīng)用

Leech(2005)認(rèn)為語料進行詞性標(biāo)注后就成為“增值”了的文本,也就是說相對于原始文本,其利用價值會更高。一般語料庫檢索軟件都可以實現(xiàn)詞表功能、描述搭配功能等。

經(jīng)過詞性標(biāo)注后的文本,任何一詞的詞性十分清楚。下圖是筆者建立的一個微型越南語語料庫,該庫經(jīng)vnTagger 4.2.0進行標(biāo)注,利用AntConc的詞表功能的一個截圖。

圖1

從上圖可發(fā)現(xiàn)“nh?t”一詞有三種詞性,分別標(biāo)注為nh?t/a,nh?t/m及nh?t/r。其中前者為形容詞、中間為數(shù)詞,后者為副詞。這此語料庫中形容詞及副詞的頻率分別為24及時10,而數(shù)詞僅出現(xiàn)一詞。此外,nh?n_m?nh/V表示字nh?n與m?nh組成詞nh?n m?nh,這個復(fù)合詞為動詞,中間符號“_”將兩個字合二為一,這就是分詞的結(jié)果。如果不進行詞性標(biāo)注,不但這三種詞性區(qū)分不清楚,而且由于此詞與其它詞組成的復(fù)合詞也未能區(qū)分,造成混亂,不利于越南語言研究和學(xué)習(xí)。

詞的搭配是語言研究和語言教學(xué)中的重點內(nèi)容。尤其是對越南語這種復(fù)合詞占多數(shù)的語言來說,分詞后才能對詞的搭配進行較為準(zhǔn)確的研究。值得注意的是,由于該語料庫主要收集的是有關(guān)電腦及網(wǎng)絡(luò)方面的語篇,上述的結(jié)果中有很多名詞與電腦及網(wǎng)絡(luò)有關(guān)。此外,分詞在自然語言處理中對句法標(biāo)注也起關(guān)鍵的作用,句法標(biāo)注的基礎(chǔ)是詞性標(biāo)注。這里從略。

4 結(jié)束語

上面分別介紹了越南語的一些特點,針對越南語單詞的界線不明確,需要進行分詞才能劃出詞的界線,將語料中的單詞清晰地給出。越南語的分詞軟件JVnTagger及vnTagger是常見的兩款免費共享軟件,功能相對強大,分別有各自己的特點,可滿足不同用戶的需要。最后說明了分詞后的文本的應(yīng)用,強調(diào)分詞詞表及搭配詞表的意義,對越南語的研究及教學(xué)必將產(chǎn)生有益的作用。

參考文獻:

[1]Greene B.B.,Rubin G.M..Automatic grammatical tagging of English,Department of Linguistics.Brown University,Providence,RI,USA,1971.

[2]Leech,G.‘Adding Linguistic Annotation’,in M.Wynne,Developing Linguistic Corpora:a Guide to Good Practice.Oxford:Oxbrow Books,2005:17-29.

[3]Quan Vu,Trung Pham,Ha Nguyen."Toward a Multi-Objective Corpus for Vietnamese Language",PROC.COCOSDA2003,Singapore,2003.

[4]劉克強.2009共享版ICTCLAS的分析與使用[J].科教文匯(上旬刊),2009(08).

[5]王建新.計算機語料庫的建設(shè)與應(yīng)用[M].北京:清華大學(xué)出版社,2005.

作者簡介:劉克強(1971.06-),男,陜西西安人,教授,碩士,研究方向:語料庫語言學(xué)及文學(xué)。

篇9

[關(guān)鍵詞]互聯(lián)網(wǎng) 軍事輿情 信息技術(shù) 輿情分析

[分類號]G250

1

引言

在軍事情報搜集和處理中,公開情報資料搜集是一個很重要的方面。美國中央情報局80%的情報來源于公開材料,德國新聞情報局每天將搜集和處理后的公開情報資料匯總成《每日新聞簡報》呈送,以色列情報機關(guān)公開承認(rèn)其所獲情報65%來自報刊、廣播、電視和學(xué)術(shù)研究論文等公開渠道,其他許多國家也設(shè)立了專門的公開情報搜集機構(gòu)。網(wǎng)絡(luò)輿情作為一種新形式的公開情報資料,由于其開放性、及時性以及便捷性等特點,越來越受到情報工作者的重視,甚至很多情報工作者紛紛將網(wǎng)絡(luò)輿情作為其公開情報資料搜集的第一來源。

軍事網(wǎng)絡(luò)輿情主要是指國內(nèi)外互聯(lián)網(wǎng)絡(luò)媒體中關(guān)于軍事事件的評論和觀點。軍事網(wǎng)絡(luò)輿情作為一種特殊的網(wǎng)絡(luò)輿情,除了網(wǎng)絡(luò)輿情所擁有的特點外,還有其自身特殊性。評論和觀點往往都集中在一些敏感和焦點問題上,例如中國軍費問題、中國軍事威脅等。在進行輿情分析與監(jiān)控時,軍事網(wǎng)絡(luò)輿情將會是最為重要的部分。同時,由于國外一些媒體往往對其民眾進行錯誤引導(dǎo),軍事網(wǎng)絡(luò)輿情中的許多看法可能偏向負(fù)面,在進行分析和監(jiān)控時就必須注重對這一部分輿情的判別,這對于做好軍事情報分析工作至關(guān)重要。本文以開發(fā)軍事網(wǎng)絡(luò)輿情分析系統(tǒng)MNPOS(NetworkPublic Opinion System in Militaty)為背景,在分析國內(nèi)主要輿情系統(tǒng)基礎(chǔ)上,研究輿情采集、輿情處理和輿情服務(wù)的系統(tǒng)架構(gòu)及其關(guān)鍵技術(shù)的實現(xiàn)方法。

2 網(wǎng)絡(luò)輿情系統(tǒng)比較及軍事網(wǎng)絡(luò)輿情系統(tǒng)特點

2.1

國內(nèi)輿情系統(tǒng)的主要功能與應(yīng)用

網(wǎng)絡(luò)輿情系統(tǒng)中的關(guān)鍵技術(shù),一方面與信息分析的具體功能和解決方案密切相關(guān);另一方面又隨網(wǎng)絡(luò)輿情內(nèi)容、范圍和傳播應(yīng)用不斷推陳出新。這些技術(shù)包括各種信息采集、特征抽取、數(shù)據(jù)挖掘、文本分析、自動分類、自動聚類、自動摘要、智能檢索等技術(shù)。當(dāng)前的新形態(tài)信息交互模式有網(wǎng)絡(luò)新聞、論壇、博客、維基等,其信息采集技術(shù)從早期的靜態(tài)頁面信息獲取發(fā)展到動態(tài)數(shù)據(jù)庫數(shù)據(jù)獲取,從傳統(tǒng)的網(wǎng)絡(luò)蜘蛛發(fā)展到可自主調(diào)整的高效搜索,從字符串匹配的檢索實現(xiàn)發(fā)展到知識環(huán)境下的智能檢索;相應(yīng)的信息運用多元統(tǒng)計等方法進行分析,其基礎(chǔ)聚類分析方法有概念語義空間與相似度、基于支持向量機與無監(jiān)督聚類相結(jié)合的網(wǎng)頁分類等;技術(shù)上采用決策樹、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、組合分類器、遺傳算法、粗糙集、最近鄰技術(shù)等多種分類方法。

國內(nèi)一些較典型的網(wǎng)絡(luò)輿情系統(tǒng)概述分析如下:

?谷尼國際Eoonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)。該系統(tǒng)通過對互聯(lián)網(wǎng)海量信息自動獲取、自動聚類、主題檢測和專題聚焦,實現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤,形成簡報、分析報告等結(jié)果。運用內(nèi)容抽取識別、相似性去重等技術(shù)獲取網(wǎng)絡(luò)中的熱點和敏感話題,根據(jù)統(tǒng)計等策略分析不同時間內(nèi)的主題關(guān)注程度和預(yù)測發(fā)展趨勢。該系統(tǒng)在國內(nèi)的用戶有待進一步增加。

?中科點擊軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。它使用強大的采集軟件對數(shù)千網(wǎng)站進行監(jiān)控,自動獲取輿情信息的熱度,并生成報表;同時可獲取熱點主題的瀏覽量、回復(fù)數(shù),并跟蹤發(fā)帖人,對輿情信息進行管理、標(biāo)注和分類,并根據(jù)重要性對輿情信息進一步篩選和過濾。其采集性能比較好,但分析處理功能有待進一步提高。

?北京拓爾思TRS網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。該系統(tǒng)采用多種技術(shù),實現(xiàn)對輿情信息的精準(zhǔn)和全面采集,同時綜合運用大規(guī)模文本智能挖掘技術(shù),實現(xiàn)對海量輿情信息的準(zhǔn)確、高效分析和管理。其輿情功能從用戶角度來看較為全面。

?北大方正智思網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)。該系統(tǒng)襤合互聯(lián)網(wǎng)搜索及信息智能處理等技術(shù),通過對網(wǎng)絡(luò)信息自動抓取、自動分類聚類、主題檢測、專題聚焦等方法,實現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控和新聞專題追蹤等功能。其開發(fā)比較早,應(yīng)用也較多,但相關(guān)的更新功能相對較少。

2.2

軍事網(wǎng)絡(luò)輿情系統(tǒng)的特點和相關(guān)研究

相比較當(dāng)前市場上通用的網(wǎng)絡(luò)輿情分析系統(tǒng),軍事網(wǎng)絡(luò)輿情系統(tǒng)MNPOS對軍事類突發(fā)事件的網(wǎng)絡(luò)輿情相關(guān)研究更為關(guān)注,快速的專題聚焦、敏點發(fā)現(xiàn)追蹤和傾向分析規(guī)則都具有新的特點。而目前的網(wǎng)絡(luò)輿情分析還沒有一個完整的解決模型,研究主要是獲取網(wǎng)絡(luò)輿情話題的一般信息和主題信息,注重獲取輿情話題的主題內(nèi)容,例如作者、發(fā)表時間、話題類型等,缺乏對話題評論焦點、情感傾向、事件關(guān)系等深層輿情信息的發(fā)現(xiàn),忽視從事軍事的群體對話題的情感、事件關(guān)系及變化趨勢的分析。

傳統(tǒng)研究方法沒有對大規(guī)模軍事網(wǎng)絡(luò)數(shù)據(jù)進行分析,使得網(wǎng)絡(luò)輿情系統(tǒng)無法適應(yīng)網(wǎng)絡(luò)環(huán)境下海量軍事數(shù)據(jù)的特點;只利用簡單的統(tǒng)計方法給出話題變化趨勢直接作為預(yù)警信息,缺少基于知識的推理。存軍事領(lǐng)域,網(wǎng)絡(luò)輿情系統(tǒng)不提供完整的軍事類突發(fā)事件網(wǎng)絡(luò)輿情傳播理論,大都以管理者需求為牽引而采用具體針對性的技術(shù)進行解決,造成技術(shù)整體上不具有連續(xù)性和系統(tǒng)性,很難形成一套完整的軍事網(wǎng)絡(luò)輿情解決方案,勢必影響到軍事網(wǎng)絡(luò)輿情應(yīng)對策略和方法的實用性、先進性和可靠性。因此,無論是社會科學(xué)領(lǐng)域還是工程技術(shù)領(lǐng)域,對軍事網(wǎng)絡(luò)輿情的基礎(chǔ)理論研究都處于起步階段,大多數(shù)研究成果屬于方法上的研究范疇,軍事網(wǎng)絡(luò)輿情的監(jiān)測與預(yù)警工作不夠全面和系統(tǒng)化,軍事網(wǎng)絡(luò)輿情的應(yīng)對策略還不夠科學(xué)和規(guī)范。

3

軍事網(wǎng)絡(luò)輿情系統(tǒng)MNPoS功能及其體系架構(gòu)

在MNPOS軍事網(wǎng)絡(luò)輿情分析系統(tǒng)中,運用軍事知識語料對網(wǎng)絡(luò)信息采集與提取,提高網(wǎng)絡(luò)輿情監(jiān)測分析的智能化程度,解決網(wǎng)頁的靈活性和復(fù)雜性、內(nèi)容的動態(tài)性和多態(tài)性、信息的龐雜性和不完整性所給系統(tǒng)提取軍事網(wǎng)絡(luò)輿情信息帶來的困難;運用軍事類話題發(fā)現(xiàn)與跟蹤技術(shù)識別出給定時間段內(nèi)上網(wǎng)媒體的熱門話題,分析熱門軍事話題在不同時段內(nèi)媒體所關(guān)注的程度,對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測事件發(fā)展的趨勢,對涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報告,為網(wǎng)絡(luò)輿論引導(dǎo)提供支持;運用軍事知識傾向性分析技術(shù)挖掘出網(wǎng)絡(luò)文本內(nèi)容蘊含的深層軍事觀點、態(tài)度等信息,對媒體言論傾向進行符合軍情的分析;運用多文檔自動文摘技術(shù)對軍事網(wǎng)絡(luò)論壇等信息進行提煉概要。

本系統(tǒng)采用模塊化的軟件設(shè)計方法,共分為網(wǎng)絡(luò)輿情采集、網(wǎng)絡(luò)輿情處理和網(wǎng)絡(luò)輿情服務(wù)三個功能層面,系統(tǒng)體系架構(gòu)見圖1。

3.1

網(wǎng)絡(luò)輿情采集

網(wǎng)絡(luò)輿情采集主要是利用網(wǎng)絡(luò)蜘蛛的原理進行網(wǎng)

頁采集,按照預(yù)先設(shè)定好的軍事主題和網(wǎng)址塒網(wǎng)絡(luò)上的軍事數(shù)據(jù)進行定點、定主題的抓取,例如新聞、論壇、博客等主題網(wǎng)站。最后將抓取的結(jié)果以XML文件格式保存在本地。網(wǎng)絡(luò)輿情采集是輿情分析處理和提供輿情服務(wù)的基礎(chǔ),只有高質(zhì)量和高效率的網(wǎng)絡(luò)輿情采集才能保證數(shù)據(jù)的可靠性和及時性。

3.2 網(wǎng)絡(luò)輿情處理

網(wǎng)絡(luò)輿情處理是整個系統(tǒng)的核心,它對所有采集到的數(shù)據(jù)進行相關(guān)處理,主要由網(wǎng)頁智能抽取、關(guān)鍵詞自動提取、主題自動分類、輿情傾向性分析和敏點輿情標(biāo)注等組成。首先,基于軍事主題和分類知識將采集模塊抓取到的XML文件中的主題、內(nèi)容、作者、時間、來源等存入網(wǎng)絡(luò)輿情信息庫,通過關(guān)鍵詞自動提取和主題自動分類將每條記錄的關(guān)鍵詞和主題分析出來,進行傾向性分析和敏點輿情標(biāo)注,最后生成自動文摘。另外,在主題分類過程中,若文檔不屬于任何預(yù)設(shè)軍事主題則進行主題自動聚類處理,自動分析出新的軍事主題。

3.3 網(wǎng)絡(luò)輿情服務(wù)

分析結(jié)果進入網(wǎng)絡(luò)輿情服務(wù),并最終展示,包括輿情報告的生成、熱點和敏點軍事主題的列表顯示、統(tǒng)計圖表等,供輿情部門的工作人員和決策部門的領(lǐng)導(dǎo)隨時進行軍事輿情的監(jiān)控。

MNPOS系統(tǒng)在設(shè)計和實現(xiàn)過程中遵循軟件工程原則,使用,NET Framework作為基礎(chǔ)類庫,在此基礎(chǔ)上綜合運用VB和c#以及ASP技術(shù)進行開發(fā),保證技術(shù)上的先進。另外,為保證系統(tǒng)的可靠性和可擴展性,采取數(shù)據(jù)層、事務(wù)層和表現(xiàn)層分離的模塊化設(shè)計原則,分為輿情采集、輿情處理和輿情服務(wù)子系統(tǒng)分別進行實現(xiàn)。

4 MNPOS系統(tǒng)中軍事輿情分析關(guān)鍵技術(shù)研究

MNPOS軍事網(wǎng)絡(luò)輿情分析是系統(tǒng)核心模塊,其質(zhì)量和效率直接影響到整個系統(tǒng)。

4.1

MNPOS軍事主題信息采集

MNPOS主題信息采集由下載器從互聯(lián)網(wǎng)上讀取軍事網(wǎng)頁并保存到本地,分析器運用軍事語料和相關(guān)正則表達式提取其中所有超鏈壓人一個URL隊列,之后從該隊列中順序讀取URL并下載,該過程循環(huán)進行直至將指定網(wǎng)站的網(wǎng)頁抓取完畢。程序關(guān)鍵在于多線程管理和鏈接地址的分析,目前C#提供了良好的多線程管理機制和對正則表達式的支持,為開發(fā)多線程程序提供了極大的方便。

MNPOS軍事網(wǎng)頁信息抽取,首先選擇相應(yīng)的抽取規(guī)則進行智能抽取,將相應(yīng)的內(nèi)容抽取出后進行數(shù)據(jù)清洗,去除重復(fù)記錄和信息,合并相同標(biāo)題不同內(nèi)容的信息,最后將清洗后的數(shù)據(jù)存人軍事輿情數(shù)據(jù)庫。該處理過程包含在包裝器中,對于用戶來說是透明的。另外,在規(guī)則生成部分采用軍事專家模式,即對網(wǎng)頁的結(jié)構(gòu)進行分析,然后手工進行規(guī)則的提取,因此,所生成的規(guī)則比較精確,對于相應(yīng)軍事網(wǎng)頁的抽取質(zhì)量和精確度較高。

4.2 MNPOS軍事輿情分類和傾向分析

將處理后的信息分入預(yù)先設(shè)置好的軍事分類,對于網(wǎng)絡(luò)輿情服務(wù)具有至關(guān)重要的作用。分類模塊主要采用KNN和SVM分類法,其中的特征選擇結(jié)合了信息增益、互信息和a2統(tǒng)計等方法和軍事主題分類概念庫,采用目前分類質(zhì)量較高的一些開源程序進行改造,將其集成到系統(tǒng)中保證分類質(zhì)量。

MNPOS軍事輿情文本分類分為兩個過程:①訓(xùn)練過程,決定分類機的質(zhì)量。首先由軍事專家完成訓(xùn)練集的挑選,然后在預(yù)處理過程中進行參數(shù)選擇、訓(xùn)練后進行參數(shù)調(diào)整等。②根據(jù)訓(xùn)練過程所生成的分類機進行分類,其中最重要的是預(yù)處理和分類進程,預(yù)處理是對待分類文本進行數(shù)據(jù)清洗和特征表示的過程,本系統(tǒng)的訓(xùn)練和分類進程采用SVMCLS 2.0開源程序。

輿情傾向性分析是根據(jù)輿情內(nèi)容判斷該輿情是正面還是負(fù)面的一個過程。常用的方法有基于機器學(xué)習(xí)和基于語義理解等,目前MNPOS系統(tǒng)采用基于機器學(xué)習(xí)的方法。系統(tǒng)中設(shè)計有六個類別(美國對售、中國反導(dǎo)試驗、中美軍事關(guān)系、中印關(guān)系、中國航天發(fā)展、中國武器裝備),以其中的“中美軍事關(guān)系”舉例,可以將該類的文本根據(jù)其內(nèi)容分為正面和負(fù)面兩類,然后再訓(xùn)練出兩個分類器:“中美軍事關(guān)系正面”和“中美軍事關(guān)系負(fù)面”,六個類別即可生成12個分類器,然后對這些待分類文本進行分類,并且在數(shù)據(jù)庫相應(yīng)字段內(nèi)用1和0來分別標(biāo)注正面和負(fù)面信息。這種方法實現(xiàn)起來較為簡單,而且準(zhǔn)確率較高,不足是在構(gòu)建訓(xùn)練集時需要大量軍事專家進行手工編制,實現(xiàn)中充分利用軍事信息管理學(xué)科的優(yōu)勢和成果來構(gòu)建傾向性分類訓(xùn)練集。

4.3 MNPOS軍事敏點輿情標(biāo)注

篇10

【關(guān)鍵詞】聲紋識別;小波濾波器組;基音周期;Mel倒譜系數(shù);高斯混合模型

1.引言

說話人聲紋識別可以看作是語音識別的一種。它和語音識別一樣,都是通過對所收到的語音信號進行處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此作出判斷。而區(qū)別在于它并不注意語言信號中的語義內(nèi)容,而是希望從語音信號中提取出人的特征。從這點上說,說話人聲紋識別是企求挖掘出包含在語音信號中的個性因數(shù),而語音識別是企求從不同人的詞語信號中尋找相同因素。在處理方法上,說話人聲紋識別力圖強調(diào)不同人之間的差別,而語音識別則力圖對不同人說話的差別加以歸一化。世界范圍內(nèi),聲紋識別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年年初,聲紋識別產(chǎn)品的市場占有率為15.8%,僅次于指紋識別和掌形識別。

現(xiàn)有文獻中用于說話人識別的特征許多是建立在短時頻譜基礎(chǔ)上。它們主要有Mel頻率倒譜系數(shù)(MFCC),LPC倒譜系數(shù),差值倒譜等。在聲紋識別技術(shù)中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經(jīng)網(wǎng)絡(luò)法。Soong等人將矢量量化技術(shù)用于與文本無關(guān)的說話人是被系統(tǒng)。Rosenberg等人利用子詞單元構(gòu)成的隱馬爾科夫模型(HMM),建立了一個說話人確認(rèn)系統(tǒng)。Delesby等人利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)方法進行說話人識別[1]。我國的北京大學(xué)以遲惠生為領(lǐng)導(dǎo)的說話人識別研究團體、清華大學(xué)以楊行峻為領(lǐng)導(dǎo)的研究團體以及中國科學(xué)院聲學(xué)所和東南大學(xué)也在這個方面取得了非常優(yōu)秀的科研成果.從國內(nèi)外文獻看來,有的著重距離測度,但是大多數(shù)向幾種方法如HMM、GMM和ANN混合的方向發(fā)展。

2.聲紋識別的基本原理及相關(guān)算法

2.1 基本原理

聲紋識別的基本原理如圖1所示,主要包括兩個階段,即訓(xùn)練和識別階段。

訓(xùn)練階段,系統(tǒng)的每個使用者說出若干訓(xùn)練語句,系統(tǒng)據(jù)此建立每個使用者的模板或模型參數(shù)。識別階段,由待識人說的語音經(jīng)特征提取后與系統(tǒng)訓(xùn)練時產(chǎn)生的模板或模型參數(shù)進行比較。在主說話人的辨認(rèn)中,取與測試音匹配距離最小的說話人模型所對應(yīng)的說話人作為識別結(jié)果;在說話人確認(rèn)中,則通過判斷測試音與所聲稱的說話人的模型的匹配距離是否小于一定閉值做出判斷。

2.2 語音信號的預(yù)處理

在語音信號特征提取之前,首先要進行的一個環(huán)節(jié)就是對輸入語音信號的預(yù)處理,主要包括預(yù)濾波、預(yù)加重、加窗分幀以及語音端點檢測等過程。本文就以涉及到的預(yù)濾波進行描述,預(yù)濾波在本文中是通過小波濾波器組來實現(xiàn)。預(yù)濾波器必須是一個帶通濾波器,其上、下截止頻率分別是和。對于絕大多數(shù)語音處理中,,,采樣率為。

2.3 聲紋特征提取

2.3.1 概述

提取說話人特征就是把原來語音中的冗余信息去掉,找到我們關(guān)注的語音特征信息,是一個減小數(shù)據(jù)量的過程。從說話人語音信號中提取的特征參數(shù)應(yīng)滿足以下準(zhǔn)則:對外部條件具有魯棒性(如:說話人的健康狀況和情緒,方言和別人模仿等);能夠長期地保持穩(wěn)定;易于從語音信號中進行提??;與其他特征不相關(guān)。

2.3.2 典型聲紋特征參數(shù)提取算法

聲紋特征參數(shù)主要有以下幾種:基音周期、短時過零率、線性預(yù)測(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、以及經(jīng)過噪聲譜減或者信道譜減的去噪倒譜系數(shù)等,每一種特征參數(shù)都有其相應(yīng)的提取算法。在聲紋特征提取這一點,本文將采用基音周期和Mel頻率倒譜混合的參數(shù)作為特征參數(shù)。

2.3.2.1 線性預(yù)測(LPC)方法

語音線性預(yù)測的基本思想是:利用過去的樣值對新樣值進行預(yù)測,然后將樣值的實際值與其預(yù)測值相減得到一個誤差信號,顯然誤差信號的動態(tài)范圍遠小于原始語音信號的動態(tài)范圍,對誤差信號進行量化編碼而達到最小,可以確定唯一的一組線性預(yù)測系數(shù)。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個性算法[2][3]。由于LPC分析是基于全極點模型的假設(shè),所以它對于聲道響應(yīng)含有零點的清音和濁音和鼻音描述不確切。

2.3.2.2 線性預(yù)測倒譜系數(shù)(LPCC)

倒譜特征是用于說話人個性特征和說話識別人識別的最有效的特征之一。語音信號是聲道頻率特性和激勵源信號源兩者共同卷積的結(jié)果,后者對于某幀而言常帶有一定的隨機性,而說話人的個性特征很大程度上取決于說話人的發(fā)音聲道,因此要將此二者進行有效的分離,可以通過對信號做適當(dāng)?shù)耐瑧B(tài)濾波,將相卷積的兩個部分分離。濾波的關(guān)鍵是先將卷積處理化為乘積,然后做對數(shù)處理,使之化為可分離的相加成分。線性預(yù)測倒譜系數(shù)可由LPC特征進行推導(dǎo),基于LPC系數(shù)分析得倒譜存在一種非常簡單有效的遞推求解方法。LPCC參數(shù)比較徹底地去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道特性,只需要十幾個倒譜系數(shù)能比較好的描述語音的共振特性,計算量小,其缺點是對輔音的描述能力較差,抗噪聲性能也較弱。

2.3.2.3 梅爾倒譜系數(shù)(MFCC)

MFCC著眼于人耳的聽覺感知機理。因為聽到的聲音的高低與聲音的頻率的并不成線性正比關(guān)系,Mel頻率的尺度更符合人耳的聽覺特性。用Mel濾波器組對語音信號進行濾波和加權(quán),使語音信號更加接近于人耳聽覺感知系統(tǒng)特性,MFCC特征成為目前說話人識別和語音識別中最為廣泛的特征參數(shù)。根據(jù)倒譜計算過程,MFCC計算過程可以簡單地描為如下四個步驟:

(1)對語音信號進行短時傅里葉變換,得到各個幀的頻譜。

(2)在Mel頻率的軸上配置L個通道的三角濾波器組,L的個數(shù)由信號的救治頻定。每一個三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設(shè)o(l)、h(l)分別是第L個三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關(guān)系成立:

2.3.2.4 基因周期系數(shù)

基音是指發(fā)濁音時聲帶振動引起的周期性,而基音周期是指聲帶振動頻率的倒數(shù),基音可以分為時域、頻域以及綜合利用信號時域頻率特性等三種提取模式,時域包括利用語音信號的采樣點計算信號的波峰、波谷和過零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計算信號的自相關(guān)函數(shù)、功率譜和最大似然函數(shù)等,其精度要高于時域方法,典型的方法是有中央消波自相關(guān)法、平均幅度差分函數(shù)法和倒譜法等。本文章選用倒譜法進行基因周期的提取。

1)倒譜法原理

語音信號是激勵源與聲道相應(yīng)相卷積的結(jié)果,而“倒譜特征”則是利用了對語音信號進行適當(dāng)?shù)耐瑧B(tài)濾波后,可將激勵信號與聲道信號加以分離的原理。倒譜中維數(shù)較低的分量對應(yīng)于語音信號的聲道分量,倒譜中維數(shù)較高的分量對應(yīng)于語音信號的音源激勵信號。因此,利用語音信號倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機變化的音源激勵分量的干擾。

可見,倒譜域中基音信息與聲道信息可認(rèn)為相對分離的。采取簡單的倒譜法可以分離并恢復(fù)e(n)和v(n),根據(jù)激勵e(n)及倒譜的特征可以求出基音周期。然而,反應(yīng)基音信息的倒譜峰在含過渡音和噪語音中將會變得不清晰甚至完全消失。原因主要是因為過渡音中周期激勵信號能量降低和類噪激勵信號干擾或含噪語音中的噪聲干擾所致。這里可以采用一個簡單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(由原始作FT逆變換再取對數(shù)后得到)的高頻分量置零??梢詫崿F(xiàn)類似于低通濾波器的處理,濾去噪音和激勵源中的高頻分量,減少了噪聲干擾。圖2是一種改進的倒譜基音檢測的算法框圖。

2.4 聲紋識別技術(shù)

2.4.1 概述

聲紋識別的基本原理是為了每個說話人建立一個能夠描述這一說話人特征的模型,以其作為這一說話人的個性特征。在目前的話音特征與說話人個性特征還未很好的從語音特征中得到分離情況下,為每個說話者建立的說話人模型實際上是說話人的語音特征得模型。為對說話人個性特征描述的一致起見,構(gòu)造一個通用的模型,常將每個說話人的模型結(jié)構(gòu)取得相同,不同的只是模型中的參數(shù),通過用訓(xùn)練語音對模型進訓(xùn)練得到。

2.4.2 典型的聲紋識別算法

目前說話人識別模型主要有DTW(動態(tài)時間規(guī)劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經(jīng)元網(wǎng)絡(luò)),SVM(支持向量機)等。本文用到GMM(高斯混合模型),所以后面會對其算法進行了詳細(xì)的描述。

2.4.2.1 動態(tài)時間規(guī)劃(DTW)

說話人信息既有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),也有時變因素(語速、語調(diào)、重音和韻律)。將模式識別與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動態(tài)時間規(guī)劃DTW,但DTW只對孤立詞識別性能較好,并且高度依賴于定時,目前應(yīng)用不廣。

2.4.2.2 矢量量化方法(VQ)

矢量量化是一種極其重要的信號壓縮方法,它廣泛應(yīng)用于語音編碼、語音識別與合成、說話人識別、圖像壓縮等領(lǐng)域,基于非參數(shù)模型的VQ的方法是目前自動話說人識別的主要方法之一。完成VQ說話人識別系統(tǒng)有兩個步驟:(1)利用說話人的訓(xùn)練語音,建立參考模型碼本。(2)對待識別說話者的語音的每一幀和碼本之間進行匹配。由于VQ碼本保存了說話人個性特征,這樣我們就可以利用VQ法進行說話人識別。在VQ法中模型匹配不依賴于參數(shù)的時間順序,因此匹配過程中無需采用DTW技術(shù);而且這種方法比應(yīng)用DTW方法的參考模型儲量小,即碼本碼字小。

用矢量量化方法建立識別模型,既可以大大減少數(shù)據(jù)存儲量,又可以避開困難語音分段問題和時間規(guī)整問題。但是每個說話人的碼本只是描述了這一說話人的語音特征在特征空間中的聚類中心的統(tǒng)計分布情況。在訓(xùn)練階段為了充分反映說話人的個性特征要求訓(xùn)練語音足夠長;在識別時為了使測試語音的特征矢量在特征空間中的分布能夠與相應(yīng)的說話人碼本相吻合,所以同樣要求有足夠長的測試語音,在測試語音很短的情況下,這種方法的識別率將會急劇下降。

2.4.2.3 隱馬爾科夫模型

HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機模型。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發(fā)聲系統(tǒng)序列的輸出。在HMM中,觀察到的事件與狀態(tài)通過一組概率分布相聯(lián)系,是一個雙重隨機過程,其中一個是Markov鏈,他它描述了狀態(tài)之間的轉(zhuǎn)移;另一個隨機過程描述狀態(tài)和觀察值之間的統(tǒng)計響應(yīng)關(guān)系。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關(guān)的說話人識別中,并且比傳統(tǒng)的方法有著更好的性能。HMM不需要時間規(guī)整,可節(jié)約判決時計算時間和存儲量,在目前被廣泛應(yīng)用。缺點是訓(xùn)練時計算量大。

2.4.2.4 基于支持向量機(SVM)的方法

SVM是Vapnik提出的一種基于結(jié)構(gòu)風(fēng)險最小化二元分類器,通過非線性變換將原始集合映射到高維空間,轉(zhuǎn)化為某個高維中的線性問題,尋找最優(yōu)分類面,具有很好的泛化和分類能力,在手寫/文字識別、文本分類和人臉識別等模式領(lǐng)域中取到成功的應(yīng)用[4]。SVM實際上是一種辨別模式,一般情況下它只能辨別兩類數(shù)據(jù),因此需要正反兩類數(shù)據(jù)進行訓(xùn)練。因此SVM要在說話人識別中應(yīng)用,必須要解決多類分類問題。解決說話人識別的多分類問題的主要有三種形式[4]:

1)為每個人建立一個SVM,訓(xùn)練數(shù)據(jù)由目標(biāo)說話人和背景說話人的語音分別構(gòu)成“+”、“??﹣”數(shù)。

2)為每一對說話人建立一個SVM,由N個人則建立N*(N-1)/2個SVM。

3)決策樹分類:決策樹上每個節(jié)點將多個說話人分為兩個子集,或者是一個說話人(葉節(jié)點)。