神經(jīng)網(wǎng)絡(luò)文本分類范文

時(shí)間:2023-05-31 15:22:29

導(dǎo)語(yǔ):如何才能寫(xiě)好一篇神經(jīng)網(wǎng)絡(luò)文本分類,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

神經(jīng)網(wǎng)絡(luò)文本分類

篇1

P鍵詞:深度學(xué)習(xí);文本分類;多類型池化

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0187-03

1 引言

為了進(jìn)行分類,我們建立句子模型來(lái)分析和表示句子的語(yǔ)義內(nèi)容。句子模型問(wèn)題的關(guān)鍵在于一定程度上的自然語(yǔ)言理解。很多類型的任務(wù)需要采用句子模型,包括情感分析、語(yǔ)義檢測(cè)、對(duì)話分析、機(jī)器翻譯等。既然單獨(dú)的句子很少或基本不被采用,所以我們必須采用特征的方式來(lái)表述一個(gè)句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據(jù)單詞和詞組提取特征的過(guò)程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。

各種類型的模型已經(jīng)被提出?;诔煞謽?gòu)成的方法被應(yīng)用于向量表示,通過(guò)統(tǒng)計(jì)同時(shí)單詞同時(shí)出現(xiàn)的概率來(lái)獲取更長(zhǎng)的詞組。在有些情況下,通過(guò)對(duì)詞向量進(jìn)行代數(shù)操作生成句子層面的向量,從而構(gòu)成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關(guān)。

一種核心模型是建立在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上。這種模型包含了單詞包或者詞組包的模型、更結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)、延遲的基于卷積操作的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)模型有很多優(yōu)點(diǎn)。通過(guò)訓(xùn)練可以獲得通用的詞向量來(lái)預(yù)測(cè)一段上下文中單詞是否會(huì)出現(xiàn)。通過(guò)有監(jiān)督的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠根據(jù)具體的任務(wù)進(jìn)行良好的調(diào)節(jié)。除了作為強(qiáng)大的分類器,神經(jīng)網(wǎng)絡(luò)模型還能夠被用來(lái)生成句子[6]。

我們定義了一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并將它應(yīng)用到句子語(yǔ)義模型中。這個(gè)網(wǎng)絡(luò)可以處理長(zhǎng)度不同的句子。網(wǎng)絡(luò)中的一維卷積層和多類型動(dòng)態(tài)池化層是相互交錯(cuò)的。多類型動(dòng)態(tài)池化是一種對(duì)求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現(xiàn)在兩個(gè)方面。第一,多類型池化操作對(duì)一個(gè)線性的值序列進(jìn)行操作,返回序列中的多個(gè)數(shù)值而不是單個(gè)最大的數(shù)值。第二,池化參數(shù)k可以被動(dòng)態(tài)的選擇,通過(guò)網(wǎng)絡(luò)的其他參數(shù)來(lái)動(dòng)態(tài)調(diào)整k的值。

卷積層的一維卷積窗口對(duì)句子特征矩陣的每一行進(jìn)行卷積操作。相同的n-gram的卷積窗口在句子的每個(gè)位置進(jìn)行卷積操作,這樣可以根據(jù)位置獨(dú)立地提取特征。一個(gè)卷積層后面是一個(gè)多類型動(dòng)態(tài)池化層和一個(gè)非線性的特征映射表。和卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的使用一樣,為豐富第一層的表述,通過(guò)不同的卷積窗口應(yīng)用到句子上計(jì)算出多重特征映射表。后續(xù)的層也通過(guò)下一層的卷積窗口的卷積操作計(jì)算出多重特征映射表。最終的結(jié)構(gòu)我們叫它多類型池化的卷積神經(jīng)網(wǎng)絡(luò)。

在輸入句子上的多層的卷積和動(dòng)態(tài)池化操作產(chǎn)生一張結(jié)構(gòu)化的特征圖。高層的卷積窗口可以獲取非連續(xù)的相距較遠(yuǎn)的詞組的句法和語(yǔ)義關(guān)系。特征圖會(huì)引導(dǎo)出一種層級(jí)結(jié)構(gòu),某種程度上類似于句法解析樹(shù)。這種結(jié)構(gòu)不僅僅是和句法相關(guān),它是神經(jīng)網(wǎng)絡(luò)內(nèi)部所有的。

我們將此網(wǎng)絡(luò)在四種場(chǎng)景下進(jìn)行了嘗試。前兩組實(shí)驗(yàn)是電影評(píng)論的情感預(yù)測(cè)[2],此網(wǎng)絡(luò)在二分和多種類別的分類實(shí)驗(yàn)中的表現(xiàn)都優(yōu)于其他方法。第三組實(shí)驗(yàn)在TREC數(shù)據(jù)集(Li and Roth, 2002)上的6類問(wèn)題的分類問(wèn)題。此網(wǎng)絡(luò)的正確率和目前最好的方法的正確率持平。第四組實(shí)驗(yàn)是推特的情感預(yù)測(cè),此網(wǎng)絡(luò)將160萬(wàn)條微博根據(jù)表情符號(hào)自動(dòng)打標(biāo)來(lái)進(jìn)行訓(xùn)練。在手工打標(biāo)的測(cè)試數(shù)據(jù)集上,此網(wǎng)絡(luò)將預(yù)測(cè)錯(cuò)誤率降低了25%。

本文的概要如下。第二段主要闡述MCNN的背景知識(shí),包括核心概念和相關(guān)的神將網(wǎng)絡(luò)句子模型。第三章定義了相關(guān)的操作符和網(wǎng)絡(luò)的層。第四章闡述生成的特征圖的處理和網(wǎng)絡(luò)的其他特點(diǎn)。第五章討論實(shí)驗(yàn)和回顧特征學(xué)習(xí)探測(cè)器。

2 背景

MCNN的每一層的卷積操作之后都伴隨一個(gè)池化操作。我們先回顧一下相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型。然后我們來(lái)闡述一維的卷積操作和經(jīng)典的延遲的神經(jīng)網(wǎng)絡(luò)(TDNN)[3]。在加了一個(gè)最大池化層到網(wǎng)絡(luò)后,TDNN也是一種句子模型[5]。

2.1 相關(guān)的神經(jīng)網(wǎng)絡(luò)句子模型

已經(jīng)有很多的神經(jīng)網(wǎng)絡(luò)句子模型被描述過(guò)了。 一種比較通用基本的模型是神經(jīng)網(wǎng)絡(luò)詞包模型(NBoW)。其中包含了一個(gè)映射層將單詞、詞組等映射到更高的維度;然后會(huì)有一個(gè)比如求和之類的操作。結(jié)果向量通過(guò)一個(gè)或多個(gè)全連接層來(lái)進(jìn)行分類。

有以外部的解析樹(shù)為基礎(chǔ)的遞歸神經(jīng)網(wǎng)絡(luò),還有在此基礎(chǔ)上更進(jìn)一步的RNN網(wǎng)絡(luò)。

最后一種是以卷積操作和TDNN結(jié)構(gòu)為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)句子模型。相關(guān)的概念是動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),我們接下來(lái)介紹的就是它。

2.2 卷積

一維卷積操作便是將權(quán)重向量[m∈Rm]和輸入向量[s∈Rs]進(jìn)行操作。向量m是卷積操作的過(guò)濾器。具體來(lái)說(shuō),我們將s作為輸入句子,[si∈R]是與句子中第i個(gè)單詞相關(guān)聯(lián)的單獨(dú)的特征值。一維卷積操作背后的思想是通過(guò)向量m和句子中的每個(gè)m-gram的點(diǎn)積來(lái)獲得另一個(gè)序列c:

[ci=mTsi-m+1:i (1)]

根據(jù)下標(biāo)i的范圍的不同,等式1產(chǎn)生兩種不同類型的卷積。窄類型的卷積中s >= m并且會(huì)生成序列[c∈Rs-m+1],下標(biāo)i的范圍從m到s。寬類型的卷積對(duì)m和s的大小沒(méi)有限制,生成的序列[c∈Rs+m-1],下標(biāo)i的范圍從1到s+m-1。超出下標(biāo)范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結(jié)果是寬類型的卷積結(jié)果的子序列。

寬類型的卷積相比于窄類型的卷積有一些優(yōu)點(diǎn)。寬類型的卷積可以確保所有的權(quán)重應(yīng)用到整個(gè)句子,包括句子收尾的單詞。當(dāng)m被設(shè)為一個(gè)相對(duì)較大的值時(shí),如8或者10,這一點(diǎn)尤其重要。另外,寬類型的卷積可以確保過(guò)濾器m應(yīng)用于輸入句子s始終會(huì)生成一個(gè)有效的非空結(jié)果集c,與m的寬度和s句子的長(zhǎng)度無(wú)關(guān)。接下來(lái)我們來(lái)闡述TDNN的卷積層。

4 驗(yàn)與結(jié)果分析

我們對(duì)此網(wǎng)絡(luò)進(jìn)行了4組不同的實(shí)驗(yàn)。

4.1 電影評(píng)論的情感預(yù)測(cè)

前兩組實(shí)驗(yàn)是關(guān)于電影評(píng)論的情感預(yù)測(cè)的,數(shù)據(jù)集是Stanford Sentiment Treebank.實(shí)驗(yàn)輸出的結(jié)果在一個(gè)實(shí)驗(yàn)中是分為2類,在另一種試驗(yàn)中分為5類:消極、略微消極、中性、略微積極、積極。而實(shí)驗(yàn)總的詞匯量為15448。

表示的是電影評(píng)論數(shù)據(jù)集情感預(yù)測(cè)準(zhǔn)確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機(jī)。在三種神經(jīng)網(wǎng)絡(luò)模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機(jī)初始化的;它們的維度d被設(shè)為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個(gè)非線性化層、最大池化層和softmax分類層。NBoW會(huì)將詞向量相加,并對(duì)詞向量進(jìn)行非線性化操作,最后用softmax進(jìn)行分類。2類分類的MCNN的參數(shù)如下,卷積層之后折疊層、動(dòng)態(tài)多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動(dòng)態(tài)多類型池化層的k的值為4。網(wǎng)絡(luò)的最頂層是softmax層。5類分類的MCNN有相同的結(jié)構(gòu),但是濾波窗口的大小分別為10和7,k的值為5。

我們可以看到MCNN的分類效果遠(yuǎn)超其他算法。NBoW的分類效果和非神經(jīng)網(wǎng)絡(luò)算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因?yàn)檫^(guò)度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹(shù)來(lái)生成結(jié)構(gòu)化特征,其他模型都不需要依賴外部資源。

4.2 問(wèn)題分類

問(wèn)題分類在問(wèn)答系統(tǒng)中應(yīng)用非常廣泛,一個(gè)問(wèn)題可能屬于一個(gè)或者多個(gè)問(wèn)題類別。所用的數(shù)據(jù)集是TREC數(shù)據(jù)集,TREC數(shù)據(jù)集包含6種不同類別的問(wèn)題,比如一個(gè)問(wèn)題是否關(guān)于地點(diǎn)、人或者數(shù)字信息。訓(xùn)練集包含5452個(gè)打標(biāo)的問(wèn)題和500個(gè)測(cè)試集。

4.3 Twitter情感預(yù)測(cè)

在我們最后的實(shí)驗(yàn)里,我們用tweets的大數(shù)據(jù)集進(jìn)行訓(xùn)練,我們根據(jù)tweet中出現(xiàn)的表情符號(hào)自動(dòng)地給文本進(jìn)行打標(biāo)簽,積極的或是消極的。整個(gè)數(shù)據(jù)集包含160萬(wàn)條根據(jù)表情符號(hào)打標(biāo)的tweet以及400條手工標(biāo)注的測(cè)試集。整個(gè)數(shù)據(jù)集包含76643個(gè)單詞。MCNN的結(jié)構(gòu)和4.1節(jié)中結(jié)構(gòu)相同。隨機(jī)初始化詞向量且維度d設(shè)為60。

我們發(fā)現(xiàn)MCNN的分類效果和其他非神經(jīng)網(wǎng)絡(luò)的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強(qiáng)的特征提取能力。

5 結(jié)語(yǔ)

在本文中我們闡述了一種動(dòng)態(tài)的卷積神經(jīng)網(wǎng)絡(luò),它使用動(dòng)態(tài)的多類型池化操作作為非線性化取樣函數(shù)。此網(wǎng)絡(luò)在問(wèn)題分類和情感預(yù)測(cè)方面取得了很好的效果,并且不依賴于外部特征如解析樹(shù)或其他外部資源。

參考文獻(xiàn)

[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.

[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.

[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.

[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

篇2

關(guān)鍵詞: 電子郵件; 分類模型; 特征提??; 垃圾郵件; 主成分分析

中圖分類號(hào): TN915.08?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)01?0077?03

Abstract: The E_mail classification is conducive to filter out the spam mail and save the network resources. In order to improve the accuracy of the E_mail classification, an E_mail classifier model using improved support vector machine is proposed. The original features of E_mail are extracted, and selected with the principal component analysis to reduce the feature quantity and improve the E_mail classification efficiency. The support vector machine is used to establish the E_mail classifier. The parameter selection method of the traditional support vector machine was improved to perfect the E_mail classification effect. The standard database UCI of the E_mail classification is used to analyze the classification performance. The results show that the improved support vector machine has solved the insufficient of the current E_mail classification model, and obtained the satisfied E_mail classification effect, which can help managers to block the spam mail.

Keywords: E_mail; classification model; feature extraction; spam mail; principal component analysis

0 引 言

隨著經(jīng)濟(jì)水平的不斷提高,家家戶戶有了計(jì)算機(jī),網(wǎng)民越來(lái)越多。電子郵件(E_mail)是一種人們?cè)诰W(wǎng)絡(luò)上交流的常用工具,受到了人們的廣泛關(guān)注[1]。網(wǎng)絡(luò)是一個(gè)新興事件,網(wǎng)絡(luò)中有大量垃圾郵件,它們不僅浪費(fèi)網(wǎng)絡(luò)資源,給人們工作帶來(lái)困擾,而且給一些不法分子提供了可乘之機(jī),因此,對(duì)E_mail進(jìn)行有效分類找出其中的垃圾]件具有重要的實(shí)際意義[2]。

E_mail與文本有很多相似之處,為此一些學(xué)者將文本分類方法引入E_mail分類中,通過(guò)分類算法將郵件分為正常郵件和垃圾郵件[3]。同時(shí)E_mail是一種半結(jié)構(gòu)化文本,具有自身的特殊性,采用傳統(tǒng)文本分類方法用于E_mail分類,分類的精度低,郵件錯(cuò)分現(xiàn)象嚴(yán)重,導(dǎo)致一些正常郵件被攔截,而且一些垃圾郵件沒(méi)有被過(guò)濾掉[4]。近些年來(lái),一些學(xué)者將模式識(shí)別技術(shù)引入到E_mail分類中,首先提取E_mail的原始特征,然后采用K近鄰算法和神經(jīng)網(wǎng)絡(luò)等建立E_mail分類模型,獲得了不錯(cuò)的E_mail分類效果[5]。E_mail的原始特征維數(shù)高,若直接輸入到K近鄰算法和神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,分類時(shí)間長(zhǎng)、效率低,而且可能存在一些無(wú)用特征,對(duì)E_mail分類效果產(chǎn)生干擾[6]。特征篩選可以去除無(wú)用特征,減少特征數(shù)量,提高學(xué)習(xí)效率[7]。K近鄰算法假設(shè)E_mail的類別與特征間是線性變化關(guān)系,這與實(shí)際情況不相符,分類精度要低于神經(jīng)網(wǎng)絡(luò)[2]。神經(jīng)網(wǎng)絡(luò)雖然可以描述E_mail的類別與特征間的變化關(guān)系,但要求樣本多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,當(dāng)特征維數(shù)高時(shí),出現(xiàn)“維數(shù)災(zāi)”現(xiàn)象的概率高[8]。支持向量機(jī)(Support Vector Machine,SVM)是一種新型機(jī)器學(xué)習(xí)算法,避免了“維數(shù)災(zāi)”現(xiàn)象的出現(xiàn),且分類效果要優(yōu)于神經(jīng)網(wǎng)絡(luò),在E_mail分類中得到了廣泛的應(yīng)用[9]。支持向量機(jī)參數(shù)優(yōu)化問(wèn)題一直懸而未解,影響在E_mail分類中的應(yīng)用范圍[10]。

針對(duì)當(dāng)前E_mail分類模型存在的難題,為了提高郵件分類的精度,提出一種改進(jìn)支持向量機(jī)的電子郵件分類器模型(ISVM),結(jié)果表明,改進(jìn)支持向量機(jī)獲得了良好的電子郵件分類效果,可以滿足垃圾郵件處理的要求。

1 E_mail分類模型的工作原理

E_mail分類模型的工作原理如圖1所示。從圖1可以看出,特征提取和選擇是獲得較優(yōu)E_mail分類結(jié)果的基礎(chǔ),當(dāng)前E_mail特征提取和選擇研究少,主要采用人工憑經(jīng)驗(yàn)確定特征的數(shù)量,特征選擇具有主觀性,影響E_mail分類器的構(gòu)建;E_mail的分類器是獲得理想分類結(jié)果的關(guān)鍵,雖然SVM可以描述E_mail的變化特點(diǎn),但如果核函數(shù)及參數(shù)選擇不合理,E_mail分類效果很差,本文采用布谷鳥(niǎo)搜索算法選擇SVM的核函數(shù)參數(shù),以獲得高精度的E_mail分類結(jié)果。

2 改進(jìn)支持向量機(jī)

2.1 標(biāo)準(zhǔn)支持向量機(jī)

支持向量機(jī)根據(jù)最優(yōu)分類超平面將訓(xùn)練樣本分開(kāi),而且類別之間的間隔最大。對(duì)于包含兩個(gè)樣本的訓(xùn)練集,如果超平面可將它們?nèi)糠珠_(kāi),表示訓(xùn)練樣本集是線性可分的,訓(xùn)練集的數(shù)量為那么訓(xùn)練集描述為:其中表示樣本輸入;表示樣本的類別。支持向量機(jī)的超平面如圖2所示。

基于支持向量機(jī)的懲罰參數(shù)和徑向基核參數(shù)影響的性能,本文選擇布谷鳥(niǎo)搜索算法確定和的值。

2.2 布谷鳥(niǎo)搜索算法

布谷鳥(niǎo)搜索算法(CS)是一種應(yīng)用范圍很廣的智能搜索算法,假設(shè)有三種狀態(tài),具體如下:

(1) 一只布谷鳥(niǎo)僅下一個(gè)蛋,并隨機(jī)分布于鳥(niǎo)巢中。

(2) 部分較優(yōu)的鳥(niǎo)巢直接進(jìn)入到下一代,組成新的鳥(niǎo)巢[11]。

(3) 每一個(gè)鳥(niǎo)巢中的布谷鳥(niǎo)蛋被宿主發(fā)現(xiàn)的概率是相等的。

將支持向量機(jī)參數(shù)和編碼成為一個(gè)鳥(niǎo)巢位置,根據(jù)訓(xùn)練樣本計(jì)算每一組參數(shù)的和目標(biāo)函數(shù)值,并選擇目標(biāo)函數(shù)值最優(yōu)者作為當(dāng)前最優(yōu)鳥(niǎo)巢,然后對(duì)布谷鳥(niǎo)搜索的路徑和位置不斷迭次,產(chǎn)生新一代的鳥(niǎo)巢,當(dāng)?shù)螖?shù)達(dá)到最大迭代次數(shù)時(shí),最優(yōu)鳥(niǎo)巢位置對(duì)應(yīng)的和即為找到的最優(yōu)參數(shù)。

3 改進(jìn)支持向量機(jī)的E_mail分類

改進(jìn)支持向量機(jī)的E_mail分類步驟為:

Step1:收集相應(yīng)數(shù)量的E_mail,并進(jìn)行一些預(yù)處理,如刪除其中沒(méi)有意義的數(shù)據(jù),將它們轉(zhuǎn)換為相應(yīng)的格式。

Step2:提取E_mail特征,通過(guò)詞和類別的互信息量作為E_mail原始特征,對(duì)它們進(jìn)行歸一化處理。

Step3:采用主成分分析法對(duì)E_mail原始特征進(jìn)行選擇,提取最優(yōu)的特征子集,并根據(jù)特征子集對(duì)E_mail訓(xùn)練樣本和測(cè)試樣本進(jìn)行處理,減少數(shù)據(jù)規(guī)模。

Step4:將訓(xùn)練樣本輸入到支持向量機(jī)進(jìn)行訓(xùn)練,并采用布谷鳥(niǎo)搜索算法確定最優(yōu)參數(shù)和建立E_mail分類器。

Step5:采用測(cè)試樣本對(duì)E_mail分類器的性能進(jìn)行測(cè)試和分析。

4 實(shí)驗(yàn)結(jié)果與分析

為了分析ISVM的E_mail分類性能,選擇郵件分類的標(biāo)準(zhǔn)數(shù)據(jù)集――UCI數(shù)據(jù)庫(kù)作為研究對(duì)象,該數(shù)據(jù)集共有4 601個(gè)樣本,每一個(gè)樣本有58個(gè)特征,垃圾郵件的標(biāo)簽為“1”,正常郵件的標(biāo)簽為“0”,在Matlab 2014工具箱編程中實(shí)現(xiàn)E_mail分類模型。由于數(shù)據(jù)庫(kù)中的樣本比較多,隨機(jī)選擇30%的樣本進(jìn)行仿真實(shí)驗(yàn),訓(xùn)練樣本和測(cè)試樣本數(shù)量采用31的形式進(jìn)行劃分。采用分類準(zhǔn)確率(Precision)、分類召回率(recall)對(duì)結(jié)果進(jìn)行分析,具體如下:

5 結(jié) 語(yǔ)

為了消除垃圾郵件對(duì)人們工作和生活的負(fù)面影響,提高電子郵件分類精度,本文提出一種改進(jìn)支持向量機(jī)的電子郵件分類模型,結(jié)果表明,改進(jìn)支持向量機(jī)解決了當(dāng)前電子郵件分類模型存在的不足,獲得了理想的電子郵件分類效果,減少了系統(tǒng)分發(fā)郵件的工作量,分類結(jié)果可以幫助管理人員攔截垃圾郵件,具有廣泛的應(yīng)用前景。

參考文獻(xiàn)

[1] 蒲筱哥.Web自動(dòng)郵件分類技術(shù)研究綜述[J].情報(bào)W報(bào),2009,28(2):233?241.

[2] 劉赫,劉大有,裴志利,等.一種基于特征重要度的郵件分類特征加權(quán)方法[J].計(jì)算機(jī)研究與發(fā)展,2009,46(10):1693?1703.

[3] 陳東亮,白清源.基于詞頻向量的關(guān)聯(lián)郵件分類[J].計(jì)算機(jī)研究與發(fā)展,2009,46(2):464?469.

[4] 吳江寧,劉巧鳳.基于圖結(jié)構(gòu)的中文郵件表示方法研究[J].情報(bào)學(xué)報(bào),2010,32(4):618?624.

[5] 王波,黃迪明.遺傳神經(jīng)網(wǎng)絡(luò)在電子郵件過(guò)濾器中的應(yīng)用[J].電子科技大學(xué)學(xué)報(bào),2005,34(4):505?508.

[6] 李惠娟,高峰,管曉宏,等.基于貝葉斯神經(jīng)網(wǎng)絡(luò)的垃圾郵件過(guò)濾方法[J].微電子學(xué)與計(jì)算機(jī),2005,22(4):107?111.

[7] 陳華輝.一種基于潛在語(yǔ)義索引的垃圾郵件過(guò)濾方法[J].計(jì)算機(jī)應(yīng)用研究,2000,17(10):17?18.

[8] 宋勝利,王少龍,陳平.面向郵件分類的中文郵件語(yǔ)義表示方法[J].西安電子科技大學(xué)學(xué)報(bào),2013,40(2):89?97.

[9] 張兢,侯旭東,呂和勝.基于樸素貝葉斯和支持向量機(jī)的郵件智能分析系統(tǒng)設(shè)計(jì)[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,24(1):77?81.

篇3

摘 要 水系是重要的地性線,常被看成是地形的“骨架”,對(duì)其他要素有一定的制約作用??焖偬崛∵b感影像上水系的線性特征,獲

>> 一種基于非監(jiān)督判別語(yǔ)義特征提取的文本分類算法 基于監(jiān)督局部線性嵌入特征提取的高光譜圖像分類 基于提取網(wǎng)站層次結(jié)構(gòu)的網(wǎng)頁(yè)分類方法 基于自動(dòng)機(jī)模型的構(gòu)件集成軟件測(cè)試要素的提取 基于AAM關(guān)鍵特征點(diǎn)提取的人臉照片分類方法的研究與應(yīng)用 基于支持向量機(jī)分類水平集方法的圖像特征提取研究 基于局部序列圖像的虹膜特征提取與分類研究 基于分類結(jié)果的多光譜遙感影像端元提取方法 基于樣本熵的運(yùn)動(dòng)想象腦電信號(hào)特征提取與分類方法 基于小波包與共空間模式的腦電信號(hào)特征提取與分類 基于動(dòng)態(tài)特征提取和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)流分類研究 基于局部保持投影的神經(jīng)尖峰電位特征提取與分類 中文文本分類中基于概念屏蔽層的特征提取方法 解題信息的分類與提取 基于風(fēng)險(xiǎn)導(dǎo)向的內(nèi)部控制監(jiān)督要素的實(shí)施方案 基于光譜特征的監(jiān)督分類方法在黃河口濕地的應(yīng)用比較 結(jié)合均值漂移的基于圖的半監(jiān)督圖像分類 基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用 基于紋理分類的高分辨率衛(wèi)星城市用地信息提取 基于局部學(xué)習(xí)的半監(jiān)督多標(biāo)記分類算法 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:l.

[4]游代安.GIS輔助的遙感圖像處理與分析技術(shù)的研究[D].信息工程大學(xué),2001.

[5]郭德方.遙感圖像的計(jì)算機(jī)處理和模式識(shí)別[M].電子工業(yè)出版社,1984.

[6]王剛,李小曼,田杰.幾種TM影像的水體自動(dòng)提取方法比較[J].測(cè)繪科學(xué),2008(03).

篇4

關(guān)鍵詞: 網(wǎng)絡(luò)購(gòu)物評(píng)論; 文本分類; SVM; 多核學(xué)習(xí)

中圖分類號(hào):F406.2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2012)04-43-03

A classification method of online reviews based on MKL-SVM

Hu Han

(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)

Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVM’s problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.

Key words: customer review; text classification; SVM; multiple kernel learning

0 引言

購(gòu)物網(wǎng)站都建立有顧客評(píng)論系統(tǒng),收集顧客對(duì)于商品及網(wǎng)站服務(wù)的體驗(yàn)感受。由于購(gòu)物評(píng)論表達(dá)形式繁雜、內(nèi)容隨意、句型多樣,給企業(yè)有效跟蹤和管理用戶評(píng)論意見(jiàn),帶來(lái)了很大的難度。

文本分類(text categorization)應(yīng)用分類函數(shù)或分類模型,把文本映射到多個(gè)類別中的某一類,使檢索或查詢的速度更快,準(zhǔn)確率更高。文本分類在自然語(yǔ)言處理與理解、信息組織與管理、內(nèi)容信息過(guò)濾等領(lǐng)域有著廣泛的應(yīng)用。主要分類方法有:貝葉斯、決策樹(shù)、支持向量機(jī)(Support Vector Machines, SVM)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。其中SVM通過(guò)分隔面模式擺脫了樣本分布、冗余特征以及過(guò)度擬合等因素的影響,具有很好的泛化學(xué)習(xí)能力[1]。但是SVM存在訓(xùn)練收斂速度慢,分類精度難以提高等缺點(diǎn)。

核函數(shù)是SVM解決非線性問(wèn)題的方法,受限于單個(gè)核函數(shù)性能,使得SVM泛化學(xué)習(xí)能力有限,分類精度難以提升。多核學(xué)習(xí)(Multiple Kernel Learning,MKL)利用對(duì)同質(zhì)(homogeneous)或異質(zhì)(heterogeneous)核函數(shù)優(yōu)化整合,提高了SVM的學(xué)習(xí)能力和泛化性能。在處理大量異質(zhì)數(shù)據(jù)時(shí),MKL具有很好的靈活性,且分類結(jié)果更清晰,便于解決現(xiàn)實(shí)應(yīng)用問(wèn)題[2],但MKL涉及較多的相關(guān)參數(shù)的優(yōu)化。對(duì)MKL研究目前主要集中在圖像識(shí)別領(lǐng)域[3,4]。本文通過(guò)校準(zhǔn)算法確定MKL異質(zhì)核函數(shù)的優(yōu)化權(quán)系數(shù)和核參數(shù),建立基于多核學(xué)習(xí)的支持向量機(jī)(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評(píng)論分類中的應(yīng)用效果。

1 MKL-SVM方法描述

1.1 SVM核函數(shù)

SVM是基于統(tǒng)計(jì)學(xué)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,具有高泛化性能的通用學(xué)習(xí)機(jī)。設(shè)分割面,樣本集線性可分時(shí),SVM通過(guò)一個(gè)分割超平面,把訓(xùn)練樣本點(diǎn)分類,使兩類訓(xùn)練點(diǎn)到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價(jià)于使||ω||2最小。最優(yōu)分類面的求解可以轉(zhuǎn)化為優(yōu)化問(wèn)題:

s.t.

利用Lagrange優(yōu)化可將上述問(wèn)題轉(zhuǎn)為其對(duì)偶問(wèn)題:求解下列函數(shù):

max:

s.t.和。

最優(yōu)分類函數(shù)是

。

上述式中a:為L(zhǎng)agrange非負(fù)乘子

將低維的輸入空間數(shù)據(jù)通過(guò)非線性映射函數(shù)映射到高維屬性空間,輸入空間線性不可分問(wèn)題在屬性空間將轉(zhuǎn)化為線性可分問(wèn)題。這種非線性映射函數(shù)稱之為核函數(shù)[6]。設(shè)x在χ對(duì)應(yīng)一個(gè)映射到高緯空間,φ(x)為核映射函數(shù),K核函數(shù)為,,SVM尋找的超平面胃。此時(shí)目標(biāo)函數(shù)變?yōu)椋?/p>

考慮最大分割和訓(xùn)練誤差,優(yōu)化公式為:

s.t.

1.2 多核學(xué)習(xí)

設(shè)函數(shù)集合M由多個(gè)核函數(shù)K1…Km組成,核函數(shù)對(duì)應(yīng)的映射函數(shù)是φ1…φM。MKL[7]公式:

s.t.

其中ωk表示φk在整個(gè)學(xué)習(xí)機(jī)中的權(quán)重。

其中00, k=1,2….M;多核學(xué)習(xí)核函數(shù)KMKL是Ki的凸線性組合:;最終的分類函數(shù)。

1.3 MKL-SVM及優(yōu)化參數(shù)計(jì)算

MKL-SVM核函數(shù)的選擇取決于對(duì)數(shù)據(jù)處理的要求。具有全局性的核函數(shù)和局部性的核函數(shù)的分類性能互補(bǔ),可以使用不同核函數(shù)組成多核核函數(shù)[8],但是如果MKL異質(zhì)核函數(shù)種類過(guò)多,會(huì)使SVM訓(xùn)練過(guò)于復(fù)雜。因此,本研究選用M=2,核函數(shù)選擇了:Gaussian徑向基核函數(shù)RBF (Radial Basis Function)。局部核函數(shù)具有較好的學(xué)習(xí)能力,而泛化推廣能力較弱。多項(xiàng)式核函數(shù)(Polynomial Function, PF)是一個(gè)全局性核函數(shù),具有較好的泛化推廣能力,而學(xué)習(xí)能力則要弱些。Sigmoid核函數(shù)在神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,具有良好的全局分類性能。對(duì)有下面2種實(shí)現(xiàn)形式:

MKL-SVM計(jì)算中核參數(shù)σ、d、β0、β需要尋找合適的值使得SVM測(cè)試錯(cuò)誤率最小。權(quán)系數(shù)λ對(duì)MKL-SVM起著關(guān)鍵作用也需要進(jìn)行尋優(yōu)。核參數(shù)和權(quán)系數(shù)的確定是MKL-SVM非常重要的環(huán)節(jié)。本文利用核函數(shù)之間的關(guān)系等價(jià)于核矩陣之間的關(guān)系,結(jié)合交叉驗(yàn)證技術(shù)LOO和核校準(zhǔn)(kernel alignment)[9],建立如下優(yōu)化求解步驟:

①,表示兩個(gè)核矩陣之間的內(nèi)積。

核校準(zhǔn)度量k1與k2在樣本集S上的差異。核校準(zhǔn)是一個(gè)標(biāo)量值,體現(xiàn)了不同核函數(shù)之間的差異關(guān)系。

② 對(duì)k1,k2使用LOO方法,求出核參數(shù),使達(dá)到最大的核參數(shù)。

③ 定義函數(shù)

④ 構(gòu)造一個(gè)權(quán)參數(shù)λ和乘子αi的拉格朗日方程,構(gòu)造二次規(guī)劃子問(wèn)題:

⑤ 重復(fù)步驟④直到誤差最小,算法收斂到最優(yōu)的λ值。

2 實(shí)例分析

2.1 評(píng)估標(biāo)準(zhǔn)和分類維度

表1 購(gòu)物評(píng)論分類維度

[[評(píng)論對(duì)象\&編號(hào)\&維度\&解釋\&售前服務(wù)\&A1\&購(gòu)買咨詢\&是否提供在線問(wèn)答解決顧客疑問(wèn)\&A2\&信息提供全面性\&網(wǎng)站商品信息是否滿足顧客需求\&商品\&B1\&定價(jià)\&價(jià)格浮動(dòng)給顧客帶來(lái)的影響\&B2\&商品特征\&對(duì)商品使用感受\&網(wǎng)站服務(wù)\&C1\&支付方式\&網(wǎng)站方便、種類多、安全\&C2\&內(nèi)部配貨、調(diào)貨\&企業(yè)內(nèi)部訂單處理速度\&C3\&信息溝通\&及時(shí)傳遞商品處理信息給顧客\&物流服務(wù)\&D1\&及時(shí)性\&物流時(shí)間是否合理\&D2\&態(tài)度\&快遞服務(wù)、送貨上門態(tài)度\&D3\&質(zhì)量\&外包裝磨損、安全\&售后服務(wù)\&E1\&換、退貨\&問(wèn)題商品的處理\&]]

對(duì)于需要分類的n個(gè)狀態(tài),我們以ce表示對(duì)第i個(gè)狀態(tài)分類出的正確信息個(gè)數(shù),te表示沒(méi)有分類出的正確信息個(gè)數(shù),fe為錯(cuò)誤信息個(gè)數(shù)。以精確度P(Precision)表示系統(tǒng)正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統(tǒng)分類出的正確信息占所有可能正確信息的比例,。評(píng)論模型性能需要同時(shí)考慮P和R,為此引入,其中β是P和R的相對(duì)權(quán)重,決定對(duì)P側(cè)重還是對(duì)R側(cè)重,通常設(shè)定為1。F值越大,說(shuō)明分類性能越好。

圍繞購(gòu)物網(wǎng)站服務(wù)流程,本研究結(jié)合顧客購(gòu)物評(píng)論中的常見(jiàn)主題,總結(jié)出了評(píng)論的分類維度(表1)。

2.2 方法評(píng)估與應(yīng)用

本文從卓越亞馬遜、當(dāng)當(dāng)網(wǎng)等購(gòu)物網(wǎng)站,下載了不同商品的3000條購(gòu)物評(píng)論。隨機(jī)抽取2000條作為訓(xùn)練集,其余作為測(cè)試集,對(duì)比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優(yōu)于Polynomial;而MKL-GP和MKL-GS分類性能都優(yōu)于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數(shù)在某些特定條件下,才滿足核函數(shù)對(duì)稱、半正定的要求,因此影響了其分類的性能。

圖1 不同方法分類F值

表2 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

[[樣本量\&Polynomial

SVM (F值)\&Gaussian RBF

SVM(F值)\&MKL-GS

SVM(F值)\&MKL-GP

SVM(F值)\&300\&0.6573\&0.6639\&0.5081\&0.6047\&600\&0.6894\&0.7429\&0.7026\&0.7493\&1000\&0.7047\&0.7579\&0.8081\&0.8169\&2000\&0.7715\&0.8040\&0.8559\&0.8621\&3000\&0.7745\&0.8037\&0.8551\&0.8676\&]]

本文使用不同的樣本量對(duì)兩種算法進(jìn)行對(duì)比,其中F值使用均值。從表2可以看出,在樣本量不夠大時(shí),MKL-GS受Sigmoid函數(shù)特性影響性能較差;隨著樣本數(shù)量的增加,MKL優(yōu)勢(shì)逐漸明顯,表現(xiàn)出優(yōu)于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進(jìn)一步優(yōu)化。

3 結(jié)束語(yǔ)

網(wǎng)絡(luò)購(gòu)物評(píng)論分析需要多種技術(shù)的結(jié)合。MKL-SVM方法通過(guò)集成學(xué)習(xí)發(fā)揮異質(zhì)核函數(shù)不同特性,實(shí)現(xiàn)了購(gòu)物評(píng)論分類性能的提升。本文所做的工作僅僅是購(gòu)物評(píng)論分析的第一步,還需要結(jié)合文本挖掘、情感分析、營(yíng)銷分析等方法,才能幫助企業(yè)掌握消費(fèi)者的感受,給予更多智能化的決策建議。網(wǎng)絡(luò)上存在各類評(píng)論、新聞、博客、微博,對(duì)這些文本的分類分析,只要通過(guò)優(yōu)選核函數(shù)以及相關(guān)參數(shù),可以參照MKL-SVM方法獲取更好的分類性能。

參考文獻(xiàn):

[1] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006.17(9):1848~1859

[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14

[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565

[4] Koji Tsuda, Gunnar Rätsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338

[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790

[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782

[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12

篇5

Apache Kafka:以著名的捷克作家命名的Apache Kafka用于構(gòu)建實(shí)時(shí)數(shù)據(jù)流管道和流媒體應(yīng)用程序。為什么這么受歡迎?因?yàn)樗軌蛞匀蒎e(cuò)的方式存儲(chǔ),管理和處理數(shù)據(jù)流,并且十分快速。鑒于社交網(wǎng)絡(luò)環(huán)境處理數(shù)據(jù)流,Kafka目前非常受歡迎。

ApacheMahout:Mahout提供了一個(gè)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫(kù),也是創(chuàng)建更多算法的環(huán)境。換句話說(shuō),是一個(gè)機(jī)器學(xué)習(xí)的天堂環(huán)境。

ApacheOozie:在任何編程環(huán)境中,需要一些工作流程系統(tǒng)來(lái)以預(yù)定義的方式和定義的依賴關(guān)系來(lái)安排和運(yùn)行工作。Oozie提供的大數(shù)據(jù)工作以Apachepig,MapReduce和Hive等語(yǔ)言編寫(xiě)。

Apache Drill,Apache Impala,Apache Spark SQL:所有這些都提供了快速和交互式的SQL,如與Apachehadoop數(shù)據(jù)的交互。如果你已經(jīng)知道SQL,并處理以大數(shù)據(jù)格式(即HBase或HDFS)存儲(chǔ)的數(shù)據(jù),這些功能將非常有用。

ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL讀取,寫(xiě)入和管理駐留在分布式存儲(chǔ)中的大型數(shù)據(jù)集。

ApachePig:Pig是在大型分布式數(shù)據(jù)集上創(chuàng)建查詢執(zhí)行例程的平臺(tái)。所使用的腳本語(yǔ)言叫做PigLatin。據(jù)說(shuō)Pig很容易理解和學(xué)習(xí)。但問(wèn)題是有多少人能從Pig學(xué)到什么?

Apach eSqoop:用于將數(shù)據(jù)從Hadoop移動(dòng)到非Hadoop數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系數(shù)據(jù)庫(kù))的工具。

Apache Storm:一個(gè)免費(fèi)的開(kāi)源實(shí)時(shí)分布式計(jì)算系統(tǒng)。它使得使用Hadoop進(jìn)行批處理的瞬時(shí)處理可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。

人工智能(AI):人們可能會(huì)問(wèn),為什么在這里會(huì)有人工智能?人工智能不是一個(gè)單獨(dú)的領(lǐng)域,所有這些趨勢(shì)技術(shù)都是如此相關(guān),人工智能開(kāi)發(fā)智能機(jī)器和軟件的方式,使得硬件和軟件的這種組合能夠感知環(huán)境,在需要時(shí)采取必要的措施,并繼續(xù)學(xué)習(xí)這些操作。

行為分析:有沒(méi)有想過(guò)谷歌如何為人們需要的產(chǎn)品/服務(wù)提供廣告?行為分析側(cè)重于理解消費(fèi)者和應(yīng)用程序所做的事情,以及如何以及為什么它們以某種方式起作用。它是關(guān)于了解人們的網(wǎng)上沖浪模式,社交媒體互動(dòng),電子商務(wù)行動(dòng)(購(gòu)物車等),并連接這些無(wú)關(guān)的數(shù)據(jù)點(diǎn),并試圖預(yù)測(cè)結(jié)果。

Brontobytes:10的27次冪,這是數(shù)字宇宙的大小。在這里,可以了解TB字節(jié),PB字節(jié),EB字節(jié),ZB字節(jié),YB字節(jié),以及Brontobyte。人們今后會(huì)更多地了解這些術(shù)語(yǔ)。

商業(yè)智能(BI):在這里引用調(diào)研機(jī)構(gòu)Gartner對(duì)商業(yè)智能的定義。商業(yè)智能(BI)是一個(gè)總括的術(shù)語(yǔ),其中包括應(yīng)用程序,基礎(chǔ)設(shè)施和工具以及最佳實(shí)踐,可以訪問(wèn)和分析信息,以改善和優(yōu)化決策和績(jī)效。

生物特征:這就是JamesBondish技術(shù)與分析技術(shù)相結(jié)合,通過(guò)一個(gè)或多個(gè)物理特征識(shí)別人,如面部識(shí)別,虹膜識(shí)別,指紋識(shí)別等。

點(diǎn)擊流分析:用于分析用戶在網(wǎng)絡(luò)上瀏覽的在線點(diǎn)擊。曾經(jīng)想過(guò)為什么某些Google廣告還會(huì)繼續(xù)關(guān)注你,即使切換網(wǎng)站等?因?yàn)橹滥阍邳c(diǎn)擊什么。

聚類分析:試圖識(shí)別數(shù)據(jù)中的結(jié)構(gòu)的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說(shuō),它試圖確定同一組案例,即觀察者,參與者,回答者。如果分組不是先前已知的,則使用聚類分析來(lái)識(shí)別病例組。因?yàn)樗翘剿餍缘?,它確定了依賴變量和獨(dú)立變量之間的區(qū)別。SPSS提供的不同的聚類分析方法可以處理二進(jìn)制,名義,順序和比例(間隔或比率)數(shù)據(jù)。

比較分析:大數(shù)據(jù)的核心在分析中。顧名思義,比較分析是使用諸如模式分析,過(guò)濾和決策樹(shù)分析之類的統(tǒng)計(jì)技術(shù)來(lái)比較多個(gè)進(jìn)程,數(shù)據(jù)集或其他對(duì)象。人們知道它的技術(shù)性很差,但不能完全避開(kāi)這個(gè)術(shù)語(yǔ)。比較分析可用于醫(yī)療保健,比較大量的醫(yī)療記錄,文件,圖像等更有效和更準(zhǔn)確的醫(yī)療診斷。

連接分析:你一定已經(jīng)看到這些像蜘蛛網(wǎng)一樣的網(wǎng)絡(luò)圖表連接主題等,以識(shí)別某些主題的影響者。連接分析是有助于發(fā)現(xiàn)網(wǎng)絡(luò)中人員,產(chǎn)品和系統(tǒng)之間的這些相互關(guān)聯(lián)的連接和影響,甚至組合來(lái)自多個(gè)網(wǎng)絡(luò)的數(shù)據(jù)的分析。

數(shù)據(jù)分析師:數(shù)據(jù)分析師是一個(gè)非常重要和受歡迎的工作職位,除了準(zhǔn)備報(bào)告之外,它還負(fù)責(zé)收集,操縱和分析數(shù)據(jù)。

數(shù)據(jù)清理:這有點(diǎn)不言自明,它涉及從數(shù)據(jù)庫(kù)中檢測(cè)和糾正或刪除不準(zhǔn)確的數(shù)據(jù)或記錄。還記得“臟數(shù)據(jù)”嗎?那么,使用人工和自動(dòng)化工具和算法的組合,數(shù)據(jù)分析人員可以糾正和豐富數(shù)據(jù)以提高其質(zhì)量。記住,骯臟的數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤的分析和錯(cuò)誤的決策。

DaaS:你有SaaS,PaaS和DaaS為代表的數(shù)據(jù)即服務(wù)嗎?通過(guò)向客戶提供按需訪問(wèn)云托管數(shù)據(jù),DaaS提供商可以幫助快速獲取高質(zhì)量的數(shù)據(jù)。

數(shù)據(jù)虛擬化:這是數(shù)據(jù)管理的一種方法,允許應(yīng)用程序檢索和操作數(shù)據(jù),而不需要其存儲(chǔ)位置及其格式等的技術(shù)細(xì)節(jié)。例如,社交網(wǎng)絡(luò)將人們的照片存儲(chǔ)在他們的網(wǎng)絡(luò)中。

臟數(shù)據(jù):現(xiàn)在,大數(shù)據(jù)變得很流行,人們開(kāi)始在數(shù)據(jù)中添加形容詞,產(chǎn)生新的術(shù)語(yǔ),如暗數(shù)據(jù)、臟數(shù)據(jù)、小數(shù)據(jù),現(xiàn)在是智能數(shù)據(jù)。骯臟的數(shù)據(jù)就是不干凈的數(shù)據(jù),換句話說(shuō),是不準(zhǔn)確、重復(fù)的,以及不一致的數(shù)據(jù)。顯然,企業(yè)不希望與臟數(shù)據(jù)關(guān)聯(lián)。

模糊邏輯:人們對(duì)100%這樣的事物有多少把握?非常罕見(jiàn)。人類的大腦將數(shù)據(jù)聚合成部分真理,然后再抽象成某種閾值,來(lái)決定我們的反應(yīng)。模糊邏輯是一種通過(guò)模仿部分真理來(lái)模仿人腦的運(yùn)算,而不是像布爾代數(shù)的其余部分那樣的“0”和“1”這樣的絕對(duì)真理。模糊邏輯在自然語(yǔ)言處理中得到了廣泛的應(yīng)用,并已發(fā)展成為其他與數(shù)據(jù)相關(guān)的學(xué)科。

游戲化:在一個(gè)典型的游戲中,有人們喜歡的得分要素,與他人競(jìng)爭(zhēng),某些游戲規(guī)則等元素。大數(shù)據(jù)中的游戲化是使用這些概念來(lái)收集數(shù)據(jù)或分析數(shù)據(jù)或通常激勵(lì)用戶。

圖形數(shù)據(jù)庫(kù):圖形數(shù)據(jù)庫(kù)使用的概念,如節(jié)點(diǎn)和邊界代表人員/企業(yè)和他們的相互關(guān)系,從社交媒體挖掘數(shù)據(jù)。曾經(jīng)想過(guò),亞馬遜如何告訴你在購(gòu)買產(chǎn)品時(shí),別人買了什么?是的,圖形數(shù)據(jù)庫(kù)!

Hadoop用戶體驗(yàn)(Hue):Hue是一個(gè)開(kāi)放源代碼界面,使Apache Hadoop變得更加容易。它是一個(gè)基于Web的應(yīng)用程序,并且具有用于HDFS的文件瀏覽器,MapReduce的作業(yè)設(shè)計(jì)器,用于制作協(xié)調(diào)器和工作流程的Oozie應(yīng)用程序,Shell,Impala和HiveUI以及一組HadoopAPI。

HANA:高性能分析應(yīng)用程序,來(lái)自SAP的軟件/硬件內(nèi)存中平臺(tái),專為大量數(shù)據(jù)交易和分析而設(shè)計(jì)。

HBase:一個(gè)分布式,面向列的數(shù)據(jù)庫(kù)。它使用HDFS作為其底層存儲(chǔ),并支持使用MapReduce和事務(wù)交互的批量計(jì)算。

負(fù)載平衡:跨多臺(tái)計(jì)算機(jī)或服務(wù)器分布工作負(fù)載,以實(shí)現(xiàn)系統(tǒng)的最佳結(jié)果和利用率。

元數(shù)據(jù):元數(shù)據(jù)是描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了有關(guān)數(shù)據(jù)的基本信息,可以使查找和處理特定數(shù)據(jù)實(shí)例更容易。例如,作者,創(chuàng)建日期和日期修改以及文件大小是非?;镜奈臋n元數(shù)據(jù)。除文檔文件外,元數(shù)據(jù)也用于圖像,視頻,電子表格和網(wǎng)頁(yè)。

Mongo DB:一個(gè)跨平臺(tái)的開(kāi)源數(shù)據(jù)庫(kù),它使用面向文檔的數(shù)據(jù)模型,而不是傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)。這種類型的數(shù)據(jù)庫(kù)結(jié)構(gòu)旨在使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在某些類型的應(yīng)用程序中更加容易和快速地集成。

Mashup:幸運(yùn)的是,這個(gè)術(shù)語(yǔ)對(duì)于我們?cè)谌粘I钪辛私鈓ashup的定義類似?;旧?,Mashup是將不同數(shù)據(jù)集合并為單個(gè)應(yīng)用程序的一種方法(示例:將房地產(chǎn)清單與人口統(tǒng)計(jì)數(shù)據(jù)或地理數(shù)據(jù)相結(jié)合)。這是一個(gè)非常好的可視化。

多維數(shù)據(jù)庫(kù):針對(duì)數(shù)據(jù)在線分析處理(OLAP)應(yīng)用程序和數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行優(yōu)化的數(shù)據(jù)庫(kù)。它只不過(guò)是數(shù)據(jù)多個(gè)數(shù)據(jù)源的中央存儲(chǔ)庫(kù)。

多值數(shù)據(jù)庫(kù):它們是一種直接了解三維數(shù)據(jù)的NoSQL和多維數(shù)據(jù)庫(kù)。它們直接用于直接操作HTML和XML字符串。

自然語(yǔ)言處理:為使計(jì)算機(jī)更精確地理解日常人類語(yǔ)言而設(shè)計(jì)的軟件算法,使人們能夠更自然、更有效地與之交互。

神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)是一個(gè)美麗的生物學(xué)啟發(fā)的編程范例,使計(jì)算機(jī)能夠從觀測(cè)數(shù)據(jù)中學(xué)習(xí)。有人稱編程范例很美,本質(zhì)上,人工神經(jīng)網(wǎng)絡(luò)是由現(xiàn)實(shí)生活中大腦的生物學(xué)啟發(fā)的模型。與這種神經(jīng)網(wǎng)絡(luò)密切相關(guān)的是深度學(xué)習(xí)。深入學(xué)習(xí)則是一套功能強(qiáng)大的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)。

模式識(shí)別:當(dāng)一個(gè)算法在大數(shù)據(jù)集或不同的數(shù)據(jù)集中定位遞歸或規(guī)律時(shí),就會(huì)出現(xiàn)模式識(shí)別。它緊密相連,甚至被認(rèn)為是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的代名詞。這種可見(jiàn)性可以幫助研究人員發(fā)現(xiàn)見(jiàn)解或得出結(jié)論,否則會(huì)被掩蓋。

RFID-射頻識(shí)別:一種使用無(wú)線非接觸式射頻電磁場(chǎng)傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)革命,RFID標(biāo)簽可以嵌入到每一個(gè)可能的“東西”中,以產(chǎn)生需要分析的巨大數(shù)據(jù)量。

SaaS:軟件即服務(wù),使供應(yīng)商能夠托管應(yīng)用程序并通過(guò)互聯(lián)網(wǎng)使其可用。SaaS提供商通過(guò)云計(jì)算提供服務(wù)。

半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是指以常規(guī)方式未被捕獲或格式化的數(shù)據(jù),例如與傳統(tǒng)數(shù)據(jù)庫(kù)字段或公共數(shù)據(jù)模型相關(guān)聯(lián)的數(shù)據(jù)。它也不是原始的或完全非結(jié)構(gòu)化的,并且可能包含一些數(shù)據(jù)表,標(biāo)簽或其他結(jié)構(gòu)元素。圖形和表格,XML文檔和電子郵件是半結(jié)構(gòu)化數(shù)據(jù)的示例,它在萬(wàn)維網(wǎng)上是非常普遍的,通常在面向?qū)ο蟮臄?shù)據(jù)庫(kù)中。

情緒分析:情緒分析涉及捕捉和跟蹤消費(fèi)者在各種交互或文件(包括社交媒體,客戶服務(wù)代表呼叫,調(diào)查等)中表達(dá)的意見(jiàn),情緒或感受。文本分析和自然語(yǔ)言處理是情緒分析過(guò)程中的典型活動(dòng)。目標(biāo)是確定或評(píng)估對(duì)公司,產(chǎn)品,服務(wù),人員或事件表達(dá)的情緒或態(tài)度。

空間分析:指分析地理數(shù)據(jù)或拓?fù)鋽?shù)據(jù)的空間數(shù)據(jù),以識(shí)別和理解分布在地理空間中的數(shù)據(jù)內(nèi)的模式和規(guī)律。

流處理:流處理旨在通過(guò)“連續(xù)”查詢對(duì)實(shí)時(shí)和流數(shù)據(jù)進(jìn)行操作。隨著從社交網(wǎng)絡(luò)不斷流出的數(shù)據(jù),流處理和流分析的確需要在這些流中不間斷地計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析,以便實(shí)時(shí)處理大量的數(shù)據(jù)。

智能數(shù)據(jù):智能數(shù)據(jù)據(jù)稱是在通過(guò)算法進(jìn)行的一些過(guò)濾之后,其數(shù)據(jù)是有用的和可操作的。

TB字節(jié):一個(gè)相對(duì)較大的數(shù)字?jǐn)?shù)據(jù)單元,一T字節(jié)(TB)等于1000GB字節(jié)。據(jù)估計(jì),10T字節(jié)可以容納美國(guó)國(guó)會(huì)圖書(shū)館的全部印刷品,而1T字節(jié)可以容納1000份百科全書(shū)。

可視化:通過(guò)正確的可視化,原始數(shù)據(jù)可以投入使用。當(dāng)然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數(shù)據(jù)變量的復(fù)雜圖形,同時(shí)仍然可以理解和可讀

篇6

[關(guān)鍵詞]文本挖掘 文本挖掘工具 開(kāi)源文本挖掘工具

[分類號(hào)]TP391

1、文本挖掘工具概述

文本挖掘隸屬于數(shù)據(jù)挖掘這一交叉學(xué)科的一個(gè)具體研究領(lǐng)域,它的主要任務(wù)是從海量文本中發(fā)現(xiàn)潛在規(guī)律和趨勢(shì)。文本類數(shù)據(jù)源由新聞文章、研究論文、書(shū)籍、期刊、報(bào)告、會(huì)議文獻(xiàn)、技術(shù)檔案、技術(shù)標(biāo)準(zhǔn)、產(chǎn)品樣本、專利說(shuō)明書(shū)、Web頁(yè)面等半結(jié)構(gòu)化或者高度非結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成,含有較多機(jī)器所難于理解的自然語(yǔ)言,這使得文本挖掘工具與傳統(tǒng)的以結(jié)構(gòu)化數(shù)據(jù)為對(duì)象的數(shù)據(jù)挖掘工具有很大不同。

1.1 商業(yè)文本挖掘工具

近年來(lái),國(guó)內(nèi)外文本挖掘技術(shù)發(fā)展較快,許多技術(shù)已經(jīng)進(jìn)入商業(yè)化階段。各大數(shù)據(jù)挖掘工具的提供商也都推出了自己的文本挖掘工具。這些工具除具備常規(guī)的文本挖掘功能(如數(shù)據(jù)預(yù)處理、分類、聚類和關(guān)聯(lián)規(guī)則等)外,針對(duì)龐大的、非結(jié)構(gòu)化數(shù)據(jù)都能做出較好的應(yīng)對(duì),支持多種文檔格式,文本解析能力強(qiáng)大,大部分支持通用數(shù)據(jù)訪問(wèn),但是價(jià)格都十分昂貴。由于每個(gè)提供商的專注領(lǐng)域或企業(yè)背景不同,工具的定位和適用性也有所不同。本文以目前市面上較為主流的10款商業(yè)文本挖掘工具為對(duì)象,針對(duì)其不同點(diǎn)進(jìn)行了簡(jiǎn)要的分析比較,見(jiàn)表1。

1.2 開(kāi)源文本挖掘工具

目前開(kāi)源文本挖掘較多,但大部分工具由于其固定的算法只適用于特定的場(chǎng)景,應(yīng)用范圍較窄,與其相關(guān)的文獻(xiàn)資料極少,故不納入本文的比較范圍。本文對(duì)10款較具普適性的主流開(kāi)源工具進(jìn)行了比較,見(jiàn)表2。

1.3 小結(jié)

大部分商業(yè)文本挖掘工具都對(duì)多語(yǔ)言、多格式的數(shù)據(jù)提供了良好的支持,且數(shù)據(jù)的前期處理功能都比較完善,支持結(jié)構(gòu)化、半結(jié)構(gòu)化和完全非結(jié)構(gòu)化數(shù)據(jù)的分析處理。開(kāi)源文本挖掘工具一般會(huì)有自己固有的格式要求,國(guó)外開(kāi)源文本挖掘工具對(duì)中文的支持欠佳,而且大部分開(kāi)源工具仍然停留在只支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的階段。

商業(yè)文本挖掘工具的分類、回歸、聚類和關(guān)聯(lián)規(guī)則算法普遍都較開(kāi)源文本挖掘工具齊全,包含了目前主流的算法,只是每個(gè)工具在算法的具體實(shí)現(xiàn)上存在差異。同時(shí),前者在處理龐大的數(shù)據(jù)量時(shí)依舊能夠保持較高的速度和精度,后者則顯得有些望塵莫及。

目前文本挖掘還處于探索發(fā)展的階段,其中商業(yè)文本挖掘工具的發(fā)展要快于開(kāi)源文本挖掘工具。不過(guò),任何事物都有其兩面性,大部分商業(yè)軟件由于其高質(zhì)量和稀缺性而非常昂貴,不適合小企業(yè)和科研機(jī)構(gòu)。優(yōu)秀的開(kāi)源文本挖掘工具則能在最大程度上滿足相關(guān)需求,并且還能夠支持加載使用者自己擴(kuò)充的算法,或者直接嵌入到使用者自己的程序當(dāng)中去。

2、典型的開(kāi)源文本挖掘工具比較

筆者選取了四款具有代表性的開(kāi)源文本挖掘工具,在數(shù)據(jù)格式、功能模塊和用戶體驗(yàn)三個(gè)方面進(jìn)行詳細(xì)分析。其中Weka以算法全面得到了許多數(shù)據(jù)挖掘工作人員的青睞,LingPipe是專門針對(duì)自然語(yǔ)言處理開(kāi)發(fā)的工具包,LIBSVM是SVM模式識(shí)別與回歸的工具包,ROST CM在各大高校應(yīng)用面非常廣,對(duì)中文的支持最好。具體比較情況如下:

2.1 數(shù)據(jù)格式

開(kāi)源工具通常做不到像商業(yè)工具那樣對(duì)各種格式的數(shù)據(jù)都提供良好的支持,而會(huì)有一定的格式限制,甚至要求自身專有的數(shù)據(jù)格式。在選擇工具時(shí),應(yīng)該首先考慮數(shù)據(jù)是否符合或者經(jīng)轉(zhuǎn)換后能夠符合工具的要求。同時(shí),如果對(duì)工具分析的結(jié)果還要進(jìn)行后續(xù)處理,也應(yīng)該事先考慮到所使用的工具的輸出格式是否常見(jiàn)或者能否轉(zhuǎn)換為常見(jiàn)的格式,以支持后期的工作。四款開(kāi)源文本挖掘工具的格式要求以及輸出格式如表3所示:

可見(jiàn),四款開(kāi)源工具都有自己固定的格式要求,需要針對(duì)采集到的數(shù)據(jù)做格式化處理。雖然Weka支持常見(jiàn)的CSV格式,但是在進(jìn)行后期分析時(shí)ARFF格式的文檔效果更好,一般會(huì)使用其自帶工具將CSV轉(zhuǎn)換為ARFF。Weka不支持txl格式的文檔,需要使用者用另外的工具或者自己編寫(xiě)代碼實(shí)現(xiàn)格式轉(zhuǎn)換。LIBSVM使用數(shù)據(jù)格式為:::…,相關(guān)幫助文檔里提供了格式轉(zhuǎn)換函數(shù)write41ibsvm()。Lingpipe和Rost CM都支持Text文檔。

LIBSVM的數(shù)據(jù)輸出格式需要專用的工具才能打開(kāi)查看,難以集成到其他應(yīng)用。其他三個(gè)開(kāi)源工具的數(shù)據(jù)輸出格式更易于擴(kuò)展使用。

2.2 功能模塊

功能模塊是工具開(kāi)發(fā)時(shí)的重中之重,但功能最全的并非就是最好的,因?yàn)槿娼?jīng)常會(huì)導(dǎo)致淺顯,而不夠深入、不夠?qū)I(yè)的分析結(jié)果是使用人員所不愿見(jiàn)到的。應(yīng)該根據(jù)實(shí)際情況,針對(duì)性地選擇最合適的工具來(lái)完成分析工作,這樣可達(dá)到事半功倍的效果。因此,工具的功能模塊是否符合自己的要求,通常直接左右著使用者的挑選意愿。筆者對(duì)四款開(kāi)源的文本挖掘工具從文本預(yù)處理操作步驟、文本分類和回歸、文本聚類和關(guān)聯(lián)規(guī)則的各種常見(jiàn)算法以及能否訪問(wèn)數(shù)據(jù)庫(kù)、模型評(píng)估和二次開(kāi)發(fā)接口等方面進(jìn)行了較為詳細(xì)的比較。

文本預(yù)處理是文本挖掘過(guò)程中至關(guān)重要的一步,它商接影響到分類、聚類、關(guān)聯(lián)規(guī)則等后期工作的效果。其中文本分詞、去停用詞、詞頻分析、文本特征提取是較為常規(guī)的操作,也是文本預(yù)處理最核心的內(nèi)容。

文本分類是在經(jīng)過(guò)預(yù)處理的數(shù)據(jù)上,選擇分類器進(jìn)行訓(xùn)練、評(píng)價(jià)和反饋結(jié)果的過(guò)程。本文中,筆者僅針對(duì)分類器進(jìn)行比較。常見(jiàn)的分類算法有TF-IDF分類、Naive Bayes分類、Knn分類、決策樹(shù)分類、神經(jīng)網(wǎng)絡(luò)分類和支持向量分類機(jī)(SVM)。分類器不存在優(yōu)劣,每一組數(shù)據(jù)都有其適合的分類器,所以在訓(xùn)練分類模型時(shí),需要嘗試不同的分類器和不同的參數(shù),以實(shí)現(xiàn)模型優(yōu)化。

篇7

【關(guān)鍵詞】 IP化網(wǎng)絡(luò)文本 文本分類 文本聚類 組織框架

一、引言

隨著移動(dòng)運(yùn)營(yíng)商網(wǎng)絡(luò)IP化改造日益深入,運(yùn)營(yíng)商內(nèi)部積累了大量跟IP化網(wǎng)絡(luò)相關(guān)的文本,而如果移動(dòng)IP化網(wǎng)絡(luò)文本無(wú)法快速、準(zhǔn)確地進(jìn)行分類,將會(huì)直接造成網(wǎng)絡(luò)維護(hù)工作無(wú)章可循,進(jìn)而影響到網(wǎng)絡(luò)的安全性。現(xiàn)有處理移動(dòng)IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,這種手工的方法有很多不盡如人意的地方,因此,迫切需要人們研究出相關(guān)工具以對(duì)大規(guī)模的文本信息進(jìn)行有效的過(guò)濾并進(jìn)行自動(dòng)分類組織。

本文在基于文本分類[1] [3]、聚類算法的基礎(chǔ)上實(shí)現(xiàn)了一種建立移動(dòng)IP化網(wǎng)絡(luò)文本組織框架的方法,提出了一套完備且可完善的文本組織框架:采用人工聚類與機(jī)器聚類相結(jié)合的方式得到了一套科學(xué)合理的文本組織方法;采用重復(fù)分類訓(xùn)練學(xué)習(xí)過(guò)程及定期重復(fù)框架聚類過(guò)程的方式實(shí)現(xiàn)了該套文本組織框架的動(dòng)態(tài)完善;將移動(dòng)IP化網(wǎng)絡(luò)文本進(jìn)行系統(tǒng)化管理,網(wǎng)管人員可隨時(shí)根據(jù)需要從文本庫(kù)中搜索和查詢所需要的文本,獲取相關(guān)知識(shí)。對(duì)文本分類聚類模型進(jìn)行測(cè)試,結(jié)果顯示,多聚類算法得出的第二文本框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達(dá)到了70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。系統(tǒng)的部署與應(yīng)用,改變了中國(guó)移動(dòng)在開(kāi)展IP化過(guò)程中缺乏智能化分析系統(tǒng)的現(xiàn)狀,提高了網(wǎng)絡(luò)維護(hù)的針對(duì)性、主動(dòng)性和前瞻性。

二、文本分類聚類技術(shù)模型設(shè)計(jì)

2.1 現(xiàn)有文本處理方式存在的問(wèn)題

現(xiàn)有處理移動(dòng)IP化網(wǎng)絡(luò)文本的方法一般是采用人工分類歸檔的方式,網(wǎng)管人員通過(guò)查看一定數(shù)量的移動(dòng)IP化網(wǎng)絡(luò)文本的全部?jī)?nèi)容、摘要或關(guān)鍵字根據(jù)個(gè)人的工作經(jīng)驗(yàn)、理解預(yù)先建立移動(dòng)IP化網(wǎng)絡(luò)文本組織框架,然后根據(jù)建立的移動(dòng)IP化網(wǎng)絡(luò)文本組織框架以及新的移動(dòng)IP化網(wǎng)絡(luò)文本中包含的相關(guān)內(nèi)容,對(duì)該新文本進(jìn)行手工分類歸檔,并通過(guò)不定期的檢查和整理的方式維護(hù)分類歸檔的移動(dòng)IP化網(wǎng)絡(luò)文本。當(dāng)需要查詢IP化網(wǎng)絡(luò)相關(guān)文本時(shí),輸入相關(guān)搜索特征詞,系統(tǒng)從移動(dòng)IP化網(wǎng)絡(luò)文本組織框架的相應(yīng)分類中查詢特征詞對(duì)應(yīng)的文本,并輸出給查詢?nèi)藛T。

有上述可見(jiàn),現(xiàn)有移動(dòng)IP化網(wǎng)絡(luò)文本(以下簡(jiǎn)稱為文本)處理方式存在以下缺點(diǎn):(1)文本組織框架缺乏科學(xué)性及一致性。現(xiàn)有的文本處理方式屬于粗放式的文檔管理方式,文本組織框架以及文檔的整理分類完全取決于網(wǎng)管人員的專業(yè)知識(shí)水平、業(yè)務(wù)能力及工作態(tài)度,分類的方式受個(gè)人主觀因素影響較大,不同的人有不同的看法,在這樣的方式下,很難保證各個(gè)網(wǎng)管人員構(gòu)建的文本組織框架采用統(tǒng)一客觀的分類標(biāo)準(zhǔn),缺乏科學(xué)合理性。(2)效率較低,準(zhǔn)確率不能保證。人工歸檔的方式需要消耗較多的時(shí)間,尤其在文本數(shù)量較大的情況下,不能實(shí)現(xiàn)較高的處理效率;并且這種人工歸檔的分類方式還會(huì)受到一些個(gè)人因素的影響,如專業(yè)知識(shí)水平、人為判斷的失誤等的影響,使得分類準(zhǔn)確率不高[2]。(3)不利于網(wǎng)管人員的檢索、利用現(xiàn)有文本知識(shí)。采用現(xiàn)有的處理方式處理移動(dòng)IP化網(wǎng)絡(luò)文本,即網(wǎng)管人員按照自身已經(jīng)建立的文本組織框架以及閱讀文本后的理解來(lái)對(duì)文本分類,使得不同專業(yè)人員的分類方式存在偏差。由于未能采用統(tǒng)一客觀的分類標(biāo)準(zhǔn),從而使得相應(yīng)的網(wǎng)管人員對(duì)該文本的搜索、查詢與利用變得十分困難,致使文本知識(shí)的利用率低下,而且,檢索得到的文本出現(xiàn)重復(fù),也增加了檢索所需的時(shí)間,浪費(fèi)了系統(tǒng)資源。

2.2 文本分類聚類模型的設(shè)計(jì)思路

該模型的主要理論基礎(chǔ)是文件聚類和文本分類算法,前者的基礎(chǔ)是先把文本進(jìn)行分詞[4]和向量化表示[5] [6],即預(yù)處理過(guò)程,之后根據(jù)一定的聚類算法把具有相似性質(zhì)的文本歸為一類,以此為基礎(chǔ)可形成文本組織框架;分類的過(guò)程則是在已有文本框架的基礎(chǔ)上進(jìn)行數(shù)據(jù)的訓(xùn)練過(guò)程,形成一定的分類器模型,當(dāng)有新文本進(jìn)來(lái)時(shí)可以自動(dòng)根據(jù)文本內(nèi)容進(jìn)行文本分類。具體過(guò)程如圖1所示。

為了改變目前IP化網(wǎng)絡(luò)文本管理過(guò)程中的不足,本文在對(duì)文本挖掘進(jìn)行較為廣泛的探索與研究的基礎(chǔ)上,結(jié)合人工分類及基于統(tǒng)計(jì)方法的文本聚類與文本分類方法,設(shè)計(jì)了一種面向IP化網(wǎng)絡(luò)文本挖掘算法模型。該模型充分利用了IP化網(wǎng)絡(luò)中專業(yè)術(shù)語(yǔ)較多的特點(diǎn),通過(guò)總結(jié)歸納這些術(shù)語(yǔ),形成分詞庫(kù),抽取文本的特征詞[8-11],計(jì)算文本特征向量[8-11],實(shí)現(xiàn)文本聚類及文本分類算法的應(yīng)用。

2.3 文本分類聚類模型

對(duì)文本數(shù)據(jù)的建模和處理思路如圖2所示。

(1)模型數(shù)據(jù)源

IP承載網(wǎng)建設(shè)與維護(hù)相關(guān)OA文、維護(hù)管理辦法、建設(shè)文檔等。核心網(wǎng)VOIP改造相關(guān)OA文、維護(hù)管理辦法、建設(shè)文檔等。

(2)模型大致流程

首先為保證所形成的文本組織框架的質(zhì)量,需要選擇精度高、適應(yīng)性強(qiáng)的聚類算法作為聚類工具,在流程的開(kāi)始階段需要進(jìn)行小樣本的數(shù)據(jù)實(shí)驗(yàn),對(duì)K-means[7]、模糊C、蟻群以及層次聚類算法所形成的文本框架進(jìn)行比較,并結(jié)合人工分類框架進(jìn)行評(píng)估,最后選出蟻群算法這種最適合IP化網(wǎng)絡(luò)安全文本的聚類算法作為后續(xù)流程的主要聚類算法。

在選出最優(yōu)的聚類算法之后開(kāi)始使用該算法對(duì)全部的文本集進(jìn)行聚類,形成初步的文本組織框架;該框架作為分類的先驗(yàn)知識(shí)進(jìn)行分類的訓(xùn)練形成分類器,訓(xùn)練方法有很多,本文采用了支撐向量機(jī)(SVM [6])和KNN[7]兩種方法進(jìn)行訓(xùn)練,通過(guò)比較發(fā)現(xiàn)前者較優(yōu)。

分類器形成之后,當(dāng)有新的文本進(jìn)來(lái)時(shí),分類器會(huì)自動(dòng)根據(jù)文本內(nèi)容對(duì)其進(jìn)行分類,并將文本歸入相應(yīng)的文件夾下。每周一段時(shí)間可以結(jié)合專家知識(shí)對(duì)誤判率進(jìn)行計(jì)算和評(píng)估,如果誤判率高于臨界值,就說(shuō)明原來(lái)的文本框架已經(jīng)不再適用于新的文本集,需要對(duì)現(xiàn)有的全部文本集進(jìn)行重新聚類形成新的文本分類框架,這樣就實(shí)現(xiàn)了文本組織框架的更新和完善過(guò)程?;谒纬傻奈谋究蚣?,網(wǎng)絡(luò)安全維護(hù)人員可以進(jìn)行方便快捷的檢索和學(xué)習(xí)。

(3)模型預(yù)期效果

①可優(yōu)選一種與人工分類結(jié)果較為接近的文本聚類算法,可實(shí)現(xiàn)大數(shù)據(jù)量文本的準(zhǔn)確聚類;②可對(duì)新增文本進(jìn)行較為準(zhǔn)確的分類,減輕網(wǎng)管人員進(jìn)行文本管理的壓力;③可實(shí)現(xiàn)對(duì)文本的多為搜索,幫忙網(wǎng)管人員更為精確地找到所需要的文本。

三、文本分類聚類技術(shù)模型的實(shí)現(xiàn)

3.1 文本分類聚類技術(shù)模型實(shí)現(xiàn)概述

所述的數(shù)據(jù)輸入模塊用于采集IP化網(wǎng)絡(luò)安全文本數(shù)據(jù);所述的數(shù)據(jù)分析模型用于接收數(shù)據(jù)輸入模塊傳遞來(lái)的數(shù)據(jù),并且對(duì)接收到的數(shù)據(jù)進(jìn)行挖掘分析,形成四個(gè)數(shù)據(jù)分析子模塊;所述的分析結(jié)果輸出模塊用于把數(shù)據(jù)分析模塊分析的結(jié)果結(jié)合輸出要求呈現(xiàn)給輸出端;在模型中,所述的移動(dòng)IP化網(wǎng)絡(luò)文本數(shù)據(jù)包括設(shè)備指標(biāo)文本、IP承載網(wǎng)文本、交換設(shè)備文本、全網(wǎng)業(yè)務(wù)文本及安全管理與網(wǎng)管支撐文本;所述的數(shù)據(jù)分析模塊中的四個(gè)數(shù)據(jù)分析子模塊分別是:專家處理子模塊、多聚類算法子模塊、文本分類及文本框架完善子模塊和文本組織框架合成模塊。具體如圖3所示。

本文同時(shí)提供上述文本數(shù)據(jù)分析模型的實(shí)現(xiàn)方法,具體步驟如圖4所示。

下面結(jié)合實(shí)例給予說(shuō)明:

1.數(shù)據(jù)輸入步驟:通過(guò)數(shù)據(jù)輸入模塊導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù),IP化網(wǎng)絡(luò)文本數(shù)據(jù)包括集團(tuán)公司、省公司、地市公司的很多發(fā)文、管理辦法和不同地方網(wǎng)絡(luò)維護(hù)案例文本及不同部門交流文本數(shù)據(jù)。

2. 數(shù)據(jù)分析步驟:

A.專家處理子模塊步驟:本文的方法以IP化網(wǎng)絡(luò)文本數(shù)據(jù)為基礎(chǔ),先通過(guò)專家處理子模塊讓專家對(duì)現(xiàn)有小樣本的文本數(shù)據(jù)進(jìn)行整理,得出IP化網(wǎng)絡(luò)文本數(shù)據(jù)的分類框架。比如框架第一層氛圍分為指標(biāo)類材料、IP承載網(wǎng)類材料、交換設(shè)備類材料、全網(wǎng)業(yè)務(wù)材料、安全管理與網(wǎng)管支撐材料五大類,每一大類都又分為不同子類。如表1所示。

B.多聚類算法處理子模塊:通過(guò)聚類算法子模塊采用不同的聚類算法對(duì)小樣本的IP化網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行分析,得出不同的分類結(jié)果;比如通過(guò)k-means聚類算法、模糊c均值聚類算法、蟻群聚類算法、層次聚類算法等不同聚類方法進(jìn)行聚類計(jì)算,并輸出聚類結(jié)果。通過(guò)對(duì)小數(shù)據(jù)樣本聚類得出的結(jié)果作為評(píng)價(jià)來(lái)選出適合IP化網(wǎng)絡(luò)文本的聚類算法,當(dāng)遇到大的數(shù)據(jù)樣本時(shí),應(yīng)用已經(jīng)選出的聚類算法進(jìn)行挖掘。比如小樣本中蟻群聚類算法結(jié)果最為貼近專家分類結(jié)果,后面的聚類方法就都采用蟻群聚類算法來(lái)進(jìn)行挖掘。

C.文本組織框架合成模塊:把聚類算法子模塊輸出的分類結(jié)果和專家分類結(jié)果比對(duì),采用專家分類結(jié)果作為文本數(shù)據(jù)分類的框架,將小樣本的專家分類結(jié)果作為指導(dǎo),將和專家分類結(jié)果最相近的聚類算法的聚類結(jié)果填入專家分類結(jié)果中,實(shí)現(xiàn)全部文本數(shù)據(jù)的合理分類。

D.文本分類及文本框架完善子模塊:新的文本進(jìn)來(lái),文本分類及文本框架完善模塊會(huì)依據(jù)現(xiàn)有合理的文本組織通過(guò)文本分類算法對(duì)新進(jìn)入的文本進(jìn)行分類,專家判斷錯(cuò)誤率到達(dá)了多少,如果錯(cuò)誤率高于閾值,就會(huì)記錄為誤判,把所有的數(shù)據(jù)用在階段最優(yōu)的算法重新進(jìn)行聚類計(jì)算,然后通過(guò)文本組織框架合成模塊合成新的文本組織框架;具體的邏輯框架圖如圖5所示。

3.分析結(jié)果輸出步驟:在數(shù)據(jù)分析結(jié)果輸出模塊,用戶可以根據(jù)自己的需求通過(guò)樹(shù)形框架結(jié)構(gòu)找到自己想要的文本,也可以通過(guò)關(guān)鍵詞搜索,得到最相關(guān)的搜索結(jié)果。大大提高對(duì)公司現(xiàn)有文本資源的利用效率。

3.2 文本分類聚類技術(shù)模型的具體實(shí)現(xiàn)

本模型是一種建立移動(dòng)IP化網(wǎng)絡(luò)文本組織框架的方法。該方法根據(jù)預(yù)先設(shè)定的樣本量建立第一文本組織框架,應(yīng)用多聚類算法對(duì)所述預(yù)先設(shè)定的樣本量進(jìn)行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法建立的第二文本組織框架,根據(jù)所述第一文本組織框架和所述第二文本組織框架建立文本組織框架。本模型在實(shí)現(xiàn)過(guò)程中具體流程如圖6所示。

步驟1:根據(jù)預(yù)先設(shè)定的樣本量建立第一文本組織框架。本步驟中,預(yù)先設(shè)定的樣本量為一定數(shù)量的IP化網(wǎng)絡(luò)文本,本實(shí)驗(yàn)中,預(yù)先設(shè)定的樣本量為小樣本量,IP化網(wǎng)絡(luò)領(lǐng)域內(nèi)的專業(yè)技術(shù)人員根據(jù)已有的專業(yè)技術(shù)框架、自身的工作過(guò)程中積累的經(jīng)驗(yàn)及對(duì)文本的理解來(lái)實(shí)現(xiàn)IP化網(wǎng)絡(luò)文本組織框架的制定,比如,根據(jù)各文本的文本特征向量[8-11],建立五大類的IP化網(wǎng)絡(luò)文本組織框架,即文本組織框架包括:指標(biāo)類材料、IP承載網(wǎng)類材料、交換設(shè)備類材料、全網(wǎng)業(yè)務(wù)材料及安全管理與網(wǎng)管支撐材料,并計(jì)算每類對(duì)應(yīng)的分類文本特征向量[8-11]。當(dāng)然,實(shí)際應(yīng)用中,也可以根據(jù)實(shí)際的需要,按照文本特征向量[8-11]構(gòu)造其他類型的IP化網(wǎng)絡(luò)文本組織框架,比如,將IP化網(wǎng)絡(luò)文本按照集團(tuán)公司、省公司、地市公司的發(fā)文、管理辦法、不同地方網(wǎng)絡(luò)維護(hù)案例文本及不同部門交流文本數(shù)據(jù)進(jìn)行劃分,構(gòu)造相應(yīng)類別的IP化網(wǎng)絡(luò)文本組織框架。

在模型實(shí)現(xiàn)過(guò)程中,對(duì)于IP化網(wǎng)絡(luò)文本組織框架下的每個(gè)大類,又可以分為不同的子類并設(shè)置每個(gè)子類對(duì)應(yīng)的子分類文本特征向量[8-11],比如,將IP化承載網(wǎng)類材料分為五大子類,分別為:設(shè)備建設(shè)方案、日常維護(hù)管理辦法、安全評(píng)估與巡檢、省際IP承載網(wǎng)相關(guān)文件、網(wǎng)絡(luò)改造與調(diào)整;交換設(shè)備類材料分為工程建設(shè)方案及管理辦法、專項(xiàng)提升活動(dòng)等子類;全網(wǎng)業(yè)務(wù)材料分為網(wǎng)絡(luò)運(yùn)行維護(hù)實(shí)施、應(yīng)急處理與重大故障等子類;安全管理與網(wǎng)管支撐材料分為賬號(hào)與口令安全管理辦法、其他安全管理辦法及文件等子類。請(qǐng)參見(jiàn)表2所示的IP化網(wǎng)絡(luò)文本組織框架示例。

本步驟中,由于專業(yè)技術(shù)人員具有良好的專業(yè)技術(shù)水平及豐富的經(jīng)驗(yàn),對(duì)文本的理解較為全面、準(zhǔn)確,使得對(duì)文本進(jìn)行分類的準(zhǔn)確性高,描述各個(gè)分類的文本特征向量[8-11]恰當(dāng)、準(zhǔn)確性高。從而使得建立的文本組織框架科學(xué)性強(qiáng)、可信度高,可作為優(yōu)選聚類算法的主要依據(jù);同時(shí),由于預(yù)先設(shè)定的樣本數(shù)量不會(huì)太多,分類、歸檔所需的時(shí)間較少,屬于在人工可處理的范圍內(nèi)。

步驟2:應(yīng)用多聚類算法對(duì)預(yù)先設(shè)定的樣本量進(jìn)行聚類,選定與所述建立的第一文本組織框架最為相似的聚類算法作為優(yōu)選聚類算法。

該優(yōu)選聚類算法將在第一文本組織框架已無(wú)法進(jìn)行準(zhǔn)確分類的情況下,啟動(dòng)計(jì)算,得出第二文本組織框架,用于文本分類。

本步驟中,多聚類算法(文本挖掘算法)包括:k-means[7]聚類算法(k-means Clustering Algorithm)、模糊c均值聚類算法(Fuzzy C-means Clustering Algorithm)、蟻群聚類算法(Ant Colony Optimization Algorithm)、層次聚類算法(Hierarchical Clustering Algorithm)等。各算法及對(duì)文本的聚類流程屬于現(xiàn)有技術(shù),其詳細(xì)描述請(qǐng)參見(jiàn)相關(guān)技術(shù)文獻(xiàn),在此不再累贅。

實(shí)際應(yīng)用中,由于不同的聚類算法對(duì)相同數(shù)量的樣本進(jìn)行聚類時(shí),其聚類結(jié)果可能存在較大的差別,且各聚類算法的聚類結(jié)果真實(shí)可靠性也無(wú)從評(píng)估,因而,采用不同的聚類算法將對(duì)聚類結(jié)果產(chǎn)生實(shí)質(zhì)性的影響。本示例中,通過(guò)選用不同的聚類算法對(duì)預(yù)先設(shè)定的相同數(shù)量的樣本進(jìn)行聚類,對(duì)聚類結(jié)果(文本組織框架)與第一步中建立的IP化網(wǎng)絡(luò)文本組織框架進(jìn)行比較,選取與人工分類結(jié)果的相近程度最好的聚類算法結(jié)果對(duì)應(yīng)的聚類算法,作為優(yōu)選聚類算法。

步驟3:以第一為文本組織框架作為文本分類依據(jù)。本步驟中,在得到第一文本組織框架及優(yōu)選的聚類算法的基礎(chǔ)。

步驟4:根據(jù)所述文本組織框架,對(duì)新文本進(jìn)行分類。本步驟中,導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù)后,按照每個(gè)樣本包含的內(nèi)容,抽取文本中的關(guān)鍵詞,構(gòu)造各文本的文本特征向量[8-11],以文本組織框架為依據(jù),將新文本的文本特征值與文本組織框架中各類包含的文本特征值進(jìn)行匹配,將該新文本分類至文本組織框架中相應(yīng)的類別中。

被分類的樣本經(jīng)過(guò)預(yù)處理,抽取文本中的特征詞[8-11],獲取各文本的文本特征向量,與文本組織框架中各子類包含的文本特征向量進(jìn)行匹配,將各文本分類到文本組織框架中相應(yīng)的子類;于此同時(shí),抽取新增的部分文本進(jìn)行人工分類,比較人工分類與自動(dòng)分類的誤差,當(dāng)誤差超過(guò)閾值時(shí),啟動(dòng)已選出的優(yōu)選聚類算法建立的第二文本組織將文本分類,比如,上述示例第二步中,假設(shè)蟻群聚類算法對(duì)預(yù)先設(shè)定的樣本的算法結(jié)果(第二文本組織框架)最為貼近建立的第一文本框架。當(dāng)誤差超過(guò)閾值時(shí),重新啟動(dòng)蟻群聚類算法計(jì)算第二文本組織框架。

本模型實(shí)現(xiàn)過(guò)程中,還可以利用文本分類結(jié)果,對(duì)所建立的文本組織框架進(jìn)行調(diào)整,參見(jiàn)步驟5。

步驟5:從新的文本中,選取一定數(shù)量的文本,根據(jù)第一文本組織框架進(jìn)行人工分類;本步驟中,選取的這一定數(shù)量的文本,在步驟4中已進(jìn)行了自動(dòng)分類,將自動(dòng)分類結(jié)果與人工分類結(jié)果進(jìn)行比較。

步驟6:將自動(dòng)分類結(jié)果與人工分類結(jié)果進(jìn)行比較,如果自動(dòng)分類結(jié)果誤差大于預(yù)先設(shè)定的閾值,啟動(dòng)優(yōu)選聚類算法,計(jì)算新文本組織框架,作為第二文本組織框架,代替第一文本組織框架。本步驟中,預(yù)先設(shè)定的閾值可以是自動(dòng)分類結(jié)果與人工分類結(jié)果中包含的相異的文本個(gè)數(shù)與人工分類結(jié)果包含的文本個(gè)數(shù)之比。如果沒(méi)有超出該閾值,表明當(dāng)前建立的文本組織框架運(yùn)行良好,可靠性高;如果超出該閾值,需要按照人工分類結(jié)果調(diào)整文本組織框架中各大類相應(yīng)子類對(duì)應(yīng)的文本特征向量[8-11],或者重新應(yīng)用前述優(yōu)選的聚類算法對(duì)所有文本(新舊文本)進(jìn)行聚類,得到新的文本組織框架,用該新的文本組織框架代替原有的文本組織框架,當(dāng)自動(dòng)分類結(jié)果誤差大于預(yù)先設(shè)定的閾值時(shí),重新啟動(dòng)優(yōu)選的聚類算法進(jìn)行聚類得到新的文本組織框架。

實(shí)際應(yīng)用中,上述對(duì)所建立的文本組織框架進(jìn)行調(diào)整,主要是在利用第一文本組織框架對(duì)新文本分類時(shí),由于建立的第一文本組織框架是基于有限的樣本量,因而,在大樣本量的情況下,可能存在一定的分類誤差,而且隨著樣本量的不斷增大,其誤差可能也越來(lái)越大,因而,通過(guò)人工評(píng)估,當(dāng)誤差超出預(yù)先設(shè)定的閾值時(shí),可以用前述的優(yōu)選文本聚類算法結(jié)合人工評(píng)估結(jié)果重新生成文本組織框架,以替換該第一文本組織框架。

當(dāng)然,在建立文本組織框架后,網(wǎng)管人員就可以利用該文本組織框架進(jìn)行搜索和查詢,獲取所需的文本,例如,網(wǎng)管人員可以輸入搜索特征詞,文本組織框架查詢關(guān)鍵詞對(duì)應(yīng)的文本特征值[8-11],將該文本特征值所屬的搜索結(jié)果(文本概述等信息以及文本所屬的大類及子類)輸出給網(wǎng)管人員,這樣,與傳統(tǒng)的關(guān)鍵詞的搜索方式不同,由于可根據(jù)文本特征值進(jìn)行搜索,搜索情況更接近文本的內(nèi)容,每個(gè)文本可供搜索的內(nèi)容更多,使用文本搜索更貼近文本內(nèi)容。

四、測(cè)試與分析

通過(guò)模塊層次圖和數(shù)據(jù)流圖的進(jìn)一步設(shè)計(jì),基于VC編程環(huán)境,本研究將設(shè)計(jì)的模型進(jìn)一步在機(jī)器上實(shí)現(xiàn),開(kāi)發(fā)出IP化文本分類組織框架和基于文本內(nèi)容的搜索。測(cè)試結(jié)果表明多聚類算法得出的第二文本組織框架與專家分類框架具有很大區(qū)分特征[8-11],文本分類的正確率達(dá)到了70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.1 測(cè)試系統(tǒng)

對(duì)于中國(guó)運(yùn)營(yíng)商來(lái)說(shuō),3G的日益臨近,網(wǎng)絡(luò)IP化成為一種不可逆轉(zhuǎn)的趨勢(shì)。通過(guò)對(duì)現(xiàn)有網(wǎng)絡(luò)進(jìn)行IP化的改造來(lái)實(shí)現(xiàn)多網(wǎng)融合最終完成3G網(wǎng)絡(luò)的建設(shè)已經(jīng)成為國(guó)內(nèi)外各大運(yùn)營(yíng)商的共識(shí),IP化網(wǎng)絡(luò)在核心網(wǎng)的比重越來(lái)越大。目前,對(duì)計(jì)算機(jī)IP網(wǎng)絡(luò)的評(píng)估已經(jīng)有一些研究成果及應(yīng)用系統(tǒng)。但是,針對(duì)運(yùn)營(yíng)商中IP化網(wǎng)絡(luò)具體特點(diǎn),建立科學(xué)、可行的安全評(píng)估模型但成了擺在中國(guó)運(yùn)營(yíng)商面前的一個(gè)重要的問(wèn)題,同時(shí)也是在地市公司在從事具體維護(hù)工作中不得不去思考的一個(gè)問(wèn)題。

目前,對(duì)于IP網(wǎng)絡(luò)的評(píng)估方法一般需要一些先驗(yàn)知識(shí),如威脅出現(xiàn)的概率、無(wú)形資產(chǎn)賦值等,而準(zhǔn)備獲得這些數(shù)據(jù)是存在困難的,為此,已有的模糊、神經(jīng)網(wǎng)絡(luò)等方法建立的安全估計(jì)模型只能對(duì)于局部系統(tǒng)進(jìn)行評(píng)價(jià),且多局限的理論的說(shuō)明,未能有一些全面的,可行的安全評(píng)估模型及可投入使用的評(píng)估系統(tǒng)的產(chǎn)生。因此,本產(chǎn)品希望從移動(dòng)運(yùn)營(yíng)商IP化網(wǎng)絡(luò)的運(yùn)營(yíng)實(shí)際出發(fā),從技術(shù)、管理、安全意識(shí)等更加宏觀的層面來(lái)審視安全評(píng)估問(wèn)題,并依托省網(wǎng)管已經(jīng)建立的“網(wǎng)絡(luò)運(yùn)營(yíng)支撐平臺(tái)”,建立基于粗糙集的IP化網(wǎng)絡(luò)安全評(píng)估系統(tǒng)。

對(duì)于地市公司公司來(lái)說(shuō),隨著公司網(wǎng)絡(luò)集中化建設(shè)的進(jìn)行,地市公司對(duì)IP網(wǎng)絡(luò)的維護(hù)權(quán)限多停留在設(shè)備的維護(hù)方面,維護(hù)行為也多以被動(dòng)實(shí)施為主,往往缺乏對(duì)自身網(wǎng)絡(luò)安全性的科學(xué)及客觀的把握。為此,該系統(tǒng)所采用的模型也從地市公司IP化網(wǎng)絡(luò)的具體建設(shè)及維護(hù)實(shí)踐出發(fā),采用粗糙集的理論來(lái)建立網(wǎng)絡(luò)的安全模型、采用粗糙集理論來(lái)分析網(wǎng)絡(luò)各項(xiàng)安全因素的輕重關(guān)系,輸出決策規(guī)則,建立IP網(wǎng)絡(luò)下客戶感知及網(wǎng)絡(luò)質(zhì)量的共同提升模型,從而建立起一套科學(xué)完善的IP網(wǎng)絡(luò)評(píng)估算法,從而為地市公司從事IP化網(wǎng)絡(luò)的建設(shè)和維護(hù)提供指導(dǎo),變被動(dòng)為主動(dòng),全面提升IP化網(wǎng)絡(luò)建設(shè)與維護(hù)的有效性。

本文設(shè)計(jì)的文本挖掘模塊作為該系統(tǒng)中重要的一個(gè)組成部分,對(duì)于IP化安全文的深入挖掘,實(shí)現(xiàn)IP化網(wǎng)絡(luò)的安全保障起著重要的作用。對(duì)于粗糙集實(shí)現(xiàn)網(wǎng)絡(luò)安全評(píng)估方面因?yàn)椴皇钦撐牡闹饕獌?nèi)容。因此不作主要描述。本文重點(diǎn)描述了一種面向IP化網(wǎng)絡(luò)文本挖掘模型在系統(tǒng)中的具體實(shí)現(xiàn)。

文本模塊從文本導(dǎo)入、文本框架導(dǎo)入、聚類方法選擇、文本聚類、文本分類、文本搜索和瀏覽等方面把模型中的主要功能分別在不同模塊中實(shí)施。其中聚類方法選擇模塊中集成了K-means聚類算法、模糊C聚類算法、分層聚類算法和蟻群聚類算法,是模塊中的核心部分。系統(tǒng)的模塊層次如圖7所示。

在系統(tǒng)的模型層次圖的基礎(chǔ)上,進(jìn)一步設(shè)計(jì)研究了系統(tǒng)的數(shù)據(jù)流圖,從數(shù)據(jù)輸入層、數(shù)據(jù)預(yù)處理層、核心算法層、用戶使用層等層面圍繞文本組織框架為核心全面鋪開(kāi)。找出系統(tǒng)輸入、處理、輸出過(guò)程中的關(guān)鍵數(shù)據(jù)存儲(chǔ)和邏輯處理,理清了內(nèi)部邏輯的相互關(guān)系。系統(tǒng)的數(shù)據(jù)流圖如圖8所示。

4.2 系統(tǒng)相關(guān)模塊的功能說(shuō)明

在系統(tǒng)實(shí)現(xiàn)過(guò)程中,主要實(shí)現(xiàn)了如下幾個(gè)模塊:IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊,各模型具體功能如下:(1) IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊:用于導(dǎo)入IP化網(wǎng)絡(luò)安全文本數(shù)據(jù),分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2) 第一文本組織框架處理模塊:用于對(duì)接收的文本進(jìn)行分類整理,建立第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架,并將建立的第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架信息分別輸出至聚類結(jié)果匹配模塊及文本組織框架生成模塊;(3)多聚類算法模塊:用于根據(jù)預(yù)先設(shè)置的多聚類算法對(duì)接收的文本進(jìn)行聚類,向聚類結(jié)果匹配模塊輸出聚類結(jié)果;(4) 聚類結(jié)果匹配模塊:用于根據(jù)接收的第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架信息匹配來(lái)自多聚類算法模塊的聚類結(jié)果,將與第一文本組織框架最為相似的聚類算法的聚類結(jié)果信息輸出至文本組織框架生成模塊;(5) 文本組織框架生成模塊:用于根據(jù)接收的第一移動(dòng)IP化網(wǎng)絡(luò)文本組織框架信息以及聚類結(jié)果信息建立文本組織框架。

IP化網(wǎng)絡(luò)安全文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊等5模塊具體邏輯關(guān)系如圖9所示。

在實(shí)現(xiàn)過(guò)程中,該模塊可以進(jìn)一步包括如下可擴(kuò)展模塊:(1)文本分類模塊,用于依據(jù)文本組織框架生成模塊中存儲(chǔ)的文本組織框架信息,對(duì)來(lái)自IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊的文本進(jìn)行自動(dòng)分類。(2)文本組織框架調(diào)整模塊,用于接收來(lái)自文本分類模塊的自動(dòng)分類結(jié)果、以及來(lái)自第一文本組織框架處理模塊對(duì)同批量文本的人工分類結(jié)果并進(jìn)行比較,如果自動(dòng)分類結(jié)果誤差大于預(yù)先設(shè)定的閾值,按照人工分類結(jié)果調(diào)整文本組織框架生成模塊存儲(chǔ)的文本組織框架信息。(3)搜索和查詢模塊,用于接收來(lái)自外部的搜索關(guān)鍵詞,發(fā)送至文本組織框架生成模塊,將文本組織框架生成模塊根據(jù)存儲(chǔ)的文本組織框架信息查詢得到的關(guān)鍵詞對(duì)應(yīng)的文本信息進(jìn)行輸出。

系統(tǒng)中各模塊相互協(xié)同共同完成模型所要求的功能,流程如下:(1)IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊、第一文本組織框架處理模塊、多聚類算法模塊、聚類結(jié)果匹配模塊、以及文本組織框架生成模塊,其中,IP化網(wǎng)絡(luò)文本數(shù)據(jù)導(dǎo)入模塊,用于導(dǎo)入IP化網(wǎng)絡(luò)文本數(shù)據(jù),分別輸出至第一文本組織框架處理模塊和多聚類算法模塊;(2)第一文本組織框架處理模塊,主要有領(lǐng)域?qū)<襾?lái)完成,領(lǐng)域?qū)<彝ㄟ^(guò)人工的方式來(lái)獲取接收的文本信息中包含的關(guān)鍵詞,根據(jù)關(guān)鍵詞構(gòu)造各文本的文本特征向量[8-11],利用文本特征向量對(duì)所述預(yù)先設(shè)定的樣本量的IP化網(wǎng)絡(luò)文本進(jìn)行分類整理,建立第一IP化網(wǎng)絡(luò)文本組織框架,并將建立的第一IP化網(wǎng)絡(luò)文本組織框架信息分別輸出至聚類結(jié)果匹配模塊及文本組織框架生成模塊;(3)多聚類算法處理模塊,用于根據(jù)預(yù)先設(shè)置的多聚類算法對(duì)接收的文本進(jìn)行聚類,向聚類結(jié)果匹配模塊輸出聚類結(jié)果;聚類結(jié)果匹配模塊,用于根據(jù)接收的第一IP化網(wǎng)絡(luò)文本組織框架信息匹配來(lái)自多聚類算法模塊的聚類結(jié)果,將與第一文本組織框架最為相似的聚類算法的聚類結(jié)果信息輸出至文本組織框架生成模塊;(4)文本組織框架生成模塊,用于根據(jù)接收的第一IP化網(wǎng)絡(luò)文本組織框架信息以及聚類結(jié)果信息建立文本組織框架。

4.3 系統(tǒng)相關(guān)模塊的功能說(shuō)明

通過(guò)移動(dòng)公司的IP化網(wǎng)絡(luò)文本測(cè)試了本研究設(shè)計(jì)的功能模塊,測(cè)試結(jié)果顯示文本框架與專家分類框架具有很大區(qū)分特征,文本分類的正確率達(dá)到70%以上,基于內(nèi)容的索引搜索效率很高,提高了文本管理人員查找文本的效率。

4.3.1 文本聚類測(cè)試結(jié)果分析

該部分通過(guò)文本聚類實(shí)現(xiàn)文本框架的形成。系統(tǒng)提供四種聚類方法的實(shí)現(xiàn):K-means[7]、模糊C聚類、層次聚類、蟻群聚類算法;每種聚類之后,都將在下方的顯示框中展示聚類的結(jié)果,也即文本組織框架。之后通過(guò)比較不同聚類的聚類結(jié)果,選出最優(yōu)的聚類算法。

K-means[7]聚類算法可以調(diào)整三個(gè)參數(shù):聚類數(shù)目、最大迭代次數(shù)、文檔向量維數(shù)?,F(xiàn)有文本專家聚類分為3類:IP承載網(wǎng)、全網(wǎng)業(yè)務(wù)、安全管理與網(wǎng)管支撐。

模糊C均值聚類算法可以調(diào)整五個(gè)參數(shù):聚類數(shù)目、誤差限、參數(shù)m、最大迭代次數(shù)、文檔向量維數(shù)。其中參數(shù)m的調(diào)整范圍為1.5~2.5。如圖10所示。

其中K-means[7]聚類算法將文本通過(guò)迭代1000次,采用100個(gè)特征詞提取出文檔向量,分出第一類的文本數(shù)量為67,第二類的文本數(shù)量為2,第三類文本數(shù)量為1。如圖11所示。

4.3.2 文本分類測(cè)試結(jié)果分析

該部分暫時(shí)無(wú)需選擇路徑,僅采用樣本數(shù)據(jù)實(shí)現(xiàn),因?yàn)閷<曳诸愇臋n沒(méi)有經(jīng)過(guò)聚類算法,提取不出特征值,無(wú)法作為分類;此環(huán)節(jié)耗時(shí)較長(zhǎng),可能需2-3分鐘,各機(jī)器性能不一可能略有差別。

本部分工作的基礎(chǔ)是使用上一步驟選取最優(yōu)的聚類算法對(duì)所有文本進(jìn)行聚類形成合理的文本組織框架并訓(xùn)練形成分類器。分類器形成后,就可以對(duì)新進(jìn)入的文本進(jìn)行分類,一般分類正確率在70%以上。

圖12展示了對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類的結(jié)果,對(duì)34個(gè)文本進(jìn)行分類,分類正確率達(dá)到80%。證明該文本框架所形成的分類器具有較好的分類能力。圖中標(biāo)紅的文本本分到了錯(cuò)誤的類別中了,其余是被正確分類的文本;分完后可以查看通過(guò)上面的選擇查看單個(gè)文本分類情況,如圖13。

4.3.3 文本搜索測(cè)試結(jié)果分析

本部分是基于前述文本組織框架的文本搜索模塊,目前系統(tǒng)可供使用的檢索詞包括發(fā)文單位(集團(tuán)、省公司、使公司)、文本類別(通知、申請(qǐng)、報(bào)告、自查報(bào)告、緊急通知等)、文件名(輸入要找的關(guān)鍵詞,系統(tǒng)將使用該關(guān)鍵詞在所有文本的文件名中進(jìn)行檢索)、發(fā)文時(shí)間等。系統(tǒng)正在實(shí)現(xiàn)的功能是基于特征詞的檢索,在文本分詞階段每一個(gè)文本都被分成若干特征詞所表示的向量,輸入特征詞就可以實(shí)現(xiàn)基于內(nèi)容的檢索,大大提高了檢索的效率和準(zhǔn)確度。

其中基于內(nèi)容的特征詞的搜索是一個(gè)創(chuàng)新,通過(guò)文本訓(xùn)練,提取出所有搜索范圍內(nèi)的文本的特征詞,通過(guò)特征詞的頻率來(lái)確定不同文本的區(qū)別,如100維特征詞的訓(xùn)練結(jié)果就將不同文本通過(guò)挑選出來(lái)的100個(gè)文本特征詞的頻率來(lái)表示,實(shí)現(xiàn)文本的向量化,如果某一特征詞在文本中沒(méi)有出現(xiàn),則向量這個(gè)點(diǎn)上的取值為0。訓(xùn)練后的文本集就形成了一張二維表,一個(gè)維度是文本,一個(gè)維度是特征詞,這個(gè)二維表是基于文本內(nèi)容訓(xùn)練出來(lái)的,通過(guò)此二維表的特征詞來(lái)搜索文本比其他幾個(gè)維度效率更好,效果更好。

如圖14所示,搜索范圍選擇IP化安全管理系統(tǒng)文件夾中的clusters文件夾(因?yàn)橐谔卣髟~搜索需要有能提供特征詞的文件夾)。

查詢得到的文本可直接在檢索結(jié)果欄中打開(kāi)閱讀。如圖15所示。

篇8

關(guān)鍵詞:越南語(yǔ);語(yǔ)料庫(kù);分詞軟件

中圖分類號(hào):TP391.1

包括越南國(guó)家本身,世界上約有九千萬(wàn)人講越南語(yǔ);按世界母語(yǔ)使用人數(shù)排行,越南語(yǔ)列第十六位,顯然,越南語(yǔ)已經(jīng)不是真正意義上的小語(yǔ)種,而是一門重要的語(yǔ)言。盡管越南語(yǔ)的語(yǔ)系歸屬尚未確定,有語(yǔ)言學(xué)者認(rèn)為越南語(yǔ)是一種孤立語(yǔ)言;較多的學(xué)者則認(rèn)為越南語(yǔ)屬于南亞語(yǔ)系的孟-高棉語(yǔ)族,但無(wú)容置疑的是越南語(yǔ)與印歐語(yǔ)言密切相關(guān)。在書(shū)寫(xiě)形式上,現(xiàn)代越南語(yǔ)采用的是擴(kuò)展的拉丁符號(hào);在組成上,越南語(yǔ)單音節(jié)詞居多;在形態(tài)上,語(yǔ)法意義是通過(guò)語(yǔ)法詞等詞來(lái)實(shí)現(xiàn)。以上特點(diǎn)使得越南語(yǔ)與西方語(yǔ)言與東方語(yǔ)言既有相似之處,又有區(qū)別。實(shí)際上,一般認(rèn)為,在越南語(yǔ)中,詞匯是由"ti?ng"(字)構(gòu)成。目前,越南語(yǔ)共有字八千左右。有的字本身就是一個(gè)詞,有的由二個(gè)字構(gòu)成,有的由三個(gè)字構(gòu)成,甚至有的由四、五個(gè)字構(gòu)成。因此越南語(yǔ)的詞匯構(gòu)成比較復(fù)雜,具體來(lái)講就是復(fù)合詞多,但由于在書(shū)寫(xiě)上字與字之間有空格(有的字本身就是詞,也就是詞與詞之間有空格),這與英語(yǔ)等西方語(yǔ)言相似,而英語(yǔ)等書(shū)寫(xiě)時(shí)空格是詞的天然分隔界線;越南語(yǔ)則需要判斷詞的構(gòu)成。其實(shí),漢語(yǔ)由漢字組成,有的漢字本身就是一個(gè)詞,有的則不是,是由兩個(gè)或兩個(gè)以上的漢字構(gòu)成。在這一點(diǎn)上,越南語(yǔ)與漢語(yǔ)呈現(xiàn)出較強(qiáng)的相似性。在自然語(yǔ)言處理、語(yǔ)言研究等領(lǐng)域,詞匯劃界是第一步,也是最關(guān)鍵的一步。在分詞的實(shí)踐過(guò)程中,少量的語(yǔ)料可通過(guò)人工來(lái)完成,但大批量的語(yǔ)料通過(guò)人工來(lái)做顯然不可能。因此開(kāi)發(fā)計(jì)算機(jī)程序來(lái)進(jìn)行自動(dòng)分詞并進(jìn)行自動(dòng)詞性標(biāo)注成為趨勢(shì)。以漢語(yǔ)為例,現(xiàn)在比較成熟的分詞軟件比較多,典型的有中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)分詞正確率高達(dá)97.58%,已被日本、新加坡、韓國(guó)、美國(guó)以及其他國(guó)家和地區(qū)的人員使用。(見(jiàn)劉克強(qiáng),2009);此外,教育部語(yǔ)言文字應(yīng)用研究所計(jì)算語(yǔ)言學(xué)研究室研制的CorpusWordParser也被廣大用戶使用。越南語(yǔ)分詞與標(biāo)注軟件發(fā)展相對(duì)緩慢,但近幾年來(lái)也有相當(dāng)不錯(cuò)的幾件產(chǎn)品問(wèn)世,促進(jìn)了越南語(yǔ)自然語(yǔ)言處理及越南語(yǔ)研究的發(fā)展。下面首先回顧下分詞軟件的發(fā)展與歷史,然后介紹越南語(yǔ)分詞軟件,最后說(shuō)明分詞后的語(yǔ)料的作用。

1 分詞軟件的類型及特點(diǎn)

分詞軟件顧名思義一般是指給文本進(jìn)行分詞并標(biāo)注詞類的計(jì)算機(jī)程序。分詞軟件的研制始于英語(yǔ)語(yǔ)料。自從世界上第一個(gè)電子語(yǔ)料庫(kù)Brown語(yǔ)料庫(kù)于1964年問(wèn)世,學(xué)者們經(jīng)過(guò)十年左右的努力,終于推出了第一個(gè)詞性標(biāo)注版的Brown語(yǔ)料庫(kù)??梢哉f(shuō),Brown語(yǔ)料庫(kù)無(wú)論是在語(yǔ)料庫(kù)建設(shè)方面還是在計(jì)算機(jī)自動(dòng)詞性標(biāo)注方面都是開(kāi)拓性的。Brown語(yǔ)料庫(kù)的標(biāo)注程序名為TAGGIT,是基于英語(yǔ)語(yǔ)言規(guī)則設(shè)計(jì)的,該程序工作分兩個(gè)階段:第一階段先給每個(gè)詞指定一個(gè)或幾個(gè)初始詞性,如“l(fā)ike”給出介詞、動(dòng)詞、名詞、形容詞、連詞及副詞共六種初始詞性;第二階段運(yùn)用“上下文框架規(guī)則”進(jìn)行詞性排歧,盡可能地獲得唯一的詞性。程序使用的上下文框架規(guī)則多達(dá)3300條,標(biāo)注的準(zhǔn)確率為77%(Greene&Rubin,1971),該系統(tǒng)采用86種詞性標(biāo)記。盡管現(xiàn)在看來(lái)準(zhǔn)確率較低,但當(dāng)時(shí)已為詞性自動(dòng)標(biāo)注的一大突破,此后問(wèn)世的其它類型的標(biāo)注軟件很多是在標(biāo)注后的Brown語(yǔ)料庫(kù)訓(xùn)練基礎(chǔ)上研制的。

根據(jù)程序所使用的原理,可將軟件分成三類:基于語(yǔ)法規(guī)則;基于概率;基于神經(jīng)網(wǎng)絡(luò)/基于轉(zhuǎn)換(模板)。上述的TAGGIT是典型的基于語(yǔ)法規(guī)則的詞性標(biāo)注系統(tǒng),應(yīng)該說(shuō)對(duì)于特定的語(yǔ)料,使用限于一定的范圍內(nèi),基于規(guī)則的錯(cuò)誤率較低,但由于語(yǔ)言規(guī)則的不可窮盡性和語(yǔ)言的復(fù)雜性,特殊是語(yǔ)料容量龐大時(shí),這種方法的局限性就明顯出來(lái),準(zhǔn)確率會(huì)大打折扣。

基于概率的方法,就是利用統(tǒng)計(jì)的方法,通過(guò)概率確定詞的具體詞性。LOB語(yǔ)料庫(kù)首先采用此方法。在英國(guó)蘭卡斯特(Lancaster)大學(xué)由著名語(yǔ)言學(xué)家Leech的領(lǐng)導(dǎo)下,研究小組根據(jù)LOB語(yǔ)料庫(kù)提供的133×133個(gè)標(biāo)注過(guò)渡矩陣研制了CLAWS(the Constituent Likelihood Automatic Word-tagging System)程序,使用133種詞性標(biāo)記,標(biāo)注準(zhǔn)確率達(dá)96-97%。此后不斷改進(jìn),目前推出CLAWS 4.0版,詞性標(biāo)記多達(dá)170個(gè)?;诟怕实姆椒ㄊ菧?zhǔn)確率高,能處理“不規(guī)范”的表達(dá),但由于使用的矩陣概率的方法,缺少語(yǔ)言學(xué)信息,不能處理相距較遠(yuǎn)的附碼。

基于神經(jīng)網(wǎng)絡(luò)/基于轉(zhuǎn)換(模板)的方法,目前介紹較少,因此往往將基于轉(zhuǎn)換的方法稱為詞性標(biāo)注的第三種方法。該方法也使用概率統(tǒng)計(jì)原則,但與概率方法不同的是,在詞類最可能的概率獲得后,編制一套轉(zhuǎn)換規(guī)則的模板,用這模板重新標(biāo)注語(yǔ)料,再次產(chǎn)生新的規(guī)則,如此周而復(fù)始,直到?jīng)]有新的規(guī)則。此方法總體正確率高,效率也高,但缺點(diǎn)是如果標(biāo)注語(yǔ)料與訓(xùn)練語(yǔ)料語(yǔ)域類型不同時(shí),則準(zhǔn)確率明顯下降,呈現(xiàn)不穩(wěn)定性。

2 越南語(yǔ)詞性標(biāo)注軟件

越南語(yǔ)的詞性標(biāo)注軟件發(fā)展相對(duì)滯后,據(jù)可獲得的文獻(xiàn),這些軟件基本都是在本世紀(jì)初近更近的時(shí)間研制的,目前可以下載共享的有VLSP(Vietnamese Language and Speech Processing),即越南越南語(yǔ)語(yǔ)言及言語(yǔ)處理項(xiàng)目組成員開(kāi)發(fā)的系列軟件,其中包括分詞軟件,如VietTagger,JVnTagger及JVnTextPro。其中,后者兩者為前者的升級(jí)版,目前版本分別為JVnTagger 1.0.0,JVnTextPro 2.0;另一個(gè)就是越南河內(nèi)國(guó)家大學(xué)Lê H?ng Ph??ng博士開(kāi)發(fā)的越南語(yǔ)文本處理工具包vnToolkit 3.0,其中含括分詞軟件vnTokenizer、詞性標(biāo)注軟件vnTagger以及分句軟件vnSentDetector。據(jù)Lê H?ng Ph??ng個(gè)人主頁(yè)介紹,vnTokenizer 的準(zhǔn)確率和召回率介于96%―98%之間,而vnTagger的準(zhǔn)確率達(dá)到96%左右,目前vnTagger的最新版本為4.2.0。

軟件VietTagger,JVnTagger及JVnTextPro依據(jù)最大熵原理和條件隨機(jī)場(chǎng)開(kāi)發(fā),屬于概率型分詞軟件,軟件按輸入文本、斷句、切句、分詞、標(biāo)注及輸出六個(gè)步驟進(jìn)行,用戶可在此基礎(chǔ)上進(jìn)行二次開(kāi)發(fā);vnTagger可在Unix/Linux和Windows操作系統(tǒng)下運(yùn)行。下表以JVnTagge 1.0.0和vnTagger 4.2.0版本為例,列出兩款軟件的特點(diǎn):

表1 JVnTagge 1.0.0和vnTagger4.2..0特點(diǎn)

開(kāi)發(fā)者 準(zhǔn)確率 語(yǔ)言 賦碼集 處理對(duì)象 輸出格式

JVnTagger 1.0.0 Phan Xu?n Hi?u 93% Java 17 文件夾 txt

vnTagger 4.2.0 Lê H?ng Ph??ng 96% Java 17 單文本 Txt,xml

從上表可發(fā)現(xiàn),JVnTagge 1.0.0的最大特點(diǎn)是可進(jìn)行批量標(biāo)注,效率高;vnTagger 4.2.0的優(yōu)勢(shì)在于準(zhǔn)確率高,而且輸出文件格式除.txt文件外,還可以生成.xml文件,便于文件及數(shù)據(jù)間的傳輸。

3 分詞標(biāo)注文本的應(yīng)用

Leech(2005)認(rèn)為語(yǔ)料進(jìn)行詞性標(biāo)注后就成為“增值”了的文本,也就是說(shuō)相對(duì)于原始文本,其利用價(jià)值會(huì)更高。一般語(yǔ)料庫(kù)檢索軟件都可以實(shí)現(xiàn)詞表功能、描述搭配功能等。

經(jīng)過(guò)詞性標(biāo)注后的文本,任何一詞的詞性十分清楚。下圖是筆者建立的一個(gè)微型越南語(yǔ)語(yǔ)料庫(kù),該庫(kù)經(jīng)vnTagger 4.2.0進(jìn)行標(biāo)注,利用AntConc的詞表功能的一個(gè)截圖。

圖1

從上圖可發(fā)現(xiàn)“nh?t”一詞有三種詞性,分別標(biāo)注為nh?t/a,nh?t/m及nh?t/r。其中前者為形容詞、中間為數(shù)詞,后者為副詞。這此語(yǔ)料庫(kù)中形容詞及副詞的頻率分別為24及時(shí)10,而數(shù)詞僅出現(xiàn)一詞。此外,nh?n_m?nh/V表示字nh?n與m?nh組成詞nh?n m?nh,這個(gè)復(fù)合詞為動(dòng)詞,中間符號(hào)“_”將兩個(gè)字合二為一,這就是分詞的結(jié)果。如果不進(jìn)行詞性標(biāo)注,不但這三種詞性區(qū)分不清楚,而且由于此詞與其它詞組成的復(fù)合詞也未能區(qū)分,造成混亂,不利于越南語(yǔ)言研究和學(xué)習(xí)。

詞的搭配是語(yǔ)言研究和語(yǔ)言教學(xué)中的重點(diǎn)內(nèi)容。尤其是對(duì)越南語(yǔ)這種復(fù)合詞占多數(shù)的語(yǔ)言來(lái)說(shuō),分詞后才能對(duì)詞的搭配進(jìn)行較為準(zhǔn)確的研究。值得注意的是,由于該語(yǔ)料庫(kù)主要收集的是有關(guān)電腦及網(wǎng)絡(luò)方面的語(yǔ)篇,上述的結(jié)果中有很多名詞與電腦及網(wǎng)絡(luò)有關(guān)。此外,分詞在自然語(yǔ)言處理中對(duì)句法標(biāo)注也起關(guān)鍵的作用,句法標(biāo)注的基礎(chǔ)是詞性標(biāo)注。這里從略。

4 結(jié)束語(yǔ)

上面分別介紹了越南語(yǔ)的一些特點(diǎn),針對(duì)越南語(yǔ)單詞的界線不明確,需要進(jìn)行分詞才能劃出詞的界線,將語(yǔ)料中的單詞清晰地給出。越南語(yǔ)的分詞軟件JVnTagger及vnTagger是常見(jiàn)的兩款免費(fèi)共享軟件,功能相對(duì)強(qiáng)大,分別有各自己的特點(diǎn),可滿足不同用戶的需要。最后說(shuō)明了分詞后的文本的應(yīng)用,強(qiáng)調(diào)分詞詞表及搭配詞表的意義,對(duì)越南語(yǔ)的研究及教學(xué)必將產(chǎn)生有益的作用。

參考文獻(xiàn):

[1]Greene B.B.,Rubin G.M..Automatic grammatical tagging of English,Department of Linguistics.Brown University,Providence,RI,USA,1971.

[2]Leech,G.‘Adding Linguistic Annotation’,in M.Wynne,Developing Linguistic Corpora:a Guide to Good Practice.Oxford:Oxbrow Books,2005:17-29.

[3]Quan Vu,Trung Pham,Ha Nguyen."Toward a Multi-Objective Corpus for Vietnamese Language",PROC.COCOSDA2003,Singapore,2003.

[4]劉克強(qiáng).2009共享版ICTCLAS的分析與使用[J].科教文匯(上旬刊),2009(08).

[5]王建新.計(jì)算機(jī)語(yǔ)料庫(kù)的建設(shè)與應(yīng)用[M].北京:清華大學(xué)出版社,2005.

作者簡(jiǎn)介:劉克強(qiáng)(1971.06-),男,陜西西安人,教授,碩士,研究方向:語(yǔ)料庫(kù)語(yǔ)言學(xué)及文學(xué)。

篇9

[關(guān)鍵詞]互聯(lián)網(wǎng) 軍事輿情 信息技術(shù) 輿情分析

[分類號(hào)]G250

1

引言

在軍事情報(bào)搜集和處理中,公開(kāi)情報(bào)資料搜集是一個(gè)很重要的方面。美國(guó)中央情報(bào)局80%的情報(bào)來(lái)源于公開(kāi)材料,德國(guó)新聞情報(bào)局每天將搜集和處理后的公開(kāi)情報(bào)資料匯總成《每日新聞簡(jiǎn)報(bào)》呈送,以色列情報(bào)機(jī)關(guān)公開(kāi)承認(rèn)其所獲情報(bào)65%來(lái)自報(bào)刊、廣播、電視和學(xué)術(shù)研究論文等公開(kāi)渠道,其他許多國(guó)家也設(shè)立了專門的公開(kāi)情報(bào)搜集機(jī)構(gòu)。網(wǎng)絡(luò)輿情作為一種新形式的公開(kāi)情報(bào)資料,由于其開(kāi)放性、及時(shí)性以及便捷性等特點(diǎn),越來(lái)越受到情報(bào)工作者的重視,甚至很多情報(bào)工作者紛紛將網(wǎng)絡(luò)輿情作為其公開(kāi)情報(bào)資料搜集的第一來(lái)源。

軍事網(wǎng)絡(luò)輿情主要是指國(guó)內(nèi)外互聯(lián)網(wǎng)絡(luò)媒體中關(guān)于軍事事件的評(píng)論和觀點(diǎn)。軍事網(wǎng)絡(luò)輿情作為一種特殊的網(wǎng)絡(luò)輿情,除了網(wǎng)絡(luò)輿情所擁有的特點(diǎn)外,還有其自身特殊性。評(píng)論和觀點(diǎn)往往都集中在一些敏感和焦點(diǎn)問(wèn)題上,例如中國(guó)軍費(fèi)問(wèn)題、中國(guó)軍事威脅等。在進(jìn)行輿情分析與監(jiān)控時(shí),軍事網(wǎng)絡(luò)輿情將會(huì)是最為重要的部分。同時(shí),由于國(guó)外一些媒體往往對(duì)其民眾進(jìn)行錯(cuò)誤引導(dǎo),軍事網(wǎng)絡(luò)輿情中的許多看法可能偏向負(fù)面,在進(jìn)行分析和監(jiān)控時(shí)就必須注重對(duì)這一部分輿情的判別,這對(duì)于做好軍事情報(bào)分析工作至關(guān)重要。本文以開(kāi)發(fā)軍事網(wǎng)絡(luò)輿情分析系統(tǒng)MNPOS(NetworkPublic Opinion System in Militaty)為背景,在分析國(guó)內(nèi)主要輿情系統(tǒng)基礎(chǔ)上,研究輿情采集、輿情處理和輿情服務(wù)的系統(tǒng)架構(gòu)及其關(guān)鍵技術(shù)的實(shí)現(xiàn)方法。

2 網(wǎng)絡(luò)輿情系統(tǒng)比較及軍事網(wǎng)絡(luò)輿情系統(tǒng)特點(diǎn)

2.1

國(guó)內(nèi)輿情系統(tǒng)的主要功能與應(yīng)用

網(wǎng)絡(luò)輿情系統(tǒng)中的關(guān)鍵技術(shù),一方面與信息分析的具體功能和解決方案密切相關(guān);另一方面又隨網(wǎng)絡(luò)輿情內(nèi)容、范圍和傳播應(yīng)用不斷推陳出新。這些技術(shù)包括各種信息采集、特征抽取、數(shù)據(jù)挖掘、文本分析、自動(dòng)分類、自動(dòng)聚類、自動(dòng)摘要、智能檢索等技術(shù)。當(dāng)前的新形態(tài)信息交互模式有網(wǎng)絡(luò)新聞、論壇、博客、維基等,其信息采集技術(shù)從早期的靜態(tài)頁(yè)面信息獲取發(fā)展到動(dòng)態(tài)數(shù)據(jù)庫(kù)數(shù)據(jù)獲取,從傳統(tǒng)的網(wǎng)絡(luò)蜘蛛發(fā)展到可自主調(diào)整的高效搜索,從字符串匹配的檢索實(shí)現(xiàn)發(fā)展到知識(shí)環(huán)境下的智能檢索;相應(yīng)的信息運(yùn)用多元統(tǒng)計(jì)等方法進(jìn)行分析,其基礎(chǔ)聚類分析方法有概念語(yǔ)義空間與相似度、基于支持向量機(jī)與無(wú)監(jiān)督聚類相結(jié)合的網(wǎng)頁(yè)分類等;技術(shù)上采用決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、組合分類器、遺傳算法、粗糙集、最近鄰技術(shù)等多種分類方法。

國(guó)內(nèi)一些較典型的網(wǎng)絡(luò)輿情系統(tǒng)概述分析如下:

?谷尼國(guó)際Eoonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)。該系統(tǒng)通過(guò)對(duì)互聯(lián)網(wǎng)海量信息自動(dòng)獲取、自動(dòng)聚類、主題檢測(cè)和專題聚焦,實(shí)現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞專題追蹤,形成簡(jiǎn)報(bào)、分析報(bào)告等結(jié)果。運(yùn)用內(nèi)容抽取識(shí)別、相似性去重等技術(shù)獲取網(wǎng)絡(luò)中的熱點(diǎn)和敏感話題,根據(jù)統(tǒng)計(jì)等策略分析不同時(shí)間內(nèi)的主題關(guān)注程度和預(yù)測(cè)發(fā)展趨勢(shì)。該系統(tǒng)在國(guó)內(nèi)的用戶有待進(jìn)一步增加。

?中科點(diǎn)擊軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。它使用強(qiáng)大的采集軟件對(duì)數(shù)千網(wǎng)站進(jìn)行監(jiān)控,自動(dòng)獲取輿情信息的熱度,并生成報(bào)表;同時(shí)可獲取熱點(diǎn)主題的瀏覽量、回復(fù)數(shù),并跟蹤發(fā)帖人,對(duì)輿情信息進(jìn)行管理、標(biāo)注和分類,并根據(jù)重要性對(duì)輿情信息進(jìn)一步篩選和過(guò)濾。其采集性能比較好,但分析處理功能有待進(jìn)一步提高。

?北京拓爾思TRS網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。該系統(tǒng)采用多種技術(shù),實(shí)現(xiàn)對(duì)輿情信息的精準(zhǔn)和全面采集,同時(shí)綜合運(yùn)用大規(guī)模文本智能挖掘技術(shù),實(shí)現(xiàn)對(duì)海量輿情信息的準(zhǔn)確、高效分析和管理。其輿情功能從用戶角度來(lái)看較為全面。

?北大方正智思網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)。該系統(tǒng)襤合互聯(lián)網(wǎng)搜索及信息智能處理等技術(shù),通過(guò)對(duì)網(wǎng)絡(luò)信息自動(dòng)抓取、自動(dòng)分類聚類、主題檢測(cè)、專題聚焦等方法,實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)控和新聞專題追蹤等功能。其開(kāi)發(fā)比較早,應(yīng)用也較多,但相關(guān)的更新功能相對(duì)較少。

2.2

軍事網(wǎng)絡(luò)輿情系統(tǒng)的特點(diǎn)和相關(guān)研究

相比較當(dāng)前市場(chǎng)上通用的網(wǎng)絡(luò)輿情分析系統(tǒng),軍事網(wǎng)絡(luò)輿情系統(tǒng)MNPOS對(duì)軍事類突發(fā)事件的網(wǎng)絡(luò)輿情相關(guān)研究更為關(guān)注,快速的專題聚焦、敏點(diǎn)發(fā)現(xiàn)追蹤和傾向分析規(guī)則都具有新的特點(diǎn)。而目前的網(wǎng)絡(luò)輿情分析還沒(méi)有一個(gè)完整的解決模型,研究主要是獲取網(wǎng)絡(luò)輿情話題的一般信息和主題信息,注重獲取輿情話題的主題內(nèi)容,例如作者、發(fā)表時(shí)間、話題類型等,缺乏對(duì)話題評(píng)論焦點(diǎn)、情感傾向、事件關(guān)系等深層輿情信息的發(fā)現(xiàn),忽視從事軍事的群體對(duì)話題的情感、事件關(guān)系及變化趨勢(shì)的分析。

傳統(tǒng)研究方法沒(méi)有對(duì)大規(guī)模軍事網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,使得網(wǎng)絡(luò)輿情系統(tǒng)無(wú)法適應(yīng)網(wǎng)絡(luò)環(huán)境下海量軍事數(shù)據(jù)的特點(diǎn);只利用簡(jiǎn)單的統(tǒng)計(jì)方法給出話題變化趨勢(shì)直接作為預(yù)警信息,缺少基于知識(shí)的推理。存軍事領(lǐng)域,網(wǎng)絡(luò)輿情系統(tǒng)不提供完整的軍事類突發(fā)事件網(wǎng)絡(luò)輿情傳播理論,大都以管理者需求為牽引而采用具體針對(duì)性的技術(shù)進(jìn)行解決,造成技術(shù)整體上不具有連續(xù)性和系統(tǒng)性,很難形成一套完整的軍事網(wǎng)絡(luò)輿情解決方案,勢(shì)必影響到軍事網(wǎng)絡(luò)輿情應(yīng)對(duì)策略和方法的實(shí)用性、先進(jìn)性和可靠性。因此,無(wú)論是社會(huì)科學(xué)領(lǐng)域還是工程技術(shù)領(lǐng)域,對(duì)軍事網(wǎng)絡(luò)輿情的基礎(chǔ)理論研究都處于起步階段,大多數(shù)研究成果屬于方法上的研究范疇,軍事網(wǎng)絡(luò)輿情的監(jiān)測(cè)與預(yù)警工作不夠全面和系統(tǒng)化,軍事網(wǎng)絡(luò)輿情的應(yīng)對(duì)策略還不夠科學(xué)和規(guī)范。

3

軍事網(wǎng)絡(luò)輿情系統(tǒng)MNPoS功能及其體系架構(gòu)

在MNPOS軍事網(wǎng)絡(luò)輿情分析系統(tǒng)中,運(yùn)用軍事知識(shí)語(yǔ)料對(duì)網(wǎng)絡(luò)信息采集與提取,提高網(wǎng)絡(luò)輿情監(jiān)測(cè)分析的智能化程度,解決網(wǎng)頁(yè)的靈活性和復(fù)雜性、內(nèi)容的動(dòng)態(tài)性和多態(tài)性、信息的龐雜性和不完整性所給系統(tǒng)提取軍事網(wǎng)絡(luò)輿情信息帶來(lái)的困難;運(yùn)用軍事類話題發(fā)現(xiàn)與跟蹤技術(shù)識(shí)別出給定時(shí)間段內(nèi)上網(wǎng)媒體的熱門話題,分析熱門軍事話題在不同時(shí)段內(nèi)媒體所關(guān)注的程度,對(duì)突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測(cè)事件發(fā)展的趨勢(shì),對(duì)涉及內(nèi)容安全的敏感話題及時(shí)發(fā)現(xiàn)并報(bào)告,為網(wǎng)絡(luò)輿論引導(dǎo)提供支持;運(yùn)用軍事知識(shí)傾向性分析技術(shù)挖掘出網(wǎng)絡(luò)文本內(nèi)容蘊(yùn)含的深層軍事觀點(diǎn)、態(tài)度等信息,對(duì)媒體言論傾向進(jìn)行符合軍情的分析;運(yùn)用多文檔自動(dòng)文摘技術(shù)對(duì)軍事網(wǎng)絡(luò)論壇等信息進(jìn)行提煉概要。

本系統(tǒng)采用模塊化的軟件設(shè)計(jì)方法,共分為網(wǎng)絡(luò)輿情采集、網(wǎng)絡(luò)輿情處理和網(wǎng)絡(luò)輿情服務(wù)三個(gè)功能層面,系統(tǒng)體系架構(gòu)見(jiàn)圖1。

3.1

網(wǎng)絡(luò)輿情采集

網(wǎng)絡(luò)輿情采集主要是利用網(wǎng)絡(luò)蜘蛛的原理進(jìn)行網(wǎng)

頁(yè)采集,按照預(yù)先設(shè)定好的軍事主題和網(wǎng)址塒網(wǎng)絡(luò)上的軍事數(shù)據(jù)進(jìn)行定點(diǎn)、定主題的抓取,例如新聞、論壇、博客等主題網(wǎng)站。最后將抓取的結(jié)果以XML文件格式保存在本地。網(wǎng)絡(luò)輿情采集是輿情分析處理和提供輿情服務(wù)的基礎(chǔ),只有高質(zhì)量和高效率的網(wǎng)絡(luò)輿情采集才能保證數(shù)據(jù)的可靠性和及時(shí)性。

3.2 網(wǎng)絡(luò)輿情處理

網(wǎng)絡(luò)輿情處理是整個(gè)系統(tǒng)的核心,它對(duì)所有采集到的數(shù)據(jù)進(jìn)行相關(guān)處理,主要由網(wǎng)頁(yè)智能抽取、關(guān)鍵詞自動(dòng)提取、主題自動(dòng)分類、輿情傾向性分析和敏點(diǎn)輿情標(biāo)注等組成。首先,基于軍事主題和分類知識(shí)將采集模塊抓取到的XML文件中的主題、內(nèi)容、作者、時(shí)間、來(lái)源等存入網(wǎng)絡(luò)輿情信息庫(kù),通過(guò)關(guān)鍵詞自動(dòng)提取和主題自動(dòng)分類將每條記錄的關(guān)鍵詞和主題分析出來(lái),進(jìn)行傾向性分析和敏點(diǎn)輿情標(biāo)注,最后生成自動(dòng)文摘。另外,在主題分類過(guò)程中,若文檔不屬于任何預(yù)設(shè)軍事主題則進(jìn)行主題自動(dòng)聚類處理,自動(dòng)分析出新的軍事主題。

3.3 網(wǎng)絡(luò)輿情服務(wù)

分析結(jié)果進(jìn)入網(wǎng)絡(luò)輿情服務(wù),并最終展示,包括輿情報(bào)告的生成、熱點(diǎn)和敏點(diǎn)軍事主題的列表顯示、統(tǒng)計(jì)圖表等,供輿情部門的工作人員和決策部門的領(lǐng)導(dǎo)隨時(shí)進(jìn)行軍事輿情的監(jiān)控。

MNPOS系統(tǒng)在設(shè)計(jì)和實(shí)現(xiàn)過(guò)程中遵循軟件工程原則,使用,NET Framework作為基礎(chǔ)類庫(kù),在此基礎(chǔ)上綜合運(yùn)用VB和c#以及ASP技術(shù)進(jìn)行開(kāi)發(fā),保證技術(shù)上的先進(jìn)。另外,為保證系統(tǒng)的可靠性和可擴(kuò)展性,采取數(shù)據(jù)層、事務(wù)層和表現(xiàn)層分離的模塊化設(shè)計(jì)原則,分為輿情采集、輿情處理和輿情服務(wù)子系統(tǒng)分別進(jìn)行實(shí)現(xiàn)。

4 MNPOS系統(tǒng)中軍事輿情分析關(guān)鍵技術(shù)研究

MNPOS軍事網(wǎng)絡(luò)輿情分析是系統(tǒng)核心模塊,其質(zhì)量和效率直接影響到整個(gè)系統(tǒng)。

4.1

MNPOS軍事主題信息采集

MNPOS主題信息采集由下載器從互聯(lián)網(wǎng)上讀取軍事網(wǎng)頁(yè)并保存到本地,分析器運(yùn)用軍事語(yǔ)料和相關(guān)正則表達(dá)式提取其中所有超鏈壓人一個(gè)URL隊(duì)列,之后從該隊(duì)列中順序讀取URL并下載,該過(guò)程循環(huán)進(jìn)行直至將指定網(wǎng)站的網(wǎng)頁(yè)抓取完畢。程序關(guān)鍵在于多線程管理和鏈接地址的分析,目前C#提供了良好的多線程管理機(jī)制和對(duì)正則表達(dá)式的支持,為開(kāi)發(fā)多線程程序提供了極大的方便。

MNPOS軍事網(wǎng)頁(yè)信息抽取,首先選擇相應(yīng)的抽取規(guī)則進(jìn)行智能抽取,將相應(yīng)的內(nèi)容抽取出后進(jìn)行數(shù)據(jù)清洗,去除重復(fù)記錄和信息,合并相同標(biāo)題不同內(nèi)容的信息,最后將清洗后的數(shù)據(jù)存人軍事輿情數(shù)據(jù)庫(kù)。該處理過(guò)程包含在包裝器中,對(duì)于用戶來(lái)說(shuō)是透明的。另外,在規(guī)則生成部分采用軍事專家模式,即對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行分析,然后手工進(jìn)行規(guī)則的提取,因此,所生成的規(guī)則比較精確,對(duì)于相應(yīng)軍事網(wǎng)頁(yè)的抽取質(zhì)量和精確度較高。

4.2 MNPOS軍事輿情分類和傾向分析

將處理后的信息分入預(yù)先設(shè)置好的軍事分類,對(duì)于網(wǎng)絡(luò)輿情服務(wù)具有至關(guān)重要的作用。分類模塊主要采用KNN和SVM分類法,其中的特征選擇結(jié)合了信息增益、互信息和a2統(tǒng)計(jì)等方法和軍事主題分類概念庫(kù),采用目前分類質(zhì)量較高的一些開(kāi)源程序進(jìn)行改造,將其集成到系統(tǒng)中保證分類質(zhì)量。

MNPOS軍事輿情文本分類分為兩個(gè)過(guò)程:①訓(xùn)練過(guò)程,決定分類機(jī)的質(zhì)量。首先由軍事專家完成訓(xùn)練集的挑選,然后在預(yù)處理過(guò)程中進(jìn)行參數(shù)選擇、訓(xùn)練后進(jìn)行參數(shù)調(diào)整等。②根據(jù)訓(xùn)練過(guò)程所生成的分類機(jī)進(jìn)行分類,其中最重要的是預(yù)處理和分類進(jìn)程,預(yù)處理是對(duì)待分類文本進(jìn)行數(shù)據(jù)清洗和特征表示的過(guò)程,本系統(tǒng)的訓(xùn)練和分類進(jìn)程采用SVMCLS 2.0開(kāi)源程序。

輿情傾向性分析是根據(jù)輿情內(nèi)容判斷該輿情是正面還是負(fù)面的一個(gè)過(guò)程。常用的方法有基于機(jī)器學(xué)習(xí)和基于語(yǔ)義理解等,目前MNPOS系統(tǒng)采用基于機(jī)器學(xué)習(xí)的方法。系統(tǒng)中設(shè)計(jì)有六個(gè)類別(美國(guó)對(duì)售、中國(guó)反導(dǎo)試驗(yàn)、中美軍事關(guān)系、中印關(guān)系、中國(guó)航天發(fā)展、中國(guó)武器裝備),以其中的“中美軍事關(guān)系”舉例,可以將該類的文本根據(jù)其內(nèi)容分為正面和負(fù)面兩類,然后再訓(xùn)練出兩個(gè)分類器:“中美軍事關(guān)系正面”和“中美軍事關(guān)系負(fù)面”,六個(gè)類別即可生成12個(gè)分類器,然后對(duì)這些待分類文本進(jìn)行分類,并且在數(shù)據(jù)庫(kù)相應(yīng)字段內(nèi)用1和0來(lái)分別標(biāo)注正面和負(fù)面信息。這種方法實(shí)現(xiàn)起來(lái)較為簡(jiǎn)單,而且準(zhǔn)確率較高,不足是在構(gòu)建訓(xùn)練集時(shí)需要大量軍事專家進(jìn)行手工編制,實(shí)現(xiàn)中充分利用軍事信息管理學(xué)科的優(yōu)勢(shì)和成果來(lái)構(gòu)建傾向性分類訓(xùn)練集。

4.3 MNPOS軍事敏點(diǎn)輿情標(biāo)注

篇10

【關(guān)鍵詞】聲紋識(shí)別;小波濾波器組;基音周期;Mel倒譜系數(shù);高斯混合模型

1.引言

說(shuō)話人聲紋識(shí)別可以看作是語(yǔ)音識(shí)別的一種。它和語(yǔ)音識(shí)別一樣,都是通過(guò)對(duì)所收到的語(yǔ)音信號(hào)進(jìn)行處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此作出判斷。而區(qū)別在于它并不注意語(yǔ)言信號(hào)中的語(yǔ)義內(nèi)容,而是希望從語(yǔ)音信號(hào)中提取出人的特征。從這點(diǎn)上說(shuō),說(shuō)話人聲紋識(shí)別是企求挖掘出包含在語(yǔ)音信號(hào)中的個(gè)性因數(shù),而語(yǔ)音識(shí)別是企求從不同人的詞語(yǔ)信號(hào)中尋找相同因素。在處理方法上,說(shuō)話人聲紋識(shí)別力圖強(qiáng)調(diào)不同人之間的差別,而語(yǔ)音識(shí)別則力圖對(duì)不同人說(shuō)話的差別加以歸一化。世界范圍內(nèi),聲紋識(shí)別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年年初,聲紋識(shí)別產(chǎn)品的市場(chǎng)占有率為15.8%,僅次于指紋識(shí)別和掌形識(shí)別。

現(xiàn)有文獻(xiàn)中用于說(shuō)話人識(shí)別的特征許多是建立在短時(shí)頻譜基礎(chǔ)上。它們主要有Mel頻率倒譜系數(shù)(MFCC),LPC倒譜系數(shù),差值倒譜等。在聲紋識(shí)別技術(shù)中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經(jīng)網(wǎng)絡(luò)法。Soong等人將矢量量化技術(shù)用于與文本無(wú)關(guān)的說(shuō)話人是被系統(tǒng)。Rosenberg等人利用子詞單元構(gòu)成的隱馬爾科夫模型(HMM),建立了一個(gè)說(shuō)話人確認(rèn)系統(tǒng)。Delesby等人利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)方法進(jìn)行說(shuō)話人識(shí)別[1]。我國(guó)的北京大學(xué)以遲惠生為領(lǐng)導(dǎo)的說(shuō)話人識(shí)別研究團(tuán)體、清華大學(xué)以楊行峻為領(lǐng)導(dǎo)的研究團(tuán)體以及中國(guó)科學(xué)院聲學(xué)所和東南大學(xué)也在這個(gè)方面取得了非常優(yōu)秀的科研成果.從國(guó)內(nèi)外文獻(xiàn)看來(lái),有的著重距離測(cè)度,但是大多數(shù)向幾種方法如HMM、GMM和ANN混合的方向發(fā)展。

2.聲紋識(shí)別的基本原理及相關(guān)算法

2.1 基本原理

聲紋識(shí)別的基本原理如圖1所示,主要包括兩個(gè)階段,即訓(xùn)練和識(shí)別階段。

訓(xùn)練階段,系統(tǒng)的每個(gè)使用者說(shuō)出若干訓(xùn)練語(yǔ)句,系統(tǒng)據(jù)此建立每個(gè)使用者的模板或模型參數(shù)。識(shí)別階段,由待識(shí)人說(shuō)的語(yǔ)音經(jīng)特征提取后與系統(tǒng)訓(xùn)練時(shí)產(chǎn)生的模板或模型參數(shù)進(jìn)行比較。在主說(shuō)話人的辨認(rèn)中,取與測(cè)試音匹配距離最小的說(shuō)話人模型所對(duì)應(yīng)的說(shuō)話人作為識(shí)別結(jié)果;在說(shuō)話人確認(rèn)中,則通過(guò)判斷測(cè)試音與所聲稱的說(shuō)話人的模型的匹配距離是否小于一定閉值做出判斷。

2.2 語(yǔ)音信號(hào)的預(yù)處理

在語(yǔ)音信號(hào)特征提取之前,首先要進(jìn)行的一個(gè)環(huán)節(jié)就是對(duì)輸入語(yǔ)音信號(hào)的預(yù)處理,主要包括預(yù)濾波、預(yù)加重、加窗分幀以及語(yǔ)音端點(diǎn)檢測(cè)等過(guò)程。本文就以涉及到的預(yù)濾波進(jìn)行描述,預(yù)濾波在本文中是通過(guò)小波濾波器組來(lái)實(shí)現(xiàn)。預(yù)濾波器必須是一個(gè)帶通濾波器,其上、下截止頻率分別是和。對(duì)于絕大多數(shù)語(yǔ)音處理中,,,采樣率為。

2.3 聲紋特征提取

2.3.1 概述

提取說(shuō)話人特征就是把原來(lái)語(yǔ)音中的冗余信息去掉,找到我們關(guān)注的語(yǔ)音特征信息,是一個(gè)減小數(shù)據(jù)量的過(guò)程。從說(shuō)話人語(yǔ)音信號(hào)中提取的特征參數(shù)應(yīng)滿足以下準(zhǔn)則:對(duì)外部條件具有魯棒性(如:說(shuō)話人的健康狀況和情緒,方言和別人模仿等);能夠長(zhǎng)期地保持穩(wěn)定;易于從語(yǔ)音信號(hào)中進(jìn)行提取;與其他特征不相關(guān)。

2.3.2 典型聲紋特征參數(shù)提取算法

聲紋特征參數(shù)主要有以下幾種:基音周期、短時(shí)過(guò)零率、線性預(yù)測(cè)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、以及經(jīng)過(guò)噪聲譜減或者信道譜減的去噪倒譜系數(shù)等,每一種特征參數(shù)都有其相應(yīng)的提取算法。在聲紋特征提取這一點(diǎn),本文將采用基音周期和Mel頻率倒譜混合的參數(shù)作為特征參數(shù)。

2.3.2.1 線性預(yù)測(cè)(LPC)方法

語(yǔ)音線性預(yù)測(cè)的基本思想是:利用過(guò)去的樣值對(duì)新樣值進(jìn)行預(yù)測(cè),然后將樣值的實(shí)際值與其預(yù)測(cè)值相減得到一個(gè)誤差信號(hào),顯然誤差信號(hào)的動(dòng)態(tài)范圍遠(yuǎn)小于原始語(yǔ)音信號(hào)的動(dòng)態(tài)范圍,對(duì)誤差信號(hào)進(jìn)行量化編碼而達(dá)到最小,可以確定唯一的一組線性預(yù)測(cè)系數(shù)。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個(gè)性算法[2][3]。由于LPC分析是基于全極點(diǎn)模型的假設(shè),所以它對(duì)于聲道響應(yīng)含有零點(diǎn)的清音和濁音和鼻音描述不確切。

2.3.2.2 線性預(yù)測(cè)倒譜系數(shù)(LPCC)

倒譜特征是用于說(shuō)話人個(gè)性特征和說(shuō)話識(shí)別人識(shí)別的最有效的特征之一。語(yǔ)音信號(hào)是聲道頻率特性和激勵(lì)源信號(hào)源兩者共同卷積的結(jié)果,后者對(duì)于某幀而言常帶有一定的隨機(jī)性,而說(shuō)話人的個(gè)性特征很大程度上取決于說(shuō)話人的發(fā)音聲道,因此要將此二者進(jìn)行有效的分離,可以通過(guò)對(duì)信號(hào)做適當(dāng)?shù)耐瑧B(tài)濾波,將相卷積的兩個(gè)部分分離。濾波的關(guān)鍵是先將卷積處理化為乘積,然后做對(duì)數(shù)處理,使之化為可分離的相加成分。線性預(yù)測(cè)倒譜系數(shù)可由LPC特征進(jìn)行推導(dǎo),基于LPC系數(shù)分析得倒譜存在一種非常簡(jiǎn)單有效的遞推求解方法。LPCC參數(shù)比較徹底地去掉了語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,主要反映聲道特性,只需要十幾個(gè)倒譜系數(shù)能比較好的描述語(yǔ)音的共振特性,計(jì)算量小,其缺點(diǎn)是對(duì)輔音的描述能力較差,抗噪聲性能也較弱。

2.3.2.3 梅爾倒譜系數(shù)(MFCC)

MFCC著眼于人耳的聽(tīng)覺(jué)感知機(jī)理。因?yàn)槁?tīng)到的聲音的高低與聲音的頻率的并不成線性正比關(guān)系,Mel頻率的尺度更符合人耳的聽(tīng)覺(jué)特性。用Mel濾波器組對(duì)語(yǔ)音信號(hào)進(jìn)行濾波和加權(quán),使語(yǔ)音信號(hào)更加接近于人耳聽(tīng)覺(jué)感知系統(tǒng)特性,MFCC特征成為目前說(shuō)話人識(shí)別和語(yǔ)音識(shí)別中最為廣泛的特征參數(shù)。根據(jù)倒譜計(jì)算過(guò)程,MFCC計(jì)算過(guò)程可以簡(jiǎn)單地描為如下四個(gè)步驟:

(1)對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)傅里葉變換,得到各個(gè)幀的頻譜。

(2)在Mel頻率的軸上配置L個(gè)通道的三角濾波器組,L的個(gè)數(shù)由信號(hào)的救治頻定。每一個(gè)三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設(shè)o(l)、h(l)分別是第L個(gè)三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關(guān)系成立:

2.3.2.4 基因周期系數(shù)

基音是指發(fā)濁音時(shí)聲帶振動(dòng)引起的周期性,而基音周期是指聲帶振動(dòng)頻率的倒數(shù),基音可以分為時(shí)域、頻域以及綜合利用信號(hào)時(shí)域頻率特性等三種提取模式,時(shí)域包括利用語(yǔ)音信號(hào)的采樣點(diǎn)計(jì)算信號(hào)的波峰、波谷和過(guò)零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計(jì)算信號(hào)的自相關(guān)函數(shù)、功率譜和最大似然函數(shù)等,其精度要高于時(shí)域方法,典型的方法是有中央消波自相關(guān)法、平均幅度差分函數(shù)法和倒譜法等。本文章選用倒譜法進(jìn)行基因周期的提取。

1)倒譜法原理

語(yǔ)音信號(hào)是激勵(lì)源與聲道相應(yīng)相卷積的結(jié)果,而“倒譜特征”則是利用了對(duì)語(yǔ)音信號(hào)進(jìn)行適當(dāng)?shù)耐瑧B(tài)濾波后,可將激勵(lì)信號(hào)與聲道信號(hào)加以分離的原理。倒譜中維數(shù)較低的分量對(duì)應(yīng)于語(yǔ)音信號(hào)的聲道分量,倒譜中維數(shù)較高的分量對(duì)應(yīng)于語(yǔ)音信號(hào)的音源激勵(lì)信號(hào)。因此,利用語(yǔ)音信號(hào)倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機(jī)變化的音源激勵(lì)分量的干擾。

可見(jiàn),倒譜域中基音信息與聲道信息可認(rèn)為相對(duì)分離的。采取簡(jiǎn)單的倒譜法可以分離并恢復(fù)e(n)和v(n),根據(jù)激勵(lì)e(n)及倒譜的特征可以求出基音周期。然而,反應(yīng)基音信息的倒譜峰在含過(guò)渡音和噪語(yǔ)音中將會(huì)變得不清晰甚至完全消失。原因主要是因?yàn)檫^(guò)渡音中周期激勵(lì)信號(hào)能量降低和類噪激勵(lì)信號(hào)干擾或含噪語(yǔ)音中的噪聲干擾所致。這里可以采用一個(gè)簡(jiǎn)單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(hào)(由原始作FT逆變換再取對(duì)數(shù)后得到)的高頻分量置零??梢詫?shí)現(xiàn)類似于低通濾波器的處理,濾去噪音和激勵(lì)源中的高頻分量,減少了噪聲干擾。圖2是一種改進(jìn)的倒譜基音檢測(cè)的算法框圖。

2.4 聲紋識(shí)別技術(shù)

2.4.1 概述

聲紋識(shí)別的基本原理是為了每個(gè)說(shuō)話人建立一個(gè)能夠描述這一說(shuō)話人特征的模型,以其作為這一說(shuō)話人的個(gè)性特征。在目前的話音特征與說(shuō)話人個(gè)性特征還未很好的從語(yǔ)音特征中得到分離情況下,為每個(gè)說(shuō)話者建立的說(shuō)話人模型實(shí)際上是說(shuō)話人的語(yǔ)音特征得模型。為對(duì)說(shuō)話人個(gè)性特征描述的一致起見(jiàn),構(gòu)造一個(gè)通用的模型,常將每個(gè)說(shuō)話人的模型結(jié)構(gòu)取得相同,不同的只是模型中的參數(shù),通過(guò)用訓(xùn)練語(yǔ)音對(duì)模型進(jìn)訓(xùn)練得到。

2.4.2 典型的聲紋識(shí)別算法

目前說(shuō)話人識(shí)別模型主要有DTW(動(dòng)態(tài)時(shí)間規(guī)劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經(jīng)元網(wǎng)絡(luò)),SVM(支持向量機(jī))等。本文用到GMM(高斯混合模型),所以后面會(huì)對(duì)其算法進(jìn)行了詳細(xì)的描述。

2.4.2.1 動(dòng)態(tài)時(shí)間規(guī)劃(DTW)

說(shuō)話人信息既有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),也有時(shí)變因素(語(yǔ)速、語(yǔ)調(diào)、重音和韻律)。將模式識(shí)別與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)劃DTW,但DTW只對(duì)孤立詞識(shí)別性能較好,并且高度依賴于定時(shí),目前應(yīng)用不廣。

2.4.2.2 矢量量化方法(VQ)

矢量量化是一種極其重要的信號(hào)壓縮方法,它廣泛應(yīng)用于語(yǔ)音編碼、語(yǔ)音識(shí)別與合成、說(shuō)話人識(shí)別、圖像壓縮等領(lǐng)域,基于非參數(shù)模型的VQ的方法是目前自動(dòng)話說(shuō)人識(shí)別的主要方法之一。完成VQ說(shuō)話人識(shí)別系統(tǒng)有兩個(gè)步驟:(1)利用說(shuō)話人的訓(xùn)練語(yǔ)音,建立參考模型碼本。(2)對(duì)待識(shí)別說(shuō)話者的語(yǔ)音的每一幀和碼本之間進(jìn)行匹配。由于VQ碼本保存了說(shuō)話人個(gè)性特征,這樣我們就可以利用VQ法進(jìn)行說(shuō)話人識(shí)別。在VQ法中模型匹配不依賴于參數(shù)的時(shí)間順序,因此匹配過(guò)程中無(wú)需采用DTW技術(shù);而且這種方法比應(yīng)用DTW方法的參考模型儲(chǔ)量小,即碼本碼字小。

用矢量量化方法建立識(shí)別模型,既可以大大減少數(shù)據(jù)存儲(chǔ)量,又可以避開(kāi)困難語(yǔ)音分段問(wèn)題和時(shí)間規(guī)整問(wèn)題。但是每個(gè)說(shuō)話人的碼本只是描述了這一說(shuō)話人的語(yǔ)音特征在特征空間中的聚類中心的統(tǒng)計(jì)分布情況。在訓(xùn)練階段為了充分反映說(shuō)話人的個(gè)性特征要求訓(xùn)練語(yǔ)音足夠長(zhǎng);在識(shí)別時(shí)為了使測(cè)試語(yǔ)音的特征矢量在特征空間中的分布能夠與相應(yīng)的說(shuō)話人碼本相吻合,所以同樣要求有足夠長(zhǎng)的測(cè)試語(yǔ)音,在測(cè)試語(yǔ)音很短的情況下,這種方法的識(shí)別率將會(huì)急劇下降。

2.4.2.3 隱馬爾科夫模型

HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型。它把語(yǔ)音看成由可觀察到的符號(hào)序列組成的隨機(jī)過(guò)程,符號(hào)序列則是發(fā)聲系統(tǒng)序列的輸出。在HMM中,觀察到的事件與狀態(tài)通過(guò)一組概率分布相聯(lián)系,是一個(gè)雙重隨機(jī)過(guò)程,其中一個(gè)是Markov鏈,他它描述了狀態(tài)之間的轉(zhuǎn)移;另一個(gè)隨機(jī)過(guò)程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)響應(yīng)關(guān)系。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關(guān)的說(shuō)話人識(shí)別中,并且比傳統(tǒng)的方法有著更好的性能。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量大。

2.4.2.4 基于支持向量機(jī)(SVM)的方法

SVM是Vapnik提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化二元分類器,通過(guò)非線性變換將原始集合映射到高維空間,轉(zhuǎn)化為某個(gè)高維中的線性問(wèn)題,尋找最優(yōu)分類面,具有很好的泛化和分類能力,在手寫(xiě)/文字識(shí)別、文本分類和人臉識(shí)別等模式領(lǐng)域中取到成功的應(yīng)用[4]。SVM實(shí)際上是一種辨別模式,一般情況下它只能辨別兩類數(shù)據(jù),因此需要正反兩類數(shù)據(jù)進(jìn)行訓(xùn)練。因此SVM要在說(shuō)話人識(shí)別中應(yīng)用,必須要解決多類分類問(wèn)題。解決說(shuō)話人識(shí)別的多分類問(wèn)題的主要有三種形式[4]:

1)為每個(gè)人建立一個(gè)SVM,訓(xùn)練數(shù)據(jù)由目標(biāo)說(shuō)話人和背景說(shuō)話人的語(yǔ)音分別構(gòu)成“+”、“??﹣”數(shù)。

2)為每一對(duì)說(shuō)話人建立一個(gè)SVM,由N個(gè)人則建立N*(N-1)/2個(gè)SVM。

3)決策樹(shù)分類:決策樹(shù)上每個(gè)節(jié)點(diǎn)將多個(gè)說(shuō)話人分為兩個(gè)子集,或者是一個(gè)說(shuō)話人(葉節(jié)點(diǎn))。