數(shù)據(jù)挖掘技術(shù)文本分析研究

時(shí)間:2022-04-21 10:16:59

導(dǎo)語:數(shù)據(jù)挖掘技術(shù)文本分析研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)文本分析研究

摘要:數(shù)據(jù)挖掘技術(shù)的應(yīng)用價(jià)值被深入挖掘,其可以實(shí)現(xiàn)大規(guī)模信息中的關(guān)鍵內(nèi)容提取,有效捕捉隱含信息,掌握信息發(fā)展的基本趨勢(shì)。在數(shù)據(jù)挖掘技術(shù)的輔助下,研究人員可以將特定關(guān)鍵詞輕松挖掘出,并完成熱點(diǎn)的捕捉和媒體動(dòng)向的追蹤,作用十分顯著。文章分析數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì),從基于詞頻統(tǒng)計(jì)功能的文本分析、基于詞表比對(duì)功能的信息挖掘、基于詞語共現(xiàn)網(wǎng)絡(luò)功能完成熱點(diǎn)事件抓取3個(gè)方面出發(fā),分析了基于數(shù)據(jù)挖掘的文本分析應(yīng)用,以供參考。

關(guān)鍵詞:文本特征;挖掘技術(shù);數(shù)據(jù)挖掘

數(shù)據(jù)挖掘的主要功能體現(xiàn)在從海量數(shù)據(jù)中找到價(jià)值較高的信息,并實(shí)現(xiàn)信息轉(zhuǎn)化,將其變成有用知識(shí)。隨著計(jì)算機(jī)普及,數(shù)據(jù)飛速膨脹,信息構(gòu)成更加復(fù)雜,僅依靠關(guān)鍵詞檢索會(huì)有大量信息遺漏?;跀?shù)據(jù)挖掘,研究人員可以對(duì)本文特征精細(xì)化分析,找到有效信息,精準(zhǔn)發(fā)現(xiàn)隱藏的客觀規(guī)律。

1數(shù)據(jù)挖掘技術(shù)應(yīng)用優(yōu)勢(shì)

數(shù)據(jù)挖掘?qū)崿F(xiàn)了多領(lǐng)域的滲透、融合,是人工智能的一大延伸,屬于數(shù)據(jù)庫領(lǐng)域核心技術(shù)。主要思路是從數(shù)據(jù)庫中,借助深度挖掘技術(shù),查找關(guān)鍵信息,揭示出隱含的信息價(jià)值,從而高效利用信息。數(shù)據(jù)挖掘的應(yīng)用意義重大,屬于決策支持實(shí)現(xiàn)過程,其融合了人工智能、模式識(shí)別等多項(xiàng)技術(shù),可以自動(dòng)化且全方位地分析對(duì)象內(nèi)容,并在此前提下完成歸納性的推理。研究發(fā)現(xiàn),其實(shí)現(xiàn)知識(shí)庫交互的過程大體分為3個(gè)階段:數(shù)據(jù)準(zhǔn)備(基礎(chǔ)保障)、數(shù)據(jù)挖掘(核心技術(shù))、結(jié)果表達(dá)和解釋?,F(xiàn)階段,數(shù)據(jù)挖掘相對(duì)成熟,被廣泛應(yīng)用在文本分析領(lǐng)域,并取得了較好的成績(jī),不僅保障了分析效率,還提高了本文利用率。數(shù)據(jù)挖掘技術(shù)原理如圖1所示。借助數(shù)據(jù)挖掘可以全面地、深層次地分析本文數(shù)據(jù),深度挖掘文本信息內(nèi)容,提取關(guān)鍵信息,從大量數(shù)據(jù)中精準(zhǔn)定位,最大限度地提高數(shù)據(jù)利用率。具體包括數(shù)據(jù)準(zhǔn)備、規(guī)律尋找等核心板塊,在具體操作中,數(shù)據(jù)準(zhǔn)備屬于基礎(chǔ)保障環(huán)節(jié),從相關(guān)數(shù)據(jù)源中整合、分析、提煉出有用的數(shù)據(jù),并將其匯總、篩選,形成數(shù)據(jù)集,為后續(xù)應(yīng)用做足準(zhǔn)備。規(guī)律尋找是指將數(shù)據(jù)集中隱藏規(guī)律找出來,例如本文詞匯出現(xiàn)頻次等。其中,要想完整表示規(guī)律,就要采取用戶可以理解的方式,并達(dá)到理想的可視化程度。

2基于數(shù)據(jù)挖掘的文本分析應(yīng)用

2.1基于詞頻統(tǒng)計(jì)功能的文本分析

在數(shù)據(jù)挖掘之前,收集目標(biāo)數(shù)據(jù)是主要任務(wù),需要借助語料庫資源,或者完成爬蟲程序編寫,實(shí)現(xiàn)網(wǎng)絡(luò)資源自動(dòng)采集。之后,完成數(shù)據(jù)的預(yù)處理,這是數(shù)據(jù)挖掘的前期工作,也是基本保障性工作。以日語和漢語為例,其特征類似,沒有單詞的形態(tài)標(biāo)記,因此在分析前都要進(jìn)行分詞。實(shí)踐證明,借助Mecab形態(tài)素解析器可以起到理想的分詞效果。該工具性能穩(wěn)定,屬于效率較高的形態(tài)素分析引擎,在實(shí)際應(yīng)用中不依賴具體的語言就可以完成分詞工作,同時(shí),借助詞典或語料庫,采用CRF模型,基本上可以實(shí)現(xiàn)連接方式的配價(jià)以及詞匯參數(shù)的估計(jì)。這種方法可行性較高,無論是解析速度還是詞匯解析精度都比較理想,均高于常用解析器。實(shí)際操作中,分詞之后就要制作詞表,詞表完全可以借助“數(shù)據(jù)透視表”功能,或者也可以選擇KHCoder的“FrequencyList”完成同樣的工作。比較發(fā)現(xiàn),后者更加方便、操作性更強(qiáng),但想要保證詞表制作效果,需要注意以下內(nèi)容:(1)KHCoder功能有限,只能統(tǒng)計(jì)名詞等少部分詞類。(2)在進(jìn)行代詞、感嘆詞這部分詞匯統(tǒng)計(jì)時(shí),發(fā)生錯(cuò)誤概率會(huì)增大。因此,現(xiàn)實(shí)操作中,有必要對(duì)照最終得出的統(tǒng)計(jì)結(jié)果,完成對(duì)KHCoder的修正工作。

2.2基于詞表比對(duì)功能的信息挖掘

分析單個(gè)詞表可以掌握文本高頻詞匯的文體特征,在此基礎(chǔ)上進(jìn)行詞表比對(duì),可以將重要信息及時(shí)捕捉。高頻人稱代詞隱含了事件關(guān)鍵信息,還有專用名詞等也都屬于重要詞匯。例如:科技類文章中通過專用名詞的使用頻次統(tǒng)計(jì),可以判斷文章大體介紹的方向??萍碱愇恼陆?jīng)常以第三人稱進(jìn)行介紹,敘事方式較為客觀,采用旁觀者視角,會(huì)讓文章脈絡(luò)清晰、敘事更加合理[1]。不同題材的科技文章,專用名詞因?yàn)橛梅ǖ牟煌?使用頻率也會(huì)存在差異。為了例證,選取了幾篇關(guān)于汽車性能介紹的文獻(xiàn),如《時(shí)代汽車》《機(jī)械設(shè)計(jì)與制造》《鍛壓技術(shù)》《內(nèi)燃機(jī)與配件》等,統(tǒng)計(jì)后所得的專用名詞頻率如表1所示。通過表1中高頻詞匯的使用,可以基本判斷文章的類型以及科技論文研究的主攻方向。借助挖掘高頻詞匯還可以掌握其他關(guān)聯(lián)信息,通過捕捉以及深入挖掘能夠掌握較為前沿的技術(shù),在了解文章類型的基礎(chǔ)上掌握文章主要框架。

2.3基于詞語共現(xiàn)網(wǎng)絡(luò)功能完成熱點(diǎn)事件抓取

隨著網(wǎng)絡(luò)時(shí)代到來,無數(shù)新聞事件發(fā)酵、膨脹,社會(huì)充斥大量信息。怎樣從紛繁復(fù)雜網(wǎng)絡(luò)中自動(dòng)提煉熱點(diǎn)事件,成為談?wù)摰慕裹c(diǎn),也是新時(shí)期的重要課題?;诖?詞語共現(xiàn)網(wǎng)絡(luò)被提出,CooccurrenceNetwork作為新的理念,為本文分析指明了方向。構(gòu)建技術(shù)可以實(shí)現(xiàn)文本信息可視化,使其更加直觀、立體詮釋文本中人物關(guān)系,并且提取出熱點(diǎn)人物、新聞事件以及組織、概念等核心內(nèi)容,在此基礎(chǔ)上完整揭示熱詞聯(lián)系[2]。該技術(shù)實(shí)現(xiàn)原理是借助統(tǒng)計(jì)詞頻,步驟是先完成最頻繁詞匯抽取,再掌握其潛在關(guān)系,從而搭建詞語網(wǎng)絡(luò)圖,概括高頻詞匯,并且掌握其關(guān)聯(lián)性。實(shí)踐證明,借助詞匯的組建,可以將文本事件揭示出來,幫助獲取核心信息。為了驗(yàn)證數(shù)據(jù)挖掘以及分析方法的有效性,可以采用“Co-OccurrenceNet-work”進(jìn)行驗(yàn)證,借助其構(gòu)建功能,多角度地分析《每日新聞》全部報(bào)道,完成了關(guān)鍵性文本詞匯的提取,最終形成了詞語共現(xiàn)網(wǎng)絡(luò)圖。借助這種方法,高頻詞不僅被抽取出來,還可以組成高頻詞群,詞群或大或小,直接或者間接地反映了新聞事件。高頻詞群從不同角度揭示了熱點(diǎn)話題的核心內(nèi)容,也可以看出信息挖掘技術(shù)的價(jià)值。借助詞語共現(xiàn),網(wǎng)絡(luò)可以清晰、直觀地觀察到高頻詞匯,并在此基礎(chǔ)上借助科學(xué)計(jì)算提取出共現(xiàn)詞,以完成熱點(diǎn)話題的追蹤和媒體動(dòng)向的捕捉[3];再利用先進(jìn)網(wǎng)絡(luò)爬蟲,對(duì)輿情動(dòng)態(tài)跟蹤反饋。

3結(jié)語

數(shù)據(jù)挖掘技術(shù)意義顯著,在文本分析中可以讓語言學(xué)研究視角拓展,從而實(shí)現(xiàn)研究手段的豐富。同時(shí),完成文本數(shù)據(jù)的準(zhǔn)確獲取,并合理提煉高質(zhì)量的隱含信息,讓研究效率更高。值得一提的是,在本文分析領(lǐng)域,數(shù)據(jù)挖掘技術(shù)起步較晚,其應(yīng)用值得學(xué)界共同關(guān)注。

[參考文獻(xiàn)]

[1]章蓬偉,賈鈺峰,劉強(qiáng),等.基于數(shù)據(jù)挖掘技術(shù)的文本情感分析技術(shù)研究[J].信息通信,2020(1):77-78.

[2]毛文偉.論數(shù)據(jù)挖掘技術(shù)在文本分析中的應(yīng)用[J].日語學(xué)習(xí)與研究,2019(1):1-9.

[3]毛文偉.數(shù)據(jù)挖掘技術(shù)在文本特征分析中的應(yīng)用研究———以夏目漱石中長(zhǎng)篇小說為例[J].外語電化教學(xué),2018(6):8-15.

作者:趙丹 劉建國 陳曼倩 單位:哈爾濱職業(yè)技術(shù)學(xué)院 哈爾濱開放大學(xué)