計算機文本信息挖掘技術(shù)論文
時間:2022-09-28 09:49:43
導(dǎo)語:計算機文本信息挖掘技術(shù)論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
我國的經(jīng)濟社會不斷發(fā)展,科學(xué)技術(shù)水平不斷提升,在數(shù)據(jù)時代背景下,信息呈現(xiàn)爆炸增長趨勢,需要對數(shù)據(jù)信息進行高效處理,不斷提高工作效率。信息技術(shù)加快了數(shù)據(jù)傳播的速度,優(yōu)化了信息交流的方式,但也存在安全隱患問題。為了保障網(wǎng)絡(luò)安全,可以應(yīng)用計算機文本信息挖掘技術(shù)。
1計算機文本信息挖掘技術(shù)概述
計算機文本信息挖掘技術(shù)類屬于數(shù)據(jù)處理技術(shù)的范疇,被應(yīng)用在數(shù)據(jù)處理之中,主要面向文本信息。應(yīng)用計算機文本信息挖掘技術(shù)可以從海量文本信息中提取有效信息,并概括這些信息數(shù)據(jù)的特點等,對這些信息進行分類和識別。計算機文本信息挖掘技術(shù)具有復(fù)雜性特征,其應(yīng)用流程如下所示:(1)計算機文本信息挖掘技術(shù)會對文本對象進行選取,文本對象大多是來自期刊、網(wǎng)頁和其他數(shù)據(jù)庫中的文本信息。(2)計算機文本信息挖掘技術(shù)對文本對象進行了預(yù)處理,包括對文本對象進行去噪處理、分詞處理等等。在預(yù)處理過程中,計算機文本信息挖掘技術(shù)提取了文本對象的特征,并將文本對象特征表示出來。(3)計算機文本信息挖掘技術(shù)對文本信息進行了深入挖掘,對具有統(tǒng)一特征的文本對象進行了分類,并考察了信息數(shù)據(jù)之間的關(guān)聯(lián)性,預(yù)測了文本對象的發(fā)展趨勢。以上三步是計算機文本信息挖掘技術(shù)應(yīng)用的重要流程,也是文本挖掘的主要步驟。在應(yīng)用計算機文本信息挖掘技術(shù)時,還需要經(jīng)常應(yīng)用鄰近分類算法。鄰近分類算法類屬于文本分類方法的范疇,在應(yīng)用鄰近分類算法的過程中,需要先制定分類方案,并對數(shù)據(jù)、分類方案進行比對,看文本屬性最接近哪一個分類方案,可以被歸入到哪一個分類方案之中。為了確保分類的準(zhǔn)確性,需要明確分類方案的描述特征,并對文本進行設(shè)置。通過計算文本和分類方案的鄰近性,可以對文本進行初步分類。
2計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用
2.1應(yīng)用必要性。當(dāng)前信息數(shù)據(jù)越來越多,如何剔除無效數(shù)據(jù),保留有效數(shù)據(jù),成為各行各業(yè)關(guān)注的重點問題。信息技術(shù)改變了人們的生活方式,改變了社會的生產(chǎn)方式,人們依靠手機、電腦進行線上交流,通過微博、微信等進行線上互通;社會通過網(wǎng)絡(luò)系統(tǒng)進行生產(chǎn)控制,通過信息技術(shù)進行運營監(jiān)督。信息技術(shù)在一定程度上便捷了人們的生活,推動了社會的發(fā)展,需要進一步推動信息技術(shù)創(chuàng)新,擴大信息技術(shù)的應(yīng)用范圍。在發(fā)展的同時,也需要看到信息技術(shù)存在的問題。伴隨信息量的不斷增加,網(wǎng)絡(luò)中的虛假信息、詐騙信息等越來越多,只有對這些垃圾信息進行有效攔截,才能保證網(wǎng)絡(luò)安全,保障用戶的個人權(quán)益。計算機文本信息挖掘技術(shù)有著重要的應(yīng)用價值,其可以對海量信息進行有效分類,識別網(wǎng)絡(luò)中的真實信息、虛假信息,并對廣告信息等進行剔除。計算機文本信息挖掘技術(shù)對信息數(shù)據(jù)進行有效判斷,能夠保障網(wǎng)絡(luò)安全。實際應(yīng)用條件上,針對網(wǎng)絡(luò)化的信息形式,需要對其中的基礎(chǔ)文本信息進行分析,尤其是與系統(tǒng)內(nèi)容相關(guān)聯(lián)的信息內(nèi)容上,務(wù)必要進行必要的調(diào)整,并通過相應(yīng)的技術(shù)條件,保證網(wǎng)絡(luò)信息內(nèi)容的安全性。例如,在當(dāng)前的技術(shù)應(yīng)用條件下,通過手機系統(tǒng)程序,就可以完成對與手機接收信息的文本分析,并在大數(shù)據(jù)系統(tǒng)的基礎(chǔ)上,通過文本內(nèi)容的捕捉,確定此類信息的狀態(tài)。由此,定位可能存在的垃圾信息,并在手機使用設(shè)定中,將此類信息規(guī)整到統(tǒng)一的存儲格式中,由使用者進行二次確認,并保證信息管理的有效性狀態(tài)。2.2應(yīng)用路徑。為了發(fā)揮計算機文本信息挖掘技術(shù)的作用,應(yīng)該改進鄰近分類方法。計算機文本信息挖掘技術(shù)通過鄰近分類方法對互聯(lián)網(wǎng)信息進行分類,只有優(yōu)化鄰近分類方法,才能提升文本信息分類的準(zhǔn)確性。傳統(tǒng)的鄰近分類方法存在弊端,不同分類特征可能存在共線,文本信息分類可能會出現(xiàn)訛誤情況。在技術(shù)改進過程中,需要堅持將傳統(tǒng)方法作為依托,并對文本特征進行細化描述。技術(shù)人員需要合并共性屬性比較明顯的文本特征,并考察特征向量的維度,對其進行有效壓縮。通過上述方法,文本信息分類將更加高效。為了驗證計算機文本信息挖掘技術(shù)的有效性,需要開展實驗,考察計算機文本信息挖掘技術(shù)與網(wǎng)絡(luò)安全檢測之間的關(guān)系。技術(shù)人員首先要確定實驗對象,包括文本信息預(yù)測庫等,并盡量擴充其中的文本信息,確保其中有正常文本信息、廣告信息、詐騙信息等等。根據(jù)語料庫設(shè)定原則,需要對文本中的數(shù)據(jù)信息特征進行有效概括,看哪一種信息類屬于文本信息、哪一種信息類屬于廣告信息和詐騙信息。技術(shù)人員也可以對廣告信息、詐騙信息等進行合并,將其命名為危害信息。技術(shù)人員需要采用鄰近分類方法,測試計算機文本信息挖掘技術(shù)的應(yīng)用效果。在設(shè)置評價參數(shù)的過程中,應(yīng)該采用算法判定方式和專家判定方式。上述實驗將會出現(xiàn)四種可能性:(1)算法、專家判定安全信息;(2)算法、專家判定危害信息;(3)算法判定安全、專家判定危害信息;(4)算法判定危害、專家判定安全信息。技術(shù)人員需要對評價精度、評價誤差等進行計算,并設(shè)計信息檢測平臺,為計算機文本信息挖掘技術(shù)的應(yīng)用提供支撐。網(wǎng)絡(luò)信息檢測平臺應(yīng)該分成一級功能、二級功能,一級功能應(yīng)該包括首頁、用戶管理等,而二級功能應(yīng)該包括分類方法、參數(shù)評價等。2.3文本挖掘主要技術(shù)方向。文本挖掘技術(shù),是計算機網(wǎng)絡(luò)化的應(yīng)用技術(shù)手段,也是具體系統(tǒng)開發(fā)的方向性技術(shù),在與具體產(chǎn)業(yè)進行結(jié)合的過程中,可以憑借自身的技術(shù)又是條件,適應(yīng)到多種類型的技術(shù)空間中,展示自身科技型價值,適應(yīng)知識經(jīng)濟發(fā)展環(huán)境。(1)基于網(wǎng)絡(luò)文本分析的技術(shù)條件,可以在網(wǎng)絡(luò)新聞與輿情發(fā)掘的過程中,發(fā)揮自身的技術(shù)優(yōu)勢,對構(gòu)筑安全的網(wǎng)路環(huán)境,貢獻出基礎(chǔ)性技術(shù)內(nèi)容。在網(wǎng)絡(luò)化的輿情環(huán)境中,個人信息、商業(yè)機密等內(nèi)容的傳播,都會造成嚴(yán)重損失,威脅到企業(yè)與個人的信息與財產(chǎn)安全。而在這一內(nèi)容的管理中,需要對客觀的網(wǎng)絡(luò)輿情狀態(tài)進行分析,在過濾文內(nèi)容的同時,過濾具體的信息數(shù)據(jù),通過關(guān)聯(lián)性分析、網(wǎng)絡(luò)溯源、輿情評價等內(nèi)容,保證對于整體信息的管理狀態(tài)。尤其在輿情的推演中,可以形成完整的模型系統(tǒng),并在模型的綜合作用下,保證技術(shù)的完整性與成長性,針對實際工作環(huán)境做出必要的基礎(chǔ)性保證。(2)專利信息的安全管理中,應(yīng)用文本數(shù)據(jù)挖掘的工作模式,也可以起到積極作用。專利信息,大多是企業(yè)核心科技的關(guān)鍵內(nèi)容,與企業(yè)的經(jīng)濟收益與市場競爭條件息息相關(guān),需要在技術(shù)內(nèi)容上,形成系統(tǒng)性的防護條件,并在執(zhí)行過程中,針對專利系統(tǒng)的管理流程,設(shè)置具體的文本挖掘工作方案,在程序的規(guī)范性狀態(tài)下,保證管理的有效性。方法上,需要針對專利權(quán)登記資料、專利所有權(quán)挖掘、專利使用權(quán)調(diào)查等內(nèi)容,維護整體技術(shù)管理體系的建設(shè)狀體,實現(xiàn)同步化的專利技術(shù)分析。(3)在文本挖掘技術(shù)的應(yīng)用開發(fā)中,表現(xiàn)出了明顯的技術(shù)成長性,在多種專業(yè)領(lǐng)域展現(xiàn)技術(shù)應(yīng)用條件的同時,也在綜合性、管理性的內(nèi)容中,呈現(xiàn)出了明顯的應(yīng)用價值特征。例如,在醫(yī)療領(lǐng)域,文本分析可以被應(yīng)用在醫(yī)學(xué)健康分析的工作中,通過在中藥成分分析、西藥用藥規(guī)律總結(jié)等多種信息化內(nèi)容的安全數(shù)據(jù)整理,利用各種敏感詞匯與數(shù)據(jù),保證了整體信息化系統(tǒng)的建設(shè)條件。又如,在企業(yè)的市場管理中,可以憑借這技術(shù)應(yīng)用條件,對市場環(huán)境中的相關(guān)信息進行提取與分析。并在綜合相關(guān)市場人員掌握數(shù)據(jù)的同時,結(jié)合企業(yè)實際發(fā)展?fàn)顟B(tài),形成指導(dǎo)性的參考數(shù)據(jù)材料,保證整體信息系統(tǒng)的建設(shè)狀態(tài),并使相應(yīng)網(wǎng)絡(luò)資料為實際運行策略的制定提供參考,維護了發(fā)展信息綜合性分析執(zhí)行效果。
3結(jié)論
綜上所述,我國的信息技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)范圍進一步拓展,網(wǎng)絡(luò)安全問題屢見不以在網(wǎng)絡(luò)新聞與輿情發(fā)掘的過程中,發(fā)揮自身的技術(shù)優(yōu)勢,對構(gòu)筑安全的網(wǎng)路環(huán)境,貢獻出基礎(chǔ)性技術(shù)內(nèi)容。在網(wǎng)絡(luò)化的輿情環(huán)境中,個人信息、商業(yè)機密等內(nèi)容的傳播,都會造成嚴(yán)重損失,威脅到企業(yè)與個人的信息與財產(chǎn)安全。而在這一內(nèi)容的管理中,需要對客觀的網(wǎng)絡(luò)輿情狀態(tài)進行分析,在過濾文內(nèi)容的同時,過濾具體的信息數(shù)據(jù),通過關(guān)聯(lián)性分析、網(wǎng)絡(luò)溯源、輿情評價等內(nèi)容,保證對于整體信息的管理狀態(tài)。尤其在輿情的推演中,可以形成完整的模型系統(tǒng),并在模型的綜合作用下,保證技術(shù)的完整性與成長性,針對實際工作環(huán)境做出必要的基礎(chǔ)性保證。(2)專利信息的安全管理中,應(yīng)用文本數(shù)據(jù)挖掘的工作模式,也可以起到積極作用。專利信息,大多是企業(yè)核心科技的關(guān)鍵內(nèi)容,與企業(yè)的經(jīng)濟收益與市場競爭條件息息相關(guān),需要在技術(shù)內(nèi)容上,形成系統(tǒng)性的防護條件,并在執(zhí)行過程中,針對專利系統(tǒng)的管理流程,設(shè)置具體的文本挖掘工作方案,在程序的規(guī)范性狀態(tài)下,保證管理的有效性。方法上,需要針對專利權(quán)登記資料、專利所有權(quán)挖掘、專利使用權(quán)調(diào)查等內(nèi)容,維護整體技術(shù)管理體系的建設(shè)狀體,實現(xiàn)同步化的專利技術(shù)分析。(3)在文本挖掘技術(shù)的應(yīng)用開發(fā)中,表現(xiàn)出了明顯的技術(shù)成長性,在多種專業(yè)領(lǐng)域展現(xiàn)技術(shù)應(yīng)用條件的同時,也在綜合性、管理性的內(nèi)容中,呈現(xiàn)出了明顯的應(yīng)用價值特征。例如,在醫(yī)療領(lǐng)域,文本分析可以被應(yīng)用在醫(yī)學(xué)健康分析的工作中,通過在中藥成分分析、西藥用藥規(guī)律總結(jié)等多種信息化內(nèi)容的安全數(shù)據(jù)整理,利用各種敏感詞匯與數(shù)據(jù),保證了整體信息化系統(tǒng)的建設(shè)條件。又如,在企業(yè)的市場管理中,可以憑借這技術(shù)應(yīng)用條件,對市場環(huán)境中的相關(guān)信息進行提取與分析。并在綜合相關(guān)市場人員掌握數(shù)據(jù)的同時,結(jié)合企業(yè)實際發(fā)展?fàn)顟B(tài),形成指導(dǎo)性的參考數(shù)據(jù)材料,保證整體信息系統(tǒng)的建設(shè)狀態(tài),并使相應(yīng)網(wǎng)絡(luò)資料為實際運行策略的制定提供參考,維護了發(fā)展信息綜合性分析執(zhí)行效果。
參考文獻
[1]江啟煜,何曉華,劉秀峰,等.基于大數(shù)據(jù)整合與文本挖掘的中藥生物分子信息文獻系統(tǒng)關(guān)鍵技術(shù)模型[J].醫(yī)學(xué)信息學(xué)雜志,2019,40(02):53-57.
[2]韓文智.計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用[J].華僑大學(xué)學(xué)報(自然科學(xué)版),2016,37(01):67-70.
作者:劉樹飛 單位:湖南工藝美術(shù)職業(yè)學(xué)院