網(wǎng)絡(luò)信息過(guò)濾插件研究

時(shí)間:2022-12-13 09:07:08

導(dǎo)語(yǔ):網(wǎng)絡(luò)信息過(guò)濾插件研究一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

網(wǎng)絡(luò)信息過(guò)濾插件研究

摘要:隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,伴隨著信息服務(wù)技術(shù)的不斷迭代,由網(wǎng)絡(luò)技術(shù)產(chǎn)生的相關(guān)應(yīng)用逐步受到諸多行業(yè)的青睞,為了使上網(wǎng)更加方便快捷,越來(lái)越多的用戶放棄傳統(tǒng)的應(yīng)用程序而選擇安裝相應(yīng)插件,用以簡(jiǎn)化電腦環(huán)境。該文設(shè)計(jì)了一個(gè)過(guò)濾插件,該插件主要通過(guò)DFA過(guò)濾算法,實(shí)現(xiàn)了在網(wǎng)頁(yè)中對(duì)含有敏感詞匯的過(guò)濾。結(jié)果表明,與其他過(guò)濾算法相比,DFA算法在替換耗時(shí)和精確度方面都有較為優(yōu)秀。

關(guān)鍵詞:信息過(guò)濾;DFA算法;插件設(shè)計(jì);關(guān)鍵詞過(guò)濾

1概述

由于互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,人們逐步認(rèn)識(shí)到網(wǎng)絡(luò)所起到的重要作用,并通過(guò)網(wǎng)絡(luò)進(jìn)行信息的傳遞與資源的共享來(lái)達(dá)到交流的目的。但是,在國(guó)內(nèi)外網(wǎng)絡(luò)上傳播有利信息的同時(shí),也會(huì)有不法分子利用其開(kāi)源性、公共性等特點(diǎn)傳播不良信息,使一些是非辨別能力較弱的人受到嚴(yán)重影響,更有甚者會(huì)危害到國(guó)家的安全與社會(huì)的穩(wěn)定發(fā)展。因此互聯(lián)網(wǎng)在加強(qiáng)人們溝通的同時(shí),也需要更加穩(wěn)定的過(guò)濾技術(shù)的加持。網(wǎng)絡(luò)信息過(guò)濾主要針對(duì)互聯(lián)網(wǎng)上信息魚龍混雜的問(wèn)題,但它同樣也可以為解決信息化社會(huì)中人們想要自主設(shè)置信息獲取的途徑與內(nèi)容等個(gè)性化定制需求提供一些新的思路。

2開(kāi)發(fā)技術(shù)

插件。插件是一種遵循一定規(guī)范性應(yīng)用程序接口編寫出來(lái)的程序,其只能運(yùn)行在規(guī)定的應(yīng)用平臺(tái)上,不可以脫離指定的應(yīng)用平臺(tái)而單獨(dú)實(shí)現(xiàn)運(yùn)行。其結(jié)構(gòu)使應(yīng)用程序編寫具有良好的擴(kuò)充和定制功能。其中有三種插件系統(tǒng)的實(shí)現(xiàn)方法,其中最重要的是實(shí)現(xiàn)插件與主程序之間的交互,一般按照一些特定規(guī)則的DLL,主程序?qū)?nèi)存中的所有地址接口傳遞給插件,插件根據(jù)傳遞的地址接口來(lái)調(diào)用插件接口,以此完成所需要的功能或資源等。插件的編程實(shí)現(xiàn)包括兩個(gè)方面:一方面是主程序的插件處理機(jī)制,管理每個(gè)插件接口并使每個(gè)插件進(jìn)行初始化過(guò)程。另一方面是定義插件接口函數(shù),將插件的所有接口函數(shù)進(jìn)行封裝,以便開(kāi)發(fā)者可以自由調(diào)用該接口函數(shù)。

3主要過(guò)濾技術(shù)

3.1關(guān)鍵詞過(guò)濾

關(guān)鍵詞過(guò)濾方法是對(duì)文本中的不良信息或包含在文本里的敏感詞匯進(jìn)行提取并生成一個(gè)敏感詞詞庫(kù)。當(dāng)用戶瀏覽新聞、小說(shuō)等文本信息時(shí),通過(guò)該過(guò)濾方法可以對(duì)文本內(nèi)容與詞庫(kù)儲(chǔ)存的敏感詞進(jìn)行分析比對(duì)。如果識(shí)別成功,那么敏感詞會(huì)修改成***。不過(guò)關(guān)鍵詞過(guò)濾技術(shù)的使用也包含一些缺點(diǎn),比如對(duì)單個(gè)關(guān)鍵字進(jìn)行過(guò)濾時(shí)并不能取得良好的效果;在不同語(yǔ)境上對(duì)文本語(yǔ)義的內(nèi)容進(jìn)行過(guò)濾可能會(huì)產(chǎn)生不準(zhǔn)確的結(jié)果,過(guò)濾后文本的錯(cuò)報(bào)率和漏報(bào)率將會(huì)上升;同時(shí)網(wǎng)絡(luò)上存在使用其他詞語(yǔ)、拼音或圖片形式等專門躲避敏感詞的技巧,因此很難識(shí)別出這些不良過(guò)濾信息。

3.2DFA算法

DFA算法即確定有窮自動(dòng)機(jī)。一個(gè)DFA中有窮個(gè)狀態(tài),主要分三種:初始狀態(tài)、終止?fàn)顟B(tài)和中間狀態(tài)。其狀態(tài)間的轉(zhuǎn)換公式為:狀態(tài)×輸入字符—>狀態(tài)。定義一個(gè)DFA:A=(Σ,S,s0,F(xiàn),N),其中Σ表示一個(gè)輸入字符的集合,S為狀態(tài)的集合,s0為初始狀態(tài),F(xiàn)為終止集合,N為轉(zhuǎn)換公式:S×Σ→S。轉(zhuǎn)換樣例如圖1所示。從圖1可得出一個(gè)轉(zhuǎn)換公式表格如表1所示。

4算法實(shí)現(xiàn)

已知DFA的算法原理:包含一個(gè)有限狀態(tài)集合和從一個(gè)狀態(tài)通向另一個(gè)狀態(tài)的有窮性的邊,每條邊上標(biāo)記一個(gè)符號(hào),其中一個(gè)狀態(tài)是初態(tài),其他某些狀態(tài)是終態(tài)。將原理轉(zhuǎn)化為邏輯實(shí)現(xiàn)如圖2所示。通過(guò)其代碼流程,如圖3所示進(jìn)行舉例說(shuō)明:將敏感詞“狗腿子”通過(guò)字典樹(shù)切割成一個(gè)個(gè)字:“狗”“腿”“子”。當(dāng)文本出現(xiàn)“狗”字時(shí),算法開(kāi)始在字典樹(shù)中尋找,若存在該字則返回“狗”下面的子樹(shù),反之則不是敏感詞。接著子樹(shù)程序開(kāi)始匹配第二個(gè)字“腿”,若存在則返回“腿”下面的子樹(shù),反之則不是敏感詞。以此類推。若isEnd=1,表明敏感詞搜索已經(jīng)結(jié)束,檢測(cè)詞不是敏感詞。如圖4、圖5所示,分別采用10394057字節(jié)、4478244字節(jié)和36559837字節(jié)三組包含不定量的敏感詞的文章,分別記作為A、B、C組來(lái)進(jìn)行敏感詞過(guò)濾測(cè)試實(shí)驗(yàn)。從圖表中通過(guò)對(duì)DFA算法過(guò)濾方法與其他過(guò)濾方法進(jìn)行的測(cè)試對(duì)比,從中發(fā)現(xiàn)DFA算法在替換耗時(shí)和精確度上都有顯著提升。

5插件設(shè)計(jì)

插件可以動(dòng)態(tài)給軟件添加功能,也可以隨時(shí)刪除,這樣的優(yōu)勢(shì)使任何人都可以給這個(gè)軟件進(jìn)行功能上的擴(kuò)展,而不用去改變軟件本身的代碼。本文以DFA算法為底層代碼做成jar包形式的插件來(lái)實(shí)現(xiàn)敏感詞過(guò)濾??紤]到用戶對(duì)敏感詞的需求不一致問(wèn)題,有兩種方法可供選擇,一種是用戶個(gè)性化自定義敏感詞庫(kù),另一種是使用本插件已提供的基礎(chǔ)敏感詞庫(kù)。開(kāi)發(fā)插件時(shí),在固定的插件目錄下存儲(chǔ)插件相關(guān)文件,以方便之后插件下載、存儲(chǔ)和部署問(wèn)題。使用時(shí),將jar包導(dǎo)入到需要的項(xiàng)目中,接著在電腦C盤根目錄下新建一個(gè)Sensitive⁃Word.txt敏感詞詞庫(kù)文件或?qū)⒁烟峁┖玫拿舾性~詞庫(kù)文件放在C盤根目錄下。在需要過(guò)濾文本的程序中創(chuàng)建Sensitiveword⁃Filter實(shí)例化對(duì)象filter,接著調(diào)用jar包中提供的接口,實(shí)現(xiàn)過(guò)濾方法Set<String>set=filter.getSensitiveWord(string,1),或Set<String>set=filter.getSensitiveWord(string,2)來(lái)達(dá)到過(guò)濾文本的目的。其中set存放的是文本中存在的敏感詞,程序運(yùn)行完成后可直接在控制臺(tái)查看過(guò)濾信息;string為待要過(guò)濾的文本;1表示最小匹配規(guī)則;2表示最大匹配規(guī)則。完成文本過(guò)濾功能后,輸出文本中的敏感詞將會(huì)用***表示。

6結(jié)束語(yǔ)

隨著計(jì)算機(jī)科學(xué)和信息技術(shù)飛速發(fā)展,網(wǎng)絡(luò)方便了信息共享,推動(dòng)社會(huì)進(jìn)步。但通過(guò)網(wǎng)絡(luò)傳播不良信息仍是一個(gè)嚴(yán)重的臺(tái)建設(shè)也可顯著的提升學(xué)校的管理水平,通過(guò)將學(xué)校日常開(kāi)展的工作逐步轉(zhuǎn)到線上流轉(zhuǎn),采集業(yè)務(wù)流程辦理的全過(guò)程數(shù)據(jù),如流程受理時(shí)間、流程辦理時(shí)間、師生評(píng)價(jià)、流程訪問(wèn)數(shù)據(jù)等一系列數(shù)據(jù),進(jìn)行多維度的分析研判,以真實(shí)數(shù)據(jù)推動(dòng)流程優(yōu)化再造,促進(jìn)管理改革。隨著一站式服務(wù)的深入應(yīng)用,學(xué)校的管理水平必然得到提高??傊耙痪W(wǎng)通辦”服務(wù)體系的建設(shè),提升了高校信息化服務(wù)和應(yīng)用的能力,加快實(shí)現(xiàn)從教育教學(xué)管理到教育教學(xué)治理的轉(zhuǎn)型,“一網(wǎng)通辦”的建設(shè)和應(yīng)用是當(dāng)前推進(jìn)高校信息化建設(shè)和治理能力現(xiàn)代化面臨的重要任務(wù)。

參考文獻(xiàn):

[1]陳琳,許林.新時(shí)代教育信息化2.0發(fā)展策略研究[J].中國(guó)電化教育,2021(1):96-101,127.

[2]李潤(rùn)曄,倪楓,劉姜,等.基于面向服務(wù)業(yè)務(wù)流程管理的系統(tǒng)架構(gòu)建模[J].上海理工大學(xué)學(xué)報(bào),2019,41(6):605-616.

[3]冀翠萍.智慧校園業(yè)務(wù)應(yīng)用融合的探索與實(shí)踐[J].現(xiàn)代教育技術(shù),2018,28(1):66-72.

[4]鄭明釗,張建強(qiáng).基于微服務(wù)的大平臺(tái)系統(tǒng)架構(gòu)演進(jìn)探討[J].軟件,2017,38(12):165-169.

[5]張穎.大數(shù)據(jù)背景下高?!耙徽臼健狈?wù)模型的探索和實(shí)踐[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(7):128-132.

作者:李應(yīng)霆 葉傳奇 李玉進(jìn) 尚嘉琳 肖洋洋 閆凱 單位:河南科技大學(xué) 軟件學(xué)院