Web日志分析系統(tǒng)設(shè)計(jì)與應(yīng)用
時(shí)間:2022-01-02 05:09:28
導(dǎo)語(yǔ):Web日志分析系統(tǒng)設(shè)計(jì)與應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:作為網(wǎng)絡(luò)安全的重要領(lǐng)域,web日志分析系統(tǒng)一方面能夠改進(jìn)Web網(wǎng)站結(jié)構(gòu),促進(jìn)Web服務(wù)器性能提升;另一方面能夠幫助識(shí)別用戶的喜好及滿意程度,尋找潛在用戶群體,提升網(wǎng)站服務(wù)核心競(jìng)爭(zhēng)力。筆者介紹了Web日志分析系統(tǒng)設(shè)計(jì)策略,探究了其實(shí)際應(yīng)用發(fā)展前景,為Web日志分析系統(tǒng)效率的提升提供參考。
關(guān)鍵詞:Web日志分析系統(tǒng);系統(tǒng)設(shè)計(jì);數(shù)據(jù)預(yù)處理
信息時(shí)代背景下,網(wǎng)站大小、數(shù)目及復(fù)雜度等呈現(xiàn)出持續(xù)增長(zhǎng)趨勢(shì),傳統(tǒng)運(yùn)維管理中,日志管理存在不規(guī)范、易刪除、不方便使用等問(wèn)題,企業(yè)如果沒(méi)有專業(yè)的日志管理或日志分析工具,很難滿足網(wǎng)絡(luò)安全法的合規(guī)要求。日志分析是IT運(yùn)維領(lǐng)域非常重要的一項(xiàng)工作,甚至可以說(shuō),在平臺(tái)化、模塊化、服務(wù)化盛行的今天,這項(xiàng)工作的重要性已接近傳統(tǒng)的設(shè)備監(jiān)控。不過(guò)日志由于來(lái)源、使用者、管理者都比設(shè)備指標(biāo)要復(fù)雜,導(dǎo)致日志分析的功能需求也較大[1]。
1Web日志分析系統(tǒng)設(shè)計(jì)
Web日志分析系統(tǒng)數(shù)據(jù)挖掘主要包括數(shù)據(jù)預(yù)處理、模式挖掘及模式分析三個(gè)階段。日志分析功能實(shí)現(xiàn)了自動(dòng)收集匯總?cè)罩竞椭悄芑馕?,可以減少運(yùn)維管理中日志查詢搜索的巨大工作量。全面系統(tǒng)化日志分析,滿足日常運(yùn)維需要,從安全角度分析海量日志數(shù)據(jù),深層次挖掘攻擊事件。日志搜索能夠通過(guò)選擇系統(tǒng)日志或Web日志以及日志產(chǎn)生的時(shí)間,搜索日志內(nèi)容。統(tǒng)計(jì)分析包含系統(tǒng)日志常規(guī)分析、Web日志常規(guī)分析和威脅分析。異常行為規(guī)則設(shè)置,主要設(shè)置異常行為的判定規(guī)則,包含了安全狗累積的經(jīng)驗(yàn)規(guī)則。日志采集菜單主要是查看日志采集狀態(tài),可以開(kāi)啟、暫?;蜿P(guān)閉主機(jī)或Web采集。同時(shí),還可以手動(dòng)上傳日志文件,該系統(tǒng)組成如圖1所示。1.1數(shù)據(jù)預(yù)處理模塊。在進(jìn)行數(shù)據(jù)預(yù)處理前,首先要收集原始數(shù)據(jù),將收集的原始Web數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中,建立WALS數(shù)據(jù)表,其主要針對(duì)的是原始Web訪問(wèn)日志[2]。通常Web訪問(wèn)日志數(shù)據(jù)主要包括id、ip、identd、url、size等多個(gè)組成部分,流程如圖2所示。1.2模式挖掘模塊。盡管在Apriori向下封閉屬性下,候選項(xiàng)集的大小已大大縮小,然而仍存在較大的算法時(shí)間復(fù)雜度,難以達(dá)到理想的標(biāo)準(zhǔn)[3]。與此同時(shí),Apriori算法需要對(duì)日志數(shù)據(jù)庫(kù)進(jìn)行多次掃描,當(dāng)候選序列長(zhǎng)度增加時(shí),就需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行一遍掃描,能夠大大提升整個(gè)算法的執(zhí)行效率。搜索文本是找到想要的信息的最基本方法,搜索文本最常用的工具是grep,這個(gè)命令行工具,大多數(shù)Linux發(fā)行版上都有,它支持用正則表達(dá)式來(lái)搜索日志。正則表達(dá)式是一種用專門語(yǔ)言寫(xiě)成的語(yǔ)句,可用來(lái)識(shí)別匹配文本。最簡(jiǎn)單的正則表達(dá)式是把搜索的字符串加上引號(hào)。1.3數(shù)據(jù)庫(kù)設(shè)計(jì)。數(shù)據(jù)庫(kù)設(shè)計(jì)主要涉及WALog表、存儲(chǔ)原始Web訪問(wèn)日志等。首先要嚴(yán)格按照時(shí)間先后順序儲(chǔ)存WALog表的記錄,用戶在訪問(wèn)網(wǎng)站時(shí)需要一定的IP地址作為載體,該載體則采用IP字段表示。用戶在采用某一IP地址進(jìn)行訪問(wèn)時(shí),其所用的時(shí)間也會(huì)形成相應(yīng)的記錄,該時(shí)間可以通過(guò)Date字段判斷,GET及POST的表現(xiàn)則能夠通過(guò)Method字段取值來(lái)反映,用戶在瀏覽過(guò)程中會(huì)將需要的資源存儲(chǔ)下來(lái),資源多通過(guò)URL字段表示。所發(fā)送的字節(jié)數(shù)采用Bytes字段表示,瀏覽器及操作系統(tǒng)類型則采用BrowserOS表示。CWALS表則為所有數(shù)據(jù)均清理后Web所訪問(wèn)的日志表[4],CWALog表中的含義與WALog相同。UILog表中主要包括UID、IP、Date等字段,其主要指的是用戶識(shí)別后的日志數(shù)據(jù)表,每一個(gè)用戶都具有一個(gè)唯一的標(biāo)識(shí)UID,其他字段意義均與上述相同。用戶會(huì)話識(shí)別后的日志數(shù)據(jù)表則采用的是USILog表,其中涉及URL、USID、Date以及Refer等字段,其中每個(gè)用戶會(huì)話都具有唯一標(biāo)識(shí)USID。當(dāng)路徑填充后其具備的Web日志表為PSLog表,主要包括USID、Date、URL等字段,其頁(yè)面的引用長(zhǎng)度采用Rlength標(biāo)識(shí),主要含義為用戶瀏覽每一個(gè)網(wǎng)頁(yè)所用的時(shí)間。CPS表包括URL及ID字段,其主要表示的是內(nèi)容頁(yè)面表。
2Web日志分析系統(tǒng)的應(yīng)用及展望
作為信息、交互及獲取的重要工具,Web信息量呈現(xiàn)出飛快增長(zhǎng)的態(tài)勢(shì),面對(duì)這一趨勢(shì),Web日志分析系統(tǒng)的研究量也逐漸增加,發(fā)展前景廣闊。目前,Web日志挖掘技術(shù)還存在大量問(wèn)題需要予以有效的解決,這對(duì)研究工作者提出了嚴(yán)峻的挑戰(zhàn)。日志管理系統(tǒng)可以讓用戶快速分析大量日志文件,可以自動(dòng)解析標(biāo)準(zhǔn)日志格式,比如公共Linux日志或Web服務(wù)日志,這會(huì)節(jié)省很多時(shí)間,因?yàn)樵诙ㄎ幌到y(tǒng)問(wèn)題時(shí)不用去想如何寫(xiě)解析邏輯[5]。通常,用戶只想看來(lái)自同一個(gè)應(yīng)用的日志,如果應(yīng)用總是把日志記錄在單個(gè)文件中,這樣很容易分析,如果要從聚合或集中起來(lái)的日志里篩選出和某個(gè)程序相關(guān)的日志,會(huì)很復(fù)雜,這時(shí)可以用Rsyslog服務(wù)解析和過(guò)濾日志。例如將sshd應(yīng)用程序的日志寫(xiě)入名為sshd-messages的文件中,然后丟棄事件,所以它不會(huì)在其他日志里重復(fù)出現(xiàn)??梢試L試把它加到Rsyslog.conf文件里。對(duì)非標(biāo)準(zhǔn)格式的日志,也可以自定義解析規(guī)則。最常用的工具是Grok,它用通用正則表達(dá)式庫(kù)把純文本解析成JSON格式。這是Grok的配置示例,用來(lái)解析Logstash的內(nèi)核日志。日志分析模塊采取了定時(shí)與實(shí)時(shí)分析相結(jié)合的辦法,能夠?yàn)橛脩舨樵兲峁O大的便利,節(jié)省時(shí)間。
3結(jié)語(yǔ)
隨著現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,Web日志的進(jìn)一步開(kāi)發(fā)已做好準(zhǔn)備工作,在今后的開(kāi)發(fā)、利用中,要加強(qiáng)對(duì)系統(tǒng)的擴(kuò)展,實(shí)現(xiàn)對(duì)日志的深度挖掘,提供Web流量分析、用戶行為模式分析及事務(wù)分析等多種功能,通過(guò)日志挖掘獲得大量可靠信息,促進(jìn)信息系統(tǒng)優(yōu)化,確保其有效運(yùn)行,改進(jìn)算法,增強(qiáng)系統(tǒng)在實(shí)踐應(yīng)用中的有效性與時(shí)效性。
參考文獻(xiàn)
[1]李珊,劉繼超,邵芬紅.Web日志與瀏覽行為結(jié)合下的用戶瀏覽興趣數(shù)據(jù)挖掘分析[J].現(xiàn)代電子技術(shù),2017,40(5):22-25.
[2]楊晶,趙鑫,蘆天亮.基于logs2intrusions與WebLogExplorer的綜合取證分析研究[J].信息網(wǎng)絡(luò)安全,2017,12(3):33-38.
[3]張春生,郭長(zhǎng)杰,尹兆濤.基于大數(shù)據(jù)技術(shù)的IT基礎(chǔ)設(shè)施日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微型電腦應(yīng)用,2016,32(6):49-52.
[4]馬勇,鮮敏,鄭翔,等.基于Web日志挖掘和相關(guān)性度量的電子商務(wù)推薦系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(8):91-95.
[5]姬浩博,王俊紅.一種改進(jìn)的PrefixSpan算法及其在Web用戶行為模式挖掘中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2016,43(1):25-29.
作者:何爽 單位:云南電網(wǎng)有限責(zé)任公司紅河供電局