热久久中文字幕,免费观看1在线区2区,苍井空在线视频

導(dǎo)語：Web日志分析系統(tǒng)設(shè)計與應(yīng)用一文來源于網(wǎng)友上傳，不代表本站觀點，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

Web日志分析系統(tǒng)設(shè)計與應(yīng)用

摘要：作為網(wǎng)絡(luò)安全的重要領(lǐng)域，web 日志分析系統(tǒng)一方面能夠改進Web網(wǎng)站結(jié)構(gòu)，促進Web服務(wù)器性能提升；另一方面能夠幫助識別用戶的喜好及滿意程度，尋找潛在用戶群體，提升網(wǎng)站服務(wù)核心競爭力。筆者介紹了Web日志分析系統(tǒng)設(shè)計策略，探究了其實際應(yīng)用發(fā)展前景，為Web日志分析系統(tǒng)效率的提升提供參考。

關(guān)鍵詞：Web日志分析系統(tǒng)；系統(tǒng)設(shè)計；數(shù)據(jù)預(yù)處理

信息時代背景下，網(wǎng)站大小、數(shù)目及復(fù)雜度等呈現(xiàn)出持續(xù)增長趨勢，傳統(tǒng)運維管理中，日志管理存在不規(guī)范、易刪除、不方便使用等問題，企業(yè)如果沒有專業(yè)的日志管理或日志分析工具，很難滿足網(wǎng)絡(luò)安全法的合規(guī)要求。日志分析是IT運維領(lǐng)域非常重要的一項工作，甚至可以說，在平臺化、模塊化、服務(wù)化盛行的今天，這項工作的重要性已接近傳統(tǒng)的設(shè)備監(jiān)控。不過日志由于來源、使用者、管理者都比設(shè)備指標要復(fù)雜，導(dǎo)致日志分析的功能需求也較大[1]。

1Web日志分析系統(tǒng)設(shè)計

Web日志分析系統(tǒng)數(shù)據(jù)挖掘主要包括數(shù)據(jù)預(yù)處理、模式挖掘及模式分析三個階段。日志分析功能實現(xiàn)了自動收集匯總?cè)罩竞椭悄芑馕?，可以減少運維管理中日志查詢搜索的巨大工作量。全面系統(tǒng)化日志分析，滿足日常運維需要，從安全角度分析海量日志數(shù)據(jù)，深層次挖掘攻擊事件。日志搜索能夠通過選擇系統(tǒng)日志或Web日志以及日志產(chǎn)生的時間，搜索日志內(nèi)容。統(tǒng)計分析包含系統(tǒng)日志常規(guī)分析、Web日志常規(guī)分析和威脅分析。異常行為規(guī)則設(shè)置，主要設(shè)置異常行為的判定規(guī)則，包含了安全狗累積的經(jīng)驗規(guī)則。日志采集菜單主要是查看日志采集狀態(tài)，可以開啟、暫?；蜿P(guān)閉主機或Web采集。同時，還可以手動上傳日志文件，該系統(tǒng)組成如圖1所示。1.1數(shù)據(jù)預(yù)處理模塊。在進行數(shù)據(jù)預(yù)處理前，首先要收集原始數(shù)據(jù)，將收集的原始Web數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中，建立WALS數(shù)據(jù)表，其主要針對的是原始Web訪問日志[2]。通常Web訪問日志數(shù)據(jù)主要包括id、ip、identd、url、size等多個組成部分，流程如圖2所示。1.2模式挖掘模塊。盡管在Apriori向下封閉屬性下，候選項集的大小已大大縮小，然而仍存在較大的算法時間復(fù)雜度，難以達到理想的標準[3]。與此同時，Apriori算法需要對日志數(shù)據(jù)庫進行多次掃描，當(dāng)候選序列長度增加時，就需要對數(shù)據(jù)庫進行一遍掃描，能夠大大提升整個算法的執(zhí)行效率。搜索文本是找到想要的信息的最基本方法，搜索文本最常用的工具是grep，這個命令行工具，大多數(shù)Linux發(fā)行版上都有，它支持用正則表達式來搜索日志。正則表達式是一種用專門語言寫成的語句，可用來識別匹配文本。最簡單的正則表達式是把搜索的字符串加上引號。1.3數(shù)據(jù)庫設(shè)計。數(shù)據(jù)庫設(shè)計主要涉及WALog表、存儲原始Web訪問日志等。首先要嚴格按照時間先后順序儲存WALog表的記錄，用戶在訪問網(wǎng)站時需要一定的IP地址作為載體，該載體則采用IP字段表示。用戶在采用某一IP地址進行訪問時，其所用的時間也會形成相應(yīng)的記錄，該時間可以通過Date字段判斷，GET及POST的表現(xiàn)則能夠通過Method字段取值來反映，用戶在瀏覽過程中會將需要的資源存儲下來，資源多通過URL字段表示。所發(fā)送的字節(jié)數(shù)采用Bytes字段表示，瀏覽器及操作系統(tǒng)類型則采用BrowserOS表示。CWALS表則為所有數(shù)據(jù)均清理后Web所訪問的日志表[4]，CWALog表中的含義與WALog相同。UILog表中主要包括UID、IP、Date等字段，其主要指的是用戶識別后的日志數(shù)據(jù)表，每一個用戶都具有一個唯一的標識UID，其他字段意義均與上述相同。用戶會話識別后的日志數(shù)據(jù)表則采用的是USILog表，其中涉及URL、USID、Date以及Refer等字段，其中每個用戶會話都具有唯一標識USID。當(dāng)路徑填充后其具備的Web日志表為PSLog表，主要包括USID、Date、URL等字段，其頁面的引用長度采用Rlength標識，主要含義為用戶瀏覽每一個網(wǎng)頁所用的時間。CPS表包括URL及ID字段，其主要表示的是內(nèi)容頁面表。

2Web日志分析系統(tǒng)的應(yīng)用及展望

作為信息、交互及獲取的重要工具，Web信息量呈現(xiàn)出飛快增長的態(tài)勢，面對這一趨勢，Web日志分析系統(tǒng)的研究量也逐漸增加，發(fā)展前景廣闊。目前，Web日志挖掘技術(shù)還存在大量問題需要予以有效的解決，這對研究工作者提出了嚴峻的挑戰(zhàn)。日志管理系統(tǒng)可以讓用戶快速分析大量日志文件，可以自動解析標準日志格式，比如公共Linux日志或Web服務(wù)日志，這會節(jié)省很多時間，因為在定位系統(tǒng)問題時不用去想如何寫解析邏輯[5]。通常，用戶只想看來自同一個應(yīng)用的日志，如果應(yīng)用總是把日志記錄在單個文件中，這樣很容易分析，如果要從聚合或集中起來的日志里篩選出和某個程序相關(guān)的日志，會很復(fù)雜，這時可以用Rsyslog服務(wù)解析和過濾日志。例如將sshd應(yīng)用程序的日志寫入名為sshd-messages的文件中，然后丟棄事件，所以它不會在其他日志里重復(fù)出現(xiàn)?？梢試L試把它加到Rsyslog.conf文件里。對非標準格式的日志，也可以自定義解析規(guī)則。最常用的工具是Grok，它用通用正則表達式庫把純文本解析成JSON格式。這是Grok的配置示例，用來解析Logstash的內(nèi)核日志。日志分析模塊采取了定時與實時分析相結(jié)合的辦法，能夠為用戶查詢提供極大的便利，節(jié)省時間。

3結(jié)語

隨著現(xiàn)代計算機網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展，Web日志的進一步開發(fā)已做好準備工作，在今后的開發(fā)、利用中，要加強對系統(tǒng)的擴展，實現(xiàn)對日志的深度挖掘，提供Web流量分析、用戶行為模式分析及事務(wù)分析等多種功能，通過日志挖掘獲得大量可靠信息，促進信息系統(tǒng)優(yōu)化，確保其有效運行，改進算法，增強系統(tǒng)在實踐應(yīng)用中的有效性與時效性。

參考文獻

[1]李珊,劉繼超,邵芬紅.Web日志與瀏覽行為結(jié)合下的用戶瀏覽興趣數(shù)據(jù)挖掘分析[J].現(xiàn)代電子技術(shù),2017,40(5):22-25.

[2]楊晶,趙鑫,蘆天亮.基于logs2intrusions與WebLogExplorer的綜合取證分析研究[J].信息網(wǎng)絡(luò)安全,2017,12(3):33-38.

[3]張春生,郭長杰,尹兆濤.基于大數(shù)據(jù)技術(shù)的IT基礎(chǔ)設(shè)施日志分析系統(tǒng)設(shè)計與實現(xiàn)[J].微型電腦應(yīng)用,2016,32(6):49-52.

[4]馬勇,鮮敏,鄭翔,等.基于Web日志挖掘和相關(guān)性度量的電子商務(wù)推薦系統(tǒng)[J].計算機系統(tǒng)應(yīng)用,2016,25(8):91-95.

[5]姬浩博,王俊紅.一種改進的PreﬁxSpan算法及其在Web用戶行為模式挖掘中的應(yīng)用[J].計算機科學(xué),2016,43(1):25-29.

作者:何爽單位:云南電網(wǎng)有限責(zé)任公司紅河供電局

Web日志分析系統(tǒng)設(shè)計與應(yīng)用

熱門標簽

精品范文