漏洞庫數(shù)據(jù)挖掘論文
時間:2022-03-26 03:16:14
導(dǎo)語:漏洞庫數(shù)據(jù)挖掘論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1基礎(chǔ)概念介紹
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DM)融合了多個領(lǐng)域的理論和技術(shù),如人工智能、數(shù)據(jù)庫、模式識別、統(tǒng)計學等技術(shù)。數(shù)據(jù)挖掘常與數(shù)據(jù)庫中的“知識發(fā)現(xiàn)”(KDD,KnowledgeDiscoveryinDatabase)進行比較,對于兩者之間的關(guān)系,學術(shù)界有很多不同見解。數(shù)據(jù)挖掘?qū)儆谡麄€知識挖掘過程的一個核心步驟。
1.2信息安全漏洞
漏洞(Vulnerability),又稱為缺陷。對信息安全漏洞的定義最早是在1982年,由美國著名計算機安全專家D.Denning提出,D.Longley等人從風險管理的角度分三個方面描述漏洞的含義,M.Bishop等人采用狀態(tài)空間描述法定義漏洞,權(quán)威機構(gòu)如美國NIST在《信息安全關(guān)鍵術(shù)語詞匯表》以及國際標準化組織的ISO/IEC《IT安全術(shù)語詞匯表》中也對漏洞進行定義。世界上比較較知名的漏洞數(shù)據(jù)庫包括美國國家漏洞庫NVD(NationalVulnerabilityDatabase)、丹麥的Secunia漏洞信息庫等,我國在2009年也建成了中國國家信息安全漏洞庫CNNVD。本文選取Secu-nia漏洞庫的漏洞數(shù)據(jù)作為樣本進行數(shù)據(jù)挖掘。
2數(shù)據(jù)挖掘算法
2.1數(shù)據(jù)挖掘任務(wù)
數(shù)據(jù)挖掘任務(wù)主要是發(fā)現(xiàn)在數(shù)據(jù)中隱藏的潛在價值。數(shù)據(jù)挖掘模式主要分為兩種:描述型和預(yù)測型。描述模式是對歷史數(shù)據(jù)中包含的事實進行規(guī)范描述,從而呈現(xiàn)出數(shù)據(jù)的一般特性;預(yù)測模式通常以時間作為參考標準,通過數(shù)據(jù)的歷史值預(yù)測可能的未來值。依照不同的模式特征,細分六類模式:預(yù)測模式、關(guān)聯(lián)模式、序列模式、分類模式、回歸模式以及聚類模式。本文主要針對關(guān)聯(lián)模式進行深入探討。
2.2關(guān)聯(lián)規(guī)則分析及算法
關(guān)聯(lián)規(guī)則算法是指相關(guān)性統(tǒng)計分析,基于分析離散事件之間的相關(guān)性統(tǒng)計而建立關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則算法是定量分析,所以必須將樣本中的數(shù)據(jù)進行離散化操作,此算法是基于大量數(shù)據(jù)樣本的優(yōu)化算法。
(1)關(guān)聯(lián)算法中的幾個基本概念
關(guān)聯(lián)規(guī)則算法包含4個基本概念項集。項集是一組項的集合,每個項都包含一個屬性,例如,項集{A,B}。項集的大小是指向集中含有項的數(shù)量。頻繁項集為樣本中出現(xiàn)頻率高的項集。支持度。支持度用來衡量項集出現(xiàn)的頻率。項集{A,B}的支持度定義為同時包含項A和項B的項集的總數(shù)。
(2)Apriori關(guān)聯(lián)算法
Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩個階段:首先通過迭代,檢索出數(shù)據(jù)集中所有的頻繁項集,即支持度不低于最小支持度的項集;第二階段利用頻繁項集構(gòu)造滿足最小信任度的規(guī)則。
3運用關(guān)聯(lián)規(guī)則算法挖掘Secunia漏洞數(shù)據(jù)庫
Secunia漏洞庫覆蓋范圍包含程序和系統(tǒng)中的各種漏洞。該數(shù)據(jù)庫持續(xù)更新體現(xiàn)最新的漏洞信息。Secunia漏洞公告主要包括:漏洞名稱、Secunia公告號、日期、漏洞等級、漏洞來源、影響范圍、操作系統(tǒng)版本等。以Secunia漏洞庫中的信息為樣本,構(gòu)建關(guān)聯(lián)挖掘規(guī)則,反映出漏洞信息在不同系統(tǒng)中的關(guān)聯(lián)性。
3.1構(gòu)建關(guān)聯(lián)規(guī)則
(1)挖掘任務(wù)
通過歷史漏洞信息,挖掘分析不同軟件出現(xiàn)同類型漏洞的概率。
(2)挖掘結(jié)構(gòu)
結(jié)合挖掘任務(wù),數(shù)據(jù)挖掘關(guān)聯(lián)表為事例表結(jié)合嵌套表的方式。建立漏洞表Vulnerabilities,此表為事例表,漏洞id作為主鍵。嵌套表為Softwares表,記錄軟件名和軟件版本類型,軟件id作為兩張表進行關(guān)聯(lián)的外鍵。
3.2關(guān)聯(lián)規(guī)則挖掘結(jié)果
通過采集的Secunia庫的數(shù)據(jù)作為樣本,應(yīng)用Apriori算法模型。依據(jù)最低支持度(Min_S)和最低置信度(Min_P)的閾值,形成相應(yīng)的規(guī)則集。通過調(diào)整Min_S和最低Min_P的值,得到如表1所示的值。通過上述例子可以看出,當關(guān)聯(lián)規(guī)則的置信度越高、重要度越高,則該條關(guān)聯(lián)規(guī)則的價值越高,根據(jù)具體情況,可以設(shè)置最低置信度和最小重要度作為該條規(guī)則是否有價值的標準,即(Confidence(A→B)min,Importance(A→B)min),根據(jù)對置信度和重要的綜合考慮,可以得出價值更高的關(guān)聯(lián)規(guī)則,從而對信息安全事件有更好的預(yù)警分析。
4結(jié)語
本文主要研究了基于Secunia漏洞庫的關(guān)聯(lián)規(guī)則挖掘算法。介紹了數(shù)據(jù)挖掘的相關(guān)概念、關(guān)聯(lián)規(guī)則相關(guān)算法、Secunia漏洞庫的基本信息。以Secu-nia漏洞庫的數(shù)據(jù)為樣本進行關(guān)聯(lián)規(guī)則挖掘,分析了漏洞與軟件關(guān)系的關(guān)聯(lián)規(guī)則,建立了不同軟件中出現(xiàn)相關(guān)漏洞的聯(lián)系。如今,世界各國都在建立信息安全漏洞庫并信息安全漏洞信息,將漏洞信息與數(shù)據(jù)挖掘結(jié)合,可以對信息安全事件進行提前預(yù)警,具有重要而且長遠的意義。
作者:周密宋晨陽蔣丹婷單位:上海通用識別技術(shù)研究所