機(jī)器學(xué)習(xí)范文

時(shí)間:2023-04-10 03:56:12

導(dǎo)語:如何才能寫好一篇機(jī)器學(xué)習(xí),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

篇1

關(guān)鍵詞:機(jī)器學(xué)習(xí);數(shù)據(jù)挖掘;算法

中圖分類號(hào):TP182 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2017)013-0-01

一、機(jī)器學(xué)習(xí)的應(yīng)用

機(jī)器學(xué)習(xí)的方法可以應(yīng)用到許多領(lǐng)域中,包括研究,科技、商業(yè)領(lǐng)域等,這些領(lǐng)域的機(jī)器學(xué)習(xí)運(yùn)用越來越成熟和高效。研究中運(yùn)用機(jī)器學(xué)習(xí)發(fā)現(xiàn)人類不容易發(fā)現(xiàn)的規(guī)律;科技中運(yùn)用機(jī)器學(xué)習(xí)提高了科技解決實(shí)際生活的能力;商業(yè)領(lǐng)域運(yùn)用機(jī)器學(xué)習(xí)更好的挖掘客戶和滿足客戶。除此之外,機(jī)器學(xué)習(xí)也為其他領(lǐng)域帶來不小的突破。機(jī)器學(xué)習(xí)集中解決兩個(gè)問題:其一,如何讓電腦系統(tǒng)利用經(jīng)驗(yàn)數(shù)據(jù)提高我們工作效率。其二,如何有效率地提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確率。機(jī)器學(xué)習(xí)對(duì)于解決科學(xué)和工程中的問題和在各種生活領(lǐng)域的實(shí)踐問題是重要的。

二、機(jī)器學(xué)習(xí)的發(fā)展

過去的二十年機(jī)器學(xué)習(xí)的發(fā)展取得了極大的進(jìn)步。走出了驗(yàn)室,走向了包括商業(yè)領(lǐng)域的廣泛運(yùn)用。在人工智能(AI)中,機(jī)器學(xué)習(xí)被作為一種重要的方法應(yīng)用到電腦可視化,語音識(shí)別,自然語言處理,機(jī)器人控制和其他應(yīng)用中。許多人工智能的開發(fā)者開始認(rèn)識(shí)到,對(duì)于許多應(yīng)用場(chǎng)景,訓(xùn)練一個(gè)系統(tǒng)去出示輸入輸出的結(jié)果,比人工分析內(nèi)在機(jī)理更容易。機(jī)器學(xué)習(xí)的準(zhǔn)確性在很多應(yīng)用中比人類自己的分析結(jié)果要高得多。機(jī)器學(xué)習(xí)的影響已經(jīng)廣泛傳播到運(yùn)用計(jì)算機(jī)和數(shù)據(jù)庫的行業(yè)里,例如,顧客服務(wù),醫(yī)療診斷系統(tǒng),資源分配。在以經(jīng)驗(yàn)為主的學(xué)科,像歷史學(xué),醫(yī)學(xué)到人文學(xué)科,機(jī)器學(xué)習(xí)也有其用武之地。學(xué)習(xí)問題可能被定義為當(dāng)執(zhí)行某些任務(wù)時(shí),通過不斷的訓(xùn)練提高解決能力[1]。例如,在學(xué)習(xí)偵察信用卡詐騙時(shí),我們需要給所有的信用卡交易貼上一個(gè)是不是詐騙的標(biāo)簽。測(cè)量表現(xiàn)將會(huì)由于這個(gè)詐騙鑒別分類器被提高,而它的訓(xùn)練是由以前的一系列詐騙案例所構(gòu)成。

三、機(jī)器學(xué)習(xí)的模型與算法

在不同的現(xiàn)實(shí)問題中機(jī)器學(xué)習(xí)算法也依據(jù)數(shù)據(jù)與模型的不同有了很大的差別。概念上機(jī)器學(xué)習(xí)算法被視為在一堆候選算法中選取一種對(duì)原始表現(xiàn)擬合最好的程序。機(jī)器學(xué)習(xí)算法的結(jié)論好壞差別非常大,很大程度上因?yàn)樗玫降臄?shù)據(jù)和模型的差別。這里的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。它努力從不同的程序中收集最好的算法。許多方法集中在函數(shù)取值問題,它們集中研究函數(shù)。給定一個(gè)輸入,就有一個(gè)輸出。學(xué)習(xí)問題就是如何找出一個(gè)更精確的函數(shù)。通常函數(shù)以參數(shù)化的形式呈現(xiàn),而在另一些情況下,函數(shù)具體形式不太清楚,它是由一個(gè)搜索過程、一個(gè)因子分解、一個(gè)極大化過程、一個(gè)仿真過程等構(gòu)成。即使函數(shù)形式不太清楚,其一般都依賴于參數(shù)與自由度,訓(xùn)練找到這些參數(shù)的過程往往使得表現(xiàn)測(cè)度最優(yōu)化[2]。

下面是機(jī)器學(xué)習(xí)主流的各種算法, 算法是機(jī)器學(xué)習(xí)的核心,要了解不同算法的難點(diǎn)所在,更要了解不同算法的優(yōu)勢(shì)以及應(yīng)用場(chǎng)合。算法離不開對(duì)于數(shù)學(xué)基礎(chǔ),也與統(tǒng)計(jì)學(xué)的建模有關(guān)系;由于算法的計(jì)算難度比較大,更與計(jì)算機(jī)的計(jì)算性能有關(guān),所以算法研究顯得非常重要但也比較困難。算法可以說是機(jī)器學(xué)習(xí)的內(nèi)核,一種好算法的提出,對(duì)于機(jī)器學(xué)習(xí)是劃時(shí)代的貢獻(xiàn)。

四、機(jī)器學(xué)習(xí)的商業(yè)重要性

這個(gè)時(shí)代是一個(gè)互聯(lián)網(wǎng)信息爆炸的時(shí)代,隨著網(wǎng)絡(luò)的迅速發(fā)展和普及,使得信息量極大豐富,由于我們獲得海量數(shù)據(jù)的便捷性,我們可以利用的數(shù)據(jù)進(jìn)行分析變得越來越容易,收集的信息門類五花八門。對(duì)于各個(gè)行業(yè),還能收集與行業(yè)、競(jìng)爭(zhēng)對(duì)手、客戶和市場(chǎng)有關(guān)的信息,能夠很好的分析和處理那些對(duì)企業(yè)有重大價(jià)值的信息成為未來企業(yè)脫穎而出的關(guān)鍵。根據(jù)分析結(jié)果找出企業(yè)面臨的問題和漏洞,更好的管理企業(yè),讓企業(yè)取得生存發(fā)展空間。

可見數(shù)據(jù)挖掘?qū)τ谄髽I(yè)的重要性,未來從事機(jī)器學(xué)習(xí)相關(guān)崗位的人員將會(huì)越來越多,數(shù)據(jù)挖據(jù)不僅在一些大的公司有重要的作用,在小企業(yè)里也是不可或缺的。數(shù)據(jù)在公司經(jīng)營中提供了非常有價(jià)值的商業(yè)信息,數(shù)據(jù)中蘊(yùn)含了巨大的商業(yè)潛力。數(shù)據(jù)像一個(gè)盒子。不是我們隨便看看的就能得到指導(dǎo)性的意見。大數(shù)據(jù)時(shí)代的到來尤其為管理者既帶來了機(jī)會(huì),又增加了困難。因?yàn)樗麄円鎸?duì)的是更加龐雜的數(shù)據(jù)系統(tǒng),從中找出他們需要的具體規(guī)律,這本身不是一件容易的事。所以以后機(jī)器學(xué)習(xí)會(huì)越來越走向我們的企業(yè),為企業(yè)帶來價(jià)值。

參考文獻(xiàn):

[1]M.I.Jordan1 and T.M.Mitchell2.MachineL earning: Treads, perspective, prospects ,science,2015.

篇2

關(guān)鍵詞: 機(jī)器學(xué)習(xí) 人工智能 基本模型

1.引言

“機(jī)器學(xué)習(xí)”是人工智能的重要研究領(lǐng)域之一。機(jī)器學(xué)習(xí)的定義是“系統(tǒng)通過積累經(jīng)驗(yàn)而改善系統(tǒng)自身的性能”。通俗地說,就是讓機(jī)器去學(xué)習(xí),利用學(xué)到的知識(shí)來指導(dǎo)下一步的判斷。最初研究機(jī)器學(xué)習(xí),是讓計(jì)算機(jī)具有學(xué)習(xí)的能力,以實(shí)現(xiàn)智能化。因?yàn)槿藗冋J(rèn)為具有人工智能的系統(tǒng)首先必須具有學(xué)習(xí)能力。機(jī)器學(xué)習(xí)的研究始于神經(jīng)元模型研究,此后又經(jīng)歷了符號(hào)概念獲取、知識(shí)強(qiáng)化學(xué)習(xí)研究階段,至今已發(fā)展到連接學(xué)習(xí)和混合型學(xué)習(xí)研究階段。

2.機(jī)器學(xué)習(xí)系統(tǒng)的基本模型

根據(jù)機(jī)器學(xué)習(xí)的定義,建立如圖1所示的機(jī)器學(xué)習(xí)基本模型。

模型中包含學(xué)習(xí)系統(tǒng)的四個(gè)基本組成環(huán)節(jié)。

環(huán)境和知識(shí)庫是以某種知識(shí)表示形式表達(dá)的信息的集合,分別代表外界信息來源和系統(tǒng)具有的知識(shí)。學(xué)習(xí)環(huán)節(jié)和執(zhí)行環(huán)節(jié)代表兩個(gè)過程。學(xué)習(xí)環(huán)節(jié)處理環(huán)境提供的信息,以便改善知識(shí)庫中的知識(shí)。執(zhí)行環(huán)節(jié)是整個(gè)機(jī)器學(xué)習(xí)系統(tǒng)的核心。利用知識(shí)庫中的知識(shí)來完成某種任務(wù),并把執(zhí)行中獲得的信息送還給學(xué)習(xí)環(huán)節(jié)。

2.1機(jī)器學(xué)習(xí)的分類

很多學(xué)者從不同的角度對(duì)機(jī)器學(xué)習(xí)進(jìn)行了分類,這里簡(jiǎn)單闡述一下繼續(xù)學(xué)習(xí)策略的機(jī)器學(xué)習(xí)的種類。按照學(xué)習(xí)策略的不同,機(jī)器學(xué)習(xí)分為機(jī)械學(xué)習(xí)、歸納學(xué)習(xí)、基于解釋的學(xué)習(xí)、基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和基于遺傳算法的學(xué)習(xí)。

2.1.1機(jī)械學(xué)習(xí)

機(jī)械學(xué)習(xí)(Rote Learning)就是“死記硬背式的學(xué)習(xí)”,靠記憶存儲(chǔ)知識(shí),需要時(shí)檢索已經(jīng)存下來的知識(shí)使用,不需要計(jì)算和推理。機(jī)械學(xué)習(xí)的模式如下:需要解決的問題為{y,y,...,yn},輸入已知信息{x,x,...x}后,解決了該問題,于是將記錄對(duì){{x,x,...,x},{y,y,...,y}}存入數(shù)據(jù)庫,以后當(dāng)遇到問{y,y,...,y}時(shí),檢索數(shù)據(jù)庫,即可得到問題{y,y,...,y}的解答是{x,x,...,x}。

能實(shí)現(xiàn)機(jī)械式學(xué)習(xí)算法的系統(tǒng)只需具備兩種基本技能:記憶與檢索。此外,存儲(chǔ)的合理安排,信息的合理結(jié)合,以及檢索最優(yōu)方向的控制也是系統(tǒng)應(yīng)該考慮的問題。該算法簡(jiǎn)單、容易實(shí)現(xiàn)、計(jì)算快速,但是由于系統(tǒng)不具備歸納推理的功能,對(duì)每個(gè)不同的問題,即使是類似的問題,也需要知識(shí)庫中有不同的記錄。因此占用大量的存儲(chǔ)空間,這是典型的以空間換時(shí)間的算法。

2.1.2歸納學(xué)習(xí)

歸納學(xué)習(xí)是應(yīng)用歸納推理進(jìn)行學(xué)習(xí)的一種方法。歸納學(xué)習(xí)的過程是由特殊實(shí)例推導(dǎo)出一般情況的過程,這樣就使類似的問題可以利用同樣的方法求解。歸納學(xué)習(xí)的過程就是示例空間與規(guī)則空間的相互利用與反饋。1974年,Simon和Lea提出了雙空間模型,形象地對(duì)這一執(zhí)行過程進(jìn)行了描述,如圖2所示。

歸納學(xué)習(xí)算法簡(jiǎn)單,節(jié)省存儲(chǔ)空間,在一段時(shí)間內(nèi)得到了廣泛的應(yīng)用。在應(yīng)用過程中,該算法逐漸顯現(xiàn)出它的缺點(diǎn):(1)歸納結(jié)論是通過對(duì)大量的實(shí)例分析得出的,這就要求結(jié)論的得出要有大量實(shí)例作支撐,而這在許多領(lǐng)域都是無法滿足的。(2)歸納結(jié)論是由不完全訓(xùn)練集得出的,因而其正確性無法保證,只能使結(jié)論以一定概率成立。(3)該算法通過對(duì)實(shí)例的分析與對(duì)比得出結(jié)論,對(duì)于信息的重要性與相關(guān)關(guān)系無法辨別。

2.1.3基于解釋的學(xué)習(xí)

基于解釋的學(xué)習(xí)(Explanation-Based Learning)是運(yùn)用已知相關(guān)領(lǐng)域的知識(shí)及訓(xùn)練實(shí)例,對(duì)某個(gè)目標(biāo)概念進(jìn)行學(xué)習(xí),并通過后繼的不斷練習(xí),得到目標(biāo)概念的一般化描述。該學(xué)習(xí)的執(zhí)行過程如圖3所示。

這種方式的學(xué)習(xí)得到一個(gè)領(lǐng)域完善的知識(shí)往往是比較困難的,這就對(duì)該算法提出了更高的要求。為解決知識(shí)不完善領(lǐng)域的問題,有以下兩個(gè)研究方向[2]:(1)改進(jìn)該算法使其在不完善的領(lǐng)域理論中依然有效。(2)擴(kuò)充該領(lǐng)域的知識(shí)使其擁有更強(qiáng)的解釋能力。通常情況下,第二種改進(jìn)方法更重要些。

2.1.4基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)是由許多類似神經(jīng)元的節(jié)點(diǎn)和它們之間帶權(quán)的連接組成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),是為模仿人類大腦的復(fù)雜神經(jīng)結(jié)構(gòu)而建立起來的抽象數(shù)據(jù)模型,希望相似的拓?fù)浣Y(jié)構(gòu)可以使機(jī)器像人腦一樣進(jìn)行數(shù)據(jù)的分析、存儲(chǔ)與使用。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程就是不斷修正連接權(quán)的過程。在網(wǎng)絡(luò)的使用過程中,對(duì)于特定的輸入模式,神經(jīng)網(wǎng)絡(luò)通過前向計(jì)算,產(chǎn)生一個(gè)輸出模式,并得到節(jié)點(diǎn)代表的邏輯概念,通過對(duì)輸出信號(hào)的比較與分析可以得到特定解。在整個(gè)過程中,神經(jīng)元之間具有一定的冗余性,且允許輸入模式偏離學(xué)習(xí)樣本,因此神經(jīng)網(wǎng)絡(luò)的計(jì)算行為具有良好的并行分布、容錯(cuò)和抗噪能力。

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是一種仿真算法,擁有良好的認(rèn)識(shí)模擬能力和有高度的并行分布式處理能力。但神經(jīng)網(wǎng)絡(luò)模型及其參數(shù)設(shè)置難以確定,需要長(zhǎng)時(shí)間的試驗(yàn)摸索過程。并且,對(duì)于最后得到的神經(jīng)網(wǎng)絡(luò),其反映的知識(shí)往往難以讓人理解。為解決這些問題,構(gòu)造神經(jīng)網(wǎng)絡(luò)集成并從神經(jīng)網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò)集成中抽取規(guī)則成為當(dāng)前研究的熱點(diǎn)。

2.1.5基于遺傳算法的學(xué)習(xí)

遺傳算法以自然進(jìn)化和遺傳學(xué)為基礎(chǔ),通過模擬自然界中生物的繁殖與進(jìn)化過程,使訓(xùn)練結(jié)果逐漸優(yōu)化。與遺傳過程類似,在學(xué)習(xí)過程中,通過選擇最好結(jié)果并使其組合產(chǎn)生下一代,使“優(yōu)秀的遺傳因子”逐代積累,最后得到最優(yōu)的解。遺傳算法解決了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的一個(gè)缺點(diǎn),它不需要知道原始信息而只需知道學(xué)習(xí)的目的即可進(jìn)行,具有很強(qiáng)的并行計(jì)算能力和適應(yīng)能力。此外,遺傳算法采取的隨機(jī)搜索方法提高了該學(xué)習(xí)算法對(duì)全局搜索的能力。遺傳算法的缺點(diǎn)主要體現(xiàn)在三個(gè)方面:無法確定最終解的全局最優(yōu)性;無法控制遺傳過程中變異的方向;無法有效地確定進(jìn)化終止條件?;谶@三個(gè)缺點(diǎn),有人提出了遺傳算法與其他學(xué)習(xí)算法的結(jié)合,優(yōu)點(diǎn)互補(bǔ)已達(dá)到更好的效果。

3.結(jié)語

機(jī)器學(xué)習(xí)在過去十幾年中取得了飛速的發(fā)展,目前已經(jīng)成為子領(lǐng)域眾多、內(nèi)涵非常豐富的學(xué)科領(lǐng)域?!案?、更好地解決實(shí)際問題”成為機(jī)器學(xué)習(xí)發(fā)展的驅(qū)動(dòng)力。事實(shí)上,過去若干年中出現(xiàn)的很多新的研究方向,例如半監(jiān)督學(xué)習(xí)、代價(jià)敏感學(xué)習(xí)等,都起源于實(shí)際應(yīng)用中抽象出來的問題,而機(jī)器學(xué)習(xí)的研究進(jìn)展,也很快就在眾多應(yīng)用領(lǐng)域中發(fā)揮作用。機(jī)器學(xué)習(xí)正在逐漸成為基礎(chǔ)性、透明化、無處不在的支持技術(shù)、服務(wù)技術(shù)。

參考文獻(xiàn):

[1]周志華.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘[J].

篇3

機(jī)器學(xué)習(xí)作為人工智能的核心內(nèi)容而存在。簡(jiǎn)單來講就是在模擬人類行為的基礎(chǔ)上,通過學(xué)習(xí)來使計(jì)算機(jī)獲得更多的新技能、新知識(shí),變得更加聰明更加智能,以此來實(shí)現(xiàn)其組織結(jié)構(gòu)性能上的不斷優(yōu)化。而機(jī)器學(xué)習(xí)作為一項(xiàng)極為智能化的過程,具體該如何實(shí)現(xiàn)屬于機(jī)器的特有“學(xué)習(xí)”行為呢?關(guān)于這一點(diǎn),不同專業(yè)學(xué)者基于自身專業(yè)研究?jī)?nèi)容的不同,因此眾說紛紜,但總結(jié)來講,機(jī)器學(xué)習(xí)與推理過程之間的緊密關(guān)系還是得到了大多數(shù)學(xué)者的一致認(rèn)同,因此,我們可以將機(jī)器學(xué)習(xí)策略分為事例學(xué)習(xí)、類比學(xué)習(xí)、傳授學(xué)習(xí)、機(jī)械學(xué)習(xí)。基于計(jì)算機(jī)功能的復(fù)雜性,機(jī)器學(xué)習(xí)涉及范圍較廣,是在多種知識(shí)、技術(shù)的交叉和共同作用下的結(jié)果,如,概率論、凸分析、統(tǒng)計(jì)學(xué)、算法復(fù)雜度理論、逼近論等多專業(yè)學(xué)科都涉及其中。就機(jī)器學(xué)習(xí)的分類來講我們可以將其分為以下幾種:(1)基于學(xué)習(xí)策略分類——機(jī)械學(xué)習(xí)、示教學(xué)習(xí)、演繹學(xué)習(xí)、類比學(xué)習(xí)、基于解釋的學(xué)習(xí)、歸納學(xué)習(xí);(2)基于所獲取知識(shí)的表示形式分類——代數(shù)表達(dá)式參數(shù)、決策樹、形式文法、產(chǎn)生式規(guī)則、形式邏輯表達(dá)式、圖和網(wǎng)絡(luò)、框架和模式、計(jì)算機(jī)程序和其它的過程編碼、神經(jīng)網(wǎng)絡(luò)、多種表示形式的組合;(3)按應(yīng)用領(lǐng)域分類——自然語言、圖像識(shí)別、認(rèn)知模擬、故障診斷、數(shù)據(jù)挖掘、專家系統(tǒng)、規(guī)劃和問題求解、網(wǎng)絡(luò)信息服務(wù)等領(lǐng)域;(4)綜合分類——經(jīng)驗(yàn)性歸納學(xué)習(xí)、分析學(xué)習(xí)、類比學(xué)習(xí)、遺傳算法、連接學(xué)習(xí)、增強(qiáng)學(xué)習(xí);(5)學(xué)習(xí)形式分類——監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)。

2機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中應(yīng)用的意義

從機(jī)器學(xué)習(xí)的本質(zhì)上來講,它是在大數(shù)據(jù)集中的基礎(chǔ)上通過對(duì)數(shù)學(xué)技術(shù)的引入,來構(gòu)建機(jī)器行為模型,并通過不斷輸入新的數(shù)據(jù)資料,使機(jī)器在對(duì)各時(shí)段數(shù)據(jù)進(jìn)行分析、運(yùn)算的基礎(chǔ)上,來實(shí)現(xiàn)對(duì)未來的科學(xué)預(yù)測(cè)。就機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中應(yīng)用的意義來講,主要體現(xiàn)在,機(jī)器學(xué)習(xí)基于自身極強(qiáng)的數(shù)據(jù)分析能力,在應(yīng)用的過程中,可以幫助用戶來有效的對(duì)網(wǎng)絡(luò)安全事件作出及時(shí)的響應(yīng),尤其是在團(tuán)隊(duì)安全技能不足的情況下,可以通過自動(dòng)執(zhí)行來替代團(tuán)隊(duì)執(zhí)行一些瑣碎的系統(tǒng)安全任務(wù),有助于切實(shí)保障用戶的網(wǎng)絡(luò)安全。同時(shí)機(jī)器學(xué)習(xí)與傳統(tǒng)電子科技產(chǎn)品的融合,有助于清除產(chǎn)品中的惡意軟件,進(jìn)而達(dá)到提升產(chǎn)品安全系數(shù)和運(yùn)行穩(wěn)定性的目的。

3機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)安全中的應(yīng)用

3.1安全入侵檢測(cè)

網(wǎng)絡(luò)安全入侵檢測(cè)是一種較早出現(xiàn)的計(jì)算機(jī)系統(tǒng)自我安全防護(hù)技術(shù),其在不對(duì)網(wǎng)絡(luò)性能以及用戶的計(jì)算機(jī)操作構(gòu)成影響的情況下,通過對(duì)網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)、安全日志等信息的分析和檢測(cè),來判斷系統(tǒng)是否受到了安全威脅,以此來實(shí)現(xiàn)對(duì)計(jì)算機(jī)系統(tǒng)的實(shí)時(shí)保護(hù)。機(jī)器學(xué)習(xí)憑借自身性能的智能化,在安全入侵檢測(cè)中的應(yīng)用,能夠有效提升網(wǎng)絡(luò)安全入侵檢測(cè)反應(yīng)靈敏度,使防護(hù)系統(tǒng)可以在短短的幾秒鐘內(nèi),就準(zhǔn)確的檢測(cè)到惡意攻擊位置,并予及時(shí)的進(jìn)行準(zhǔn)確、有效的防護(hù),將惡意攻擊對(duì)系統(tǒng)的傷害降到最低。

3.2垃圾郵件檢測(cè)

機(jī)器學(xué)習(xí)在垃圾郵件檢測(cè)中的應(yīng)用,根據(jù)其特殊的運(yùn)行原理,我們可以將其看作是機(jī)器學(xué)習(xí)當(dāng)中的分類問題。如,我們將郵件整體定義在{-1,1}之間,1就代表是垃圾郵件,而-1則說明是非垃圾郵件。而在對(duì)垃圾郵件進(jìn)行文本分類問題定義的過程中,我們首先就需要通過一定的數(shù)值來對(duì)垃圾郵件的文本信息予以表達(dá),并用向量來對(duì)各條消息進(jìn)行表示,垃圾郵件的特征值則集中表現(xiàn)在各特征向量元素當(dāng)中。同時(shí),由于系統(tǒng)對(duì)于垃圾郵件的檢測(cè)屬于在線應(yīng)用范疇,因此,機(jī)器學(xué)習(xí)對(duì)于郵件的自動(dòng)識(shí)別和分類能夠極大的提升系統(tǒng)對(duì)于垃圾郵件的檢測(cè)效率,降低出錯(cuò)率。

3.3域名檢測(cè)

作為互聯(lián)網(wǎng)重要的核心應(yīng)用系統(tǒng),域名系統(tǒng)基于自身對(duì)整個(gè)網(wǎng)絡(luò)安全所起到的重要意義,經(jīng)常成為被黑客和不法分子惡意攻擊的目標(biāo)。以往我們多通過防火墻、黑名單攔截、域名系統(tǒng)等的作用下,來實(shí)現(xiàn)對(duì)域名惡意攻擊的檢測(cè)。以機(jī)器學(xué)習(xí)為主的域名檢測(cè)則通常是在在線模型、離線模型的雙重組合作用下,來實(shí)現(xiàn)其域名檢測(cè)和防御功能。其中,離線模型,通過對(duì)惡意域名、合法域名訓(xùn)練數(shù)據(jù)集的建立,來從中提取出基于區(qū)域的特征、基于DNS應(yīng)答的特征、基于域名信息的特征等,之后通過X-Means聚類算法、決策樹等模型的構(gòu)建,結(jié)合網(wǎng)站提供的已知域名數(shù)據(jù)集來對(duì)所構(gòu)建的模型予以進(jìn)一步的調(diào)整和驗(yàn)證。以此來判斷其是否屬于惡意域名。在線監(jiān)測(cè)模型,是在網(wǎng)絡(luò)系統(tǒng)對(duì)域名的自動(dòng)查詢分析作用下,來對(duì)被檢測(cè)域名的主要特征、信息等進(jìn)行獲取,其特征顯示已標(biāo)記的則視為已知域名信息,進(jìn)行繼續(xù)訓(xùn)練操作,特征顯示無標(biāo)簽的則視為未知域名,需要在分類器的作用下,對(duì)其是否屬于惡意域名進(jìn)行繼續(xù)判斷。

參考文獻(xiàn)

[1]張蕾,崔勇,劉靜,江勇,吳建平.機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)空間安全研究中的應(yīng)用[J/OL].計(jì)算機(jī)學(xué)報(bào),2018:1-35.

篇4

[關(guān)鍵詞]機(jī)器學(xué)習(xí) 服務(wù)器調(diào)優(yōu) 線程池

[中圖分類號(hào)]TP181 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1009-5349(2016)02-0133-01

一、線程池調(diào)優(yōu)系統(tǒng)總體設(shè)計(jì)

線程池調(diào)優(yōu)系統(tǒng)由四個(gè)模塊組成:線程池模塊、性能監(jiān)測(cè)模塊、支持向量機(jī)調(diào)優(yōu)模塊。線程池模塊負(fù)責(zé)線程池的創(chuàng)建與維護(hù),任務(wù)隊(duì)列的任務(wù)管理等,并將任務(wù)隊(duì)列中的用戶任務(wù)取出放入線程池中進(jìn)行執(zhí)行。性能監(jiān)測(cè)模塊負(fù)責(zé)對(duì)表征線程池性能的三個(gè)特征量吞吐量、任務(wù)運(yùn)算時(shí)間和任務(wù)阻塞時(shí)間的監(jiān)測(cè),作為測(cè)試樣本輸入支持向量機(jī)調(diào)優(yōu)模塊中。支持向量機(jī)調(diào)優(yōu)模塊則通過性能監(jiān)測(cè)模塊提供的測(cè)試樣本,得到所需的最佳線程池尺寸,并與當(dāng)前的線程池尺寸進(jìn)行對(duì)比,最后調(diào)整線程池尺寸到最佳。

二、線程池模塊

線程池模塊主要負(fù)責(zé)線程池內(nèi)線程的創(chuàng)建、銷毀、構(gòu)造任務(wù)隊(duì)列,并將任務(wù)隊(duì)列中的用戶任務(wù)取入線程池中分配空閑線程來執(zhí)行。系統(tǒng)采用Win32的提供的線程庫,以面向?qū)ο笏枷雽?shí)現(xiàn)相關(guān)功能模塊。線程池模塊主要包括線程池類CPoolThread、任務(wù)隊(duì)列類CJobDequeue、線程類CThread以及同步類CMutex。

線程類CThread最重要的一個(gè)方法是線程的創(chuàng)建方法CThread::Create()。線程創(chuàng)建方法采用了Win32線程庫提供的線程創(chuàng)建應(yīng)用程序接口CreateThread(Null,0,_ThreadEntry,this,0,&ThreadID)來實(shí)現(xiàn)。線程池類CThreadPool主要提供了一個(gè)數(shù)組變量m_list_thread來維護(hù)一個(gè)線程池,線程池內(nèi)的每個(gè)線程都存在了這個(gè)數(shù)組變量中,而具體的池內(nèi)線程的操作都交給了線程類CThread來完成。線程池類CThreadPool主要包括初始化線程池的初始化方法CThreadPool::InitInstance()來實(shí)現(xiàn)線程池內(nèi)所有線程的創(chuàng)建操作,具體通過CThread類的CThread::Create()方法來實(shí)現(xiàn)每個(gè)線程的創(chuàng)建。任務(wù)隊(duì)列類CJobQueue是線程池類的一個(gè)對(duì)象,維護(hù)了一個(gè)任務(wù)隊(duì)列數(shù)組列表m_normal_list,用戶任務(wù)經(jīng)過線程池類添加任務(wù)接口進(jìn)入此數(shù)組列表中。任務(wù)隊(duì)列類通過隊(duì)列列表來維護(hù)管理等待中的用戶任務(wù)。同步類CMutex主要是為了實(shí)現(xiàn)程序中的某些互斥操作設(shè)立的,通過對(duì)私有變量m_lock調(diào)用WinAPI函數(shù)的WaitForSingleObject()與ReleaseMutex()來實(shí)現(xiàn)程序的加鎖與解鎖操作。

三、性能監(jiān)測(cè)模塊

性能監(jiān)測(cè)模塊主要是監(jiān)測(cè)表征線程池性能的三個(gè)特征量:吞吐量、任務(wù)運(yùn)算時(shí)間和任務(wù)阻塞時(shí)間。由于吞吐量是監(jiān)測(cè)用戶任務(wù)進(jìn)入任務(wù)隊(duì)列的數(shù)量,因此,對(duì)吞吐量的監(jiān)測(cè)可以在任務(wù)隊(duì)列類中實(shí)現(xiàn)。而任務(wù)運(yùn)算時(shí)間和任務(wù)阻塞時(shí)間直接是與線程的執(zhí)行任務(wù)相關(guān)的,因此,將這兩個(gè)量的監(jiān)測(cè)放入線程類中實(shí)現(xiàn)。

性能監(jiān)測(cè)模塊對(duì)吞吐量的監(jiān)測(cè)方法。每當(dāng)有用戶任務(wù)通過線程池類進(jìn)入任務(wù)隊(duì)列時(shí),任務(wù)隊(duì)列將其成員變量m_tuntu進(jìn)行加1操作,實(shí)現(xiàn)對(duì)吞吐量的實(shí)時(shí)更新。

任務(wù)運(yùn)算時(shí)間的監(jiān)測(cè)方法主要通過調(diào)用Windows提供的API函數(shù)GetThreadTimes添加至線程類中的Run方法中來實(shí)現(xiàn)。GetThreadTimes函數(shù)可以返回四個(gè)參數(shù):線程創(chuàng)建時(shí)間、線程退出時(shí)間、系統(tǒng)代碼運(yùn)算時(shí)間和用戶代碼運(yùn)算時(shí)間。因此,可以通過對(duì)系統(tǒng)代碼時(shí)間與用戶代碼時(shí)間求和來得到任務(wù)占用CPU的時(shí)間,也就是任務(wù)運(yùn)算時(shí)間。具體做法是當(dāng)線程類中Run方法啟動(dòng)用戶任務(wù)時(shí),即調(diào)用此API函數(shù),獲得任務(wù)進(jìn)入線程池時(shí)間;當(dāng)用戶任務(wù)運(yùn)行結(jié)束時(shí),再次調(diào)用此API函數(shù),即可獲得任務(wù)離開線程池時(shí)間,將二者做差即可得到任務(wù)占用CPU的運(yùn)算時(shí)間。

對(duì)任務(wù)阻塞時(shí)間的監(jiān)測(cè)方法的實(shí)現(xiàn)則相對(duì)麻煩一些,因?yàn)闆]有直接測(cè)試任務(wù)阻塞時(shí)間的API函數(shù).但是可以通過間接的方法來測(cè)量,即任務(wù)阻塞時(shí)間=任務(wù)執(zhí)行時(shí)間-任務(wù)運(yùn)算時(shí)間。其中,任務(wù)執(zhí)行時(shí)間可以通過WindowsAPI函數(shù)getTickCount()來分別得到任務(wù)進(jìn)入線程池與離開線程池時(shí)的CPU時(shí)鐘,從而做差就可以求出任務(wù)執(zhí)行時(shí)間;而任務(wù)運(yùn)算時(shí)間也可以得到,因此再將兩者做差就可以得出最后的任務(wù)阻塞時(shí)間。具體做法同監(jiān)測(cè)任務(wù)運(yùn)算時(shí)間時(shí)的做法,只是改變了監(jiān)測(cè)的API函數(shù)。

四、支持向量機(jī)調(diào)優(yōu)模塊

根據(jù)支持向量機(jī)調(diào)優(yōu)模型,將支持向量機(jī)調(diào)優(yōu)模塊寫成線程類中的一個(gè)函數(shù)――調(diào)優(yōu)函數(shù)Tuning()。

通過線程池類內(nèi)的成員變量m_tuntu、m_cmptm和m_blktm獲取當(dāng)前線程池性能數(shù)據(jù),輸入到支持向量機(jī)方法中得到最佳線程池尺寸。當(dāng)最佳線程池尺寸與當(dāng)前線程池尺寸不符時(shí),需要對(duì)線程池的尺寸進(jìn)行調(diào)整。當(dāng)需要增加線程池尺寸時(shí),可以通過WindowsAPI函數(shù)CreateThread()來創(chuàng)建新線程;當(dāng)需要減小線程池尺寸時(shí),可以通過調(diào)用函數(shù)TerminateThread()來銷毀空閑線程,最終達(dá)到所需的最佳線程池尺寸。

篇5

關(guān)鍵詞: IDS;異常檢測(cè);行為模式;機(jī)器學(xué)習(xí);相似度

中圖分類號(hào):TP18;TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A

Anomaly Detection of User Behaviors Based on Machine Learning

SUN Hong-wei,TIAN Xin-guang, ZHANG Er-yang

(1.School of Electronic Science and Engineering, National University of Defense Technology, Changsha 410073, China;

2. Putian Telecom Corporation, Beijing 100088, China)

Abstract: Anomaly detection acts as one of the important directions of research on Intrusion Detection Systems (IDSs). In this paper, an anomaly detection model originated mainly by Terran Lane is briefly introduced. Then a new anomaly detection model based on machine learning is presented. The model uses shell command sequences of variable length to represent a valid user’s behavior patterns and uses more than one dictionaries of shell command sequences to build the user’s behavior profile. While performing detection, the model digs behavior patterns by sequence matching method and evaluates the similarities of the corresponding command sequences to the dictionaries. The two models are tested with UNIX users’ shell command data. The results show that the new model originated by us has higher detection performance.

Key words: IDS; anomaly detection; behavior pattern; machine learning; similarity measure

1 引言

目前,異常檢測(cè)是入侵檢測(cè)系統(tǒng)(IDS)研究的主要方向,這種檢測(cè)技術(shù)建立系統(tǒng)或用戶的正常行為模式,通過被監(jiān)測(cè)系統(tǒng)或用戶的實(shí)際行為模式和正常模式之間的比較和匹配來檢測(cè)入侵,其特點(diǎn)是不需要過多有關(guān)系統(tǒng)缺陷的知識(shí),具有較強(qiáng)的適應(yīng)性,并且能夠檢測(cè)出未知的入侵模式。虛警概率高是目前限制異常檢測(cè)應(yīng)用的主要因素。異常檢測(cè)的關(guān)鍵問題在于正常行為模式(庫)的建立以及如何利用該模式(庫)對(duì)當(dāng)前行為進(jìn)行比較和判斷。

國內(nèi)外已經(jīng)開展了神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等智能技術(shù)在異常檢測(cè)中的應(yīng)用研究,研究目標(biāo)主要是提高檢測(cè)系統(tǒng)的準(zhǔn)確性、實(shí)時(shí)性、高效性以及自適應(yīng)性,其中一些研究成果在檢測(cè)性能和可操作性上已接近或達(dá)到了實(shí)用化水平。本文介紹了Lane T等人提出的基于機(jī)器學(xué)習(xí)的IDS用戶行為異常檢測(cè)模型,在其基礎(chǔ)上提出一種新的檢測(cè)模型,此模型用多種長(zhǎng)度不同的shell命令序列表示用戶行為模式,建立多個(gè)樣本序列庫來描述正常用戶的行為輪廓,檢測(cè)時(shí)以長(zhǎng)度可變的命令

序列為單位進(jìn)行相似度賦值,并將加窗濾噪后的相似度作為用戶身份的判決依據(jù)。利用UNIX用戶shell命令數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)表明,新的檢測(cè)模型具有很高的檢測(cè)性能和較強(qiáng)的可操作性。

2 基于機(jī)器學(xué)習(xí)的定長(zhǎng)命令序列檢測(cè)模型

2.1 機(jī)器學(xué)習(xí)基本原理

機(jī)器學(xué)習(xí)是人工智能的一個(gè)新的分支,它是通過對(duì)人類認(rèn)知機(jī)理的研究,借助機(jī)器(計(jì)算機(jī)系統(tǒng))建立各種學(xué)習(xí)模型,賦予機(jī)器學(xué)習(xí)的能力,在此基礎(chǔ)上構(gòu)建具有特定應(yīng)用的面向任務(wù)的學(xué)習(xí)系統(tǒng)。一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)主要有學(xué)習(xí)單元、知識(shí)庫、執(zhí)行單元組成,其中學(xué)習(xí)單元利用外界信息源提供的信息來建立知識(shí)庫并對(duì)其做出改進(jìn)(增加新知識(shí)或重新組織已有知識(shí)),執(zhí)行單元利用知識(shí)庫中的知識(shí)執(zhí)行任務(wù),任務(wù)執(zhí)行后的信息又反饋給學(xué)習(xí)單元作為進(jìn)一步學(xué)習(xí)的輸入。學(xué)習(xí)單元是機(jī)器學(xué)習(xí)系統(tǒng)實(shí)現(xiàn)學(xué)習(xí)功能的核心部分,它涉及處理外界信息的方式以及獲取新知識(shí)過程中所用的方法。知識(shí)庫用來存儲(chǔ)知識(shí),包括系統(tǒng)原有的領(lǐng)域知識(shí)(這種知識(shí)是長(zhǎng)期的、相對(duì)穩(wěn)定的),以及通過學(xué)習(xí)而獲得的各種新知識(shí)(這種知識(shí)是短期的、變化的),選擇何種知識(shí)表示對(duì)學(xué)習(xí)系統(tǒng)的設(shè)計(jì)起著非常重要的作用。執(zhí)行單元是使學(xué)習(xí)系統(tǒng)具有實(shí)際用途,同時(shí)又能夠評(píng)價(jià)學(xué)習(xí)方法好壞的關(guān)鍵部分。

機(jī)器學(xué)習(xí)研究中的很大一部分工作集中在分類和問題求解這兩個(gè)領(lǐng)域;經(jīng)過三十多年的發(fā)展,目前已有了很多學(xué)習(xí)方法,如歸納學(xué)習(xí)、實(shí)例學(xué)習(xí)、遺傳學(xué)習(xí)等,但這些方法均有其局限性,結(jié)合具體的應(yīng)用領(lǐng)域探討新的學(xué)習(xí)方法和算法是目前的研究主流。

2.2 定長(zhǎng)命令序列檢測(cè)模型的描述

美國Purdue大學(xué)的Lane T等人提出了一種基于機(jī)器學(xué)習(xí)的用戶行為異常檢測(cè)模型,并對(duì)模型進(jìn)行了深入的研究和實(shí)驗(yàn)。其模型利用長(zhǎng)度固定的shell命令序列表示用戶的行為模式,建立樣本序列庫來描述正常用戶的行為輪廓;工作時(shí),將被監(jiān)測(cè)用戶的命令序列同正常用戶的樣本命令序列庫進(jìn)行比較和匹配,根據(jù)兩者的相似度對(duì)被監(jiān)測(cè)用戶的身份進(jìn)行判斷。模型的要點(diǎn)簡(jiǎn)述如下[2]:

(1)將長(zhǎng)度固定的shell命令序列作為描述用戶行為模式的最小數(shù)據(jù)單元,采用實(shí)例學(xué)習(xí)方法建立正常用戶的樣本序列庫(知識(shí)庫)。

(2)定義兩序列之間的相似度,它用于表示兩個(gè)序列所代表的行為模式之間的相似程度。在此基礎(chǔ)上,定義一個(gè)序列同樣本序列庫的相似度,它用于表示此序列所代表的行為模式同正常用戶各種行為模式之間的最大相似程度。

(3)模型工作時(shí),計(jì)算被監(jiān)測(cè)用戶序列流中的每個(gè)序列同正常用戶樣本序列庫的相似度,然后,對(duì)相似度進(jìn)行加窗濾噪處理,得到按時(shí)間順序排列的相似度判決值,根據(jù)判決值的大小對(duì)被監(jiān)測(cè)用戶的身份進(jìn)行實(shí)時(shí)判決。

模型中有以下幾個(gè)關(guān)鍵問題:一、最佳序列長(zhǎng)度的選擇;二、樣本序列的提?。蝗?、相似度函數(shù)的定義;四、濾噪算法的選擇。Lane T等人針對(duì)以上問題利用UNIX用戶的shell命令數(shù)據(jù)做了大量實(shí)驗(yàn),以下是他們得出的結(jié)論:

(1)最佳序列長(zhǎng)度同具體用戶的行為特點(diǎn)有關(guān)。隨著序列長(zhǎng)度的增大(從1到15),模型的檢測(cè)性能隨用戶的不同而呈現(xiàn)出不同的變化趨勢(shì)。

(2)在各種相似度函數(shù)中,關(guān)心相鄰命令之間相關(guān)性的相似度函數(shù)對(duì)應(yīng)的檢測(cè)性能優(yōu)于不考慮相關(guān)性的相似度函數(shù)。均值濾噪和中值濾噪算法[2]對(duì)應(yīng)的檢測(cè)性能差別不大。

(3)在聚類、按出現(xiàn)概率提取、按時(shí)間順序截取、隨機(jī)選擇等樣本序列提取方法中,聚類方法對(duì)不同用戶的適應(yīng)性要強(qiáng)一些,但實(shí)現(xiàn)起來最復(fù)雜。

3 基于機(jī)器學(xué)習(xí)的變長(zhǎng)命令序列檢測(cè)模型

3.1 變長(zhǎng)命令序列檢測(cè)模型的描述

Lane T等人提出的定長(zhǎng)命令序列檢測(cè)模型主要有兩個(gè)缺點(diǎn):一、在用戶行為模式的表示上缺乏靈活性和適應(yīng)性。行為模式是指用戶操作過程中體現(xiàn)出的某種規(guī)律性;實(shí)際中,不同用戶所具有的行為模式存在差異,同一用戶完成不同行為模式時(shí)所執(zhí)行的命令個(gè)數(shù)也不盡相同,因而,用長(zhǎng)度固定的命令序列難以全面準(zhǔn)確地表示出用戶的整體行為輪廓。二、不容易估算針對(duì)具體用戶的最佳序列長(zhǎng)度。Lane T等人主要采用實(shí)驗(yàn)方法來確定最佳序列長(zhǎng)度,這種方法所需的計(jì)算量很大,而且其性能缺乏穩(wěn)定性。我們針對(duì)定長(zhǎng)命令序列檢測(cè)模型的以上不足進(jìn)行了改進(jìn)和修正,提出一種變長(zhǎng)命令序列檢測(cè)模型,具體描述如下:

(1)根據(jù)正常用戶的歷史行為,定義種長(zhǎng)度不同的shell命令序列,用于表示正常用戶的各種行為模式。

設(shè)序列長(zhǎng)度的集合為,其中表示第種序列的長(zhǎng)度,且。在樣本序列庫的個(gè)數(shù)確定的情況下,可有不同的選擇。例如時(shí),可以為(即三種序列的長(zhǎng)度分別為),也可以為或其它組合。和對(duì)檢測(cè)性能有直接影響,在選擇它們時(shí),除了要充分考慮正常用戶的行為特點(diǎn)之外,還需考慮模型的復(fù)雜度及檢測(cè)效率(和越大,檢測(cè)系統(tǒng)的存儲(chǔ)量和工作中的運(yùn)算量也會(huì)越大)。

(2)針對(duì)每種序列建立一個(gè)樣本序列庫,用個(gè)樣本序列庫來描述正常用戶的行為輪廓(行為模式集合)。按照正常用戶歷史行為中各序列的出現(xiàn)概率來提取樣本序列。

設(shè)個(gè)樣本序列庫的集合,其中表示長(zhǎng)度為的序列對(duì)應(yīng)的樣本序列庫。設(shè)正常用戶的訓(xùn)練數(shù)據(jù)(歷史數(shù)據(jù))為,它是一個(gè)長(zhǎng)度為的shell命令流,其中表示按時(shí)間順序排列的第個(gè)命令,對(duì)應(yīng)的長(zhǎng)度為()的命令序列流可表示為,其中。我們?cè)O(shè)定一個(gè)概率門限,將()中出現(xiàn)概率大于的命令序列視為正常用戶的行為模式,即是由這些命令序列組成。

(3)定義序列之間以及序列同樣本序列庫之間的相似度函數(shù),用以描述行為模式之間以及行為模式同用戶整體行為輪廓之間的相似程度。

設(shè)長(zhǎng)度為的兩序列和的相似度為,其計(jì)算方法如下[1]:

第一步:設(shè)定,,。

第二步:如果(其中表示中的第個(gè)命令),則,;否則,,。

第三步:。如果,返回執(zhí)行第二步;否則,。

根據(jù)以上定義,如果時(shí)(即兩序列相同),則有。

序列和樣本序列庫的相似度函數(shù)定義為:

(1)

(4)檢測(cè)時(shí),以長(zhǎng)度可變的命令序列為單位進(jìn)行相似度賦值,并將加窗濾噪后的相似度作為用戶身份的判決依據(jù)。

對(duì)于被監(jiān)測(cè)用戶的命令流,將它所對(duì)應(yīng)的長(zhǎng)度為的序列流表示為,其中。模型工作時(shí),按照以下方法定義第個(gè)長(zhǎng)度可變的序列并計(jì)算它同樣本序列庫集合的相似度。

第一步:設(shè)定,,。

第二步:如果,根據(jù)(1)式計(jì)算;否則,結(jié)束序列定義和相似度計(jì)算過程。

第三步:如果(即與中的某個(gè)序列相同),則,,,,,并返回執(zhí)行第二步;否則,。

第四步:如果,返回執(zhí)行第二步;如果,則,,,,,并返回執(zhí)行第二步。

按照以上方法進(jìn)行變長(zhǎng)序列的定義和相似度計(jì)算,可得到按時(shí)間順序排列的相似度輸出值序列,其中為中的變長(zhǎng)序列個(gè)數(shù),,對(duì)此序列進(jìn)行加窗濾噪處理,得到相似度判決值,對(duì)此值設(shè)定一個(gè)門限,若它大于,將被監(jiān)測(cè)用戶判為正常用戶,否則,將其判為異常用戶。采用均值濾噪算法時(shí)的相似度判決值為:

(2)

式中表示用戶第個(gè)變長(zhǎng)序列對(duì)應(yīng)時(shí)間點(diǎn)上的相似度判決值(模型在中第個(gè)變長(zhǎng)序列之后的每個(gè)序列對(duì)應(yīng)時(shí)間點(diǎn)上都做一次判決),為窗長(zhǎng)度,它是一個(gè)很重要的參數(shù),決定了從被監(jiān)測(cè)用戶行為發(fā)生到檢測(cè)系統(tǒng)對(duì)其行為做出判斷的最短時(shí)間(即檢測(cè)時(shí)間)。

3.2 模型的分析與比較

我們提出的變長(zhǎng)命令序列檢測(cè)模型主要有以下幾個(gè)特點(diǎn):

(1)用多種長(zhǎng)度不同的命令序列表示正常用戶的行為模式,并針對(duì)每種命令序列建立一個(gè)樣本序列庫,這可以更好地反映正常用戶的實(shí)際行為輪廓。

(2)以長(zhǎng)度可變的序列為單位進(jìn)行相似度賦值,其實(shí)質(zhì)是在被監(jiān)測(cè)用戶命令流中進(jìn)行行為模式挖掘。行為模式挖掘過程中,以當(dāng)前命令為起點(diǎn)組成多個(gè)長(zhǎng)度不同的序列,并按照長(zhǎng)度從大到小的順序依次同相應(yīng)的樣本序列庫進(jìn)行比較,如果其中一個(gè)序列同相應(yīng)樣本序列庫中的某個(gè)序列相同,則認(rèn)為挖掘到一個(gè)行為模式,將此序列提取出來并進(jìn)行相似度賦值,序列長(zhǎng)度越大,所賦的值也越大,如果任何一個(gè)序列同相應(yīng)樣本序列庫中的序列都不相同,則將當(dāng)前命令提取出來作為長(zhǎng)度為1的序列,并將它與樣本序列庫的相似度賦以0值;然后,再以此序列之后的下一個(gè)命令為起點(diǎn)組成多個(gè)序列繼續(xù)進(jìn)行挖掘和賦值。

Lane T等人的定長(zhǎng)序列檢測(cè)模型關(guān)心的是以當(dāng)前命令為起點(diǎn)的定長(zhǎng)序列與正常用戶各個(gè)行為模式之間的最大相似程度,而變長(zhǎng)序列檢測(cè)模型關(guān)心的是以當(dāng)前命令為起點(diǎn)的多個(gè)長(zhǎng)度不同的序列是否能夠同正常用戶的某個(gè)行為模式完全匹配。

(3)定長(zhǎng)序列檢測(cè)模型對(duì)正常用戶和異常用戶的檢測(cè)時(shí)間是相同的。變長(zhǎng)序列檢測(cè)模型則不然,其檢測(cè)時(shí)間為個(gè)變長(zhǎng)序列持續(xù)時(shí)間(不考慮模型的計(jì)算時(shí)間),設(shè)變長(zhǎng)序列的平均長(zhǎng)度為,則平均檢測(cè)時(shí)間為個(gè)命令持續(xù)時(shí)間;當(dāng)被監(jiān)測(cè)用戶是正常用戶時(shí),在其命令流中挖掘到的行為模式會(huì)比較多,相對(duì)較大,最大可為,當(dāng)被監(jiān)測(cè)用戶是異常用戶時(shí),在其命令流中只能挖掘到很少的(正常用戶的)行為模式,相對(duì)較?。ㄗ钚】蔀?);所以,模型對(duì)異常用戶的平均檢測(cè)時(shí)間相對(duì)要短。

(4)此模型需要建立多個(gè)樣本序列庫,因而對(duì)檢測(cè)系統(tǒng)數(shù)據(jù)存儲(chǔ)空間的需求相對(duì)較大。

4 實(shí)驗(yàn)結(jié)果

我們進(jìn)行了分組實(shí)驗(yàn),每組實(shí)驗(yàn)中將一個(gè)用戶設(shè)為正常用戶,而將其他三個(gè)設(shè)為異常用戶,分別采用兩種模型進(jìn)行訓(xùn)練和測(cè)試;正常用戶的前個(gè)命令用于模型的訓(xùn)練(建立樣本序列庫),正常用戶和異常用戶的后個(gè)命令用于模型檢測(cè)性能的測(cè)試。在定長(zhǎng)序列檢測(cè)模型中,序列長(zhǎng)度為;在變長(zhǎng)序列檢測(cè)模型中,序列長(zhǎng)度集合。兩種模型中,每種樣本序列庫均由正常用戶的近個(gè)序列中出現(xiàn)概率大于的序列組成,檢測(cè)時(shí)采用均值濾噪算法計(jì)算判決值。

為了在對(duì)異常用戶的平均檢測(cè)時(shí)間相同的情況下比較兩種模型的性能,我們做了四組實(shí)驗(yàn),四個(gè)用戶各在一組實(shí)驗(yàn)中被設(shè)為正常用戶。每組實(shí)驗(yàn)中,采用變長(zhǎng)序列檢測(cè)模型時(shí),用于性能測(cè)試的各異常用戶命令流(包含個(gè)命令)中的變長(zhǎng)序列個(gè)數(shù)平均約為,因此,我們將變長(zhǎng)序列檢測(cè)模型的窗長(zhǎng)度設(shè)為,而將定長(zhǎng)序列檢測(cè)模型的窗長(zhǎng)度設(shè)為,以保證兩種模型對(duì)異常用戶的平均檢測(cè)時(shí)間基本相同。實(shí)驗(yàn)中通過調(diào)整判決門限可以得到不同虛警概率情況下對(duì)三個(gè)異常用戶的平均檢測(cè)概率。表1給出了USER4被設(shè)為正常用戶時(shí)的一組實(shí)驗(yàn)結(jié)果。

表1 USER4被設(shè)為正常用戶時(shí)的實(shí)驗(yàn)結(jié)果

虛警概率

0.001

0.005

0.010

0.050

定長(zhǎng)序列模型的 平均檢測(cè)概率

0.67

0.70

0.76

0.79

0.96

變長(zhǎng)序列模型的 平均檢測(cè)概率

0.83

0.86

0.88

0.92

0.99

根據(jù)表1的實(shí)驗(yàn)結(jié)果,在虛警概率較低的區(qū)間,變長(zhǎng)序列檢測(cè)模型對(duì)應(yīng)的平均檢測(cè)概率相對(duì)定長(zhǎng)序列檢測(cè)模型有明顯的提高。其余三組實(shí)驗(yàn)的結(jié)果也證明了這一點(diǎn),這里不再一一列出。

5 結(jié)論

本文提出一種新的基于機(jī)器學(xué)習(xí)的IDS用戶行為異常檢測(cè)模型,并利用UNIX用戶的shell命令數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,新模型的檢測(cè)性能同Lane T等人提出的檢測(cè)模型相比有較大改善。由于模型中的學(xué)習(xí)方法和檢測(cè)算法對(duì)不同的檢測(cè)數(shù)據(jù)有一定的適應(yīng)性,因而此模型也可以用于shell命令之外其它數(shù)據(jù)類型(如系統(tǒng)調(diào)用)的IDS,但具體的應(yīng)用范圍及檢測(cè)性能還需要進(jìn)一步的研究和實(shí)驗(yàn)。

篇6

Statistical and Machine

Learning Approaches for

Network Analysis

2012,344p

Hardcover

ISBN9783527331833

M·德默等編

圖形結(jié)構(gòu)被用于計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)信息時(shí),對(duì)圖形信息進(jìn)行統(tǒng)計(jì)分析就成為可能。生物信息學(xué)、分子與系統(tǒng)生物學(xué)、理論物理、計(jì)算機(jī)科學(xué)、化學(xué)、工程等多個(gè)領(lǐng)域都在利用這一特點(diǎn)充分發(fā)揮計(jì)算機(jī)在分析和統(tǒng)計(jì)方面的優(yōu)勢(shì)。本書的一個(gè)重要特點(diǎn)就是將諸如圖論、機(jī)器學(xué)習(xí)及統(tǒng)計(jì)數(shù)據(jù)分析之類的理論相互結(jié)合,形成一個(gè)新領(lǐng)域,以交叉學(xué)科的方式探索復(fù)雜網(wǎng)絡(luò)。基因組、蛋白質(zhì),信號(hào)以及代謝組學(xué)數(shù)據(jù)的大規(guī)模生成使得復(fù)雜網(wǎng)絡(luò)的構(gòu)建成為可能,它為理解生理學(xué)以及病理學(xué)狀態(tài)的分子基礎(chǔ)提供了一個(gè)嶄新的框架。網(wǎng)絡(luò)和基于網(wǎng)絡(luò)的方法用于生物學(xué)中以便表征基因組、遺傳機(jī)理以及蛋白質(zhì)信號(hào)。疾病被看作關(guān)鍵細(xì)胞網(wǎng)絡(luò)的異常干擾。如今,在對(duì)諸如癌癥、糖尿病等的復(fù)雜疾病的干預(yù)中,就使用網(wǎng)絡(luò)理論來分析。

本書共有11章:1.重構(gòu)及劃分生物網(wǎng)絡(luò)計(jì)算方法概論; 2.復(fù)雜網(wǎng)絡(luò)入門:度量、統(tǒng)計(jì)性質(zhì)及模型; 3.進(jìn)化中的生物網(wǎng)絡(luò)建模; 4.內(nèi)含動(dòng)力學(xué)的生物網(wǎng)絡(luò)的模塊性配置; 5.統(tǒng)計(jì)概算機(jī)對(duì)管理網(wǎng)絡(luò)大規(guī)模因果推理的影響; 6.加權(quán)頻譜分布:網(wǎng)絡(luò)結(jié)構(gòu)分析的度量; 7.進(jìn)化中的隨機(jī)二部圖的結(jié)構(gòu); 8.圖形內(nèi)核; 9.用于早老性癡呆病的基于網(wǎng)絡(luò)的信息協(xié)同分析; 10.結(jié)構(gòu)化數(shù)據(jù)中基于密度的集合枚舉; 11.采用加權(quán)圖形內(nèi)核的下位詞析取。

本書第1主編是奧地利健康與生命大學(xué)生物信息學(xué)和轉(zhuǎn)化研究所所長(zhǎng),他在生物信息學(xué)、系統(tǒng)生物學(xué)和應(yīng)用離散數(shù)學(xué)領(lǐng)域130篇。他是Wiley出版的《復(fù)雜疾病醫(yī)學(xué)生物統(tǒng)計(jì)學(xué)》《復(fù)雜網(wǎng)絡(luò)分析》和《微陣列數(shù)據(jù)分析》等書的合作編者。

本書可用作應(yīng)用離散數(shù)學(xué)、生物信息學(xué)、模式識(shí)別、計(jì)算機(jī)科學(xué)專業(yè)跨學(xué)科研究生課程的補(bǔ)充讀物,對(duì)于這些領(lǐng)域的研究人員和專業(yè)人員,也是一本有價(jià)值的參考書。

胡光華,退休高工

(原中國科學(xué)院物理學(xué)研究所)

篇7

關(guān)鍵詞:域名系統(tǒng)拒絕服務(wù),神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

 

1 引言

早期的DNS是基于不可靠傳遞的用戶數(shù)據(jù)報(bào)協(xié)議(UDP)設(shè)計(jì)的,而且DNS的安全性在當(dāng)時(shí)并不是大問題,因?yàn)樵缙诘脑O(shè)計(jì)足以滿足互聯(lián)網(wǎng)的需求?,F(xiàn)在,DNS已成為互聯(lián)網(wǎng)和具有一定規(guī)模的專用網(wǎng)絡(luò)的運(yùn)營的一項(xiàng)重要服務(wù),所以有必要確保DNS系統(tǒng)避免任何未經(jīng)授權(quán)的訪問。本文的第一個(gè)目標(biāo)是評(píng)估對(duì)DNS的不同類型的DoS攻擊。這些攻擊識(shí)別模式促使我們通過改變不同的參數(shù)模擬不同的攻擊方案來產(chǎn)生所需的數(shù)據(jù)。

最常見的兩種DNS拒絕服務(wù)攻擊是直接DoS攻擊和放大攻擊。首先,攻擊者試圖通過從單個(gè)或多個(gè)源發(fā)送過多流量來擊垮服務(wù)器。因此,這將導(dǎo)致目標(biāo)服務(wù)器接收大量查詢數(shù)據(jù)包。被DoS攻擊淹沒的域名服務(wù)器將經(jīng)受丟失包和不能總是回復(fù)所有DNS請(qǐng)求。參考文獻(xiàn)[1]指出DNS數(shù)據(jù)流的數(shù)據(jù)包長(zhǎng)度小,況且異常數(shù)據(jù)包相似性使得檢測(cè)過程更加困難。

另一方面,攻擊者建立最先進(jìn)和典型的DoS攻擊類型,稱為放大攻擊,來增強(qiáng)一般DOS攻擊的影響。這種攻擊類型命名為放大是因?yàn)楣粽咦プ×诵〔樵兛梢援a(chǎn)生更大量UDP響應(yīng)數(shù)據(jù)包這個(gè)事實(shí)[2]?,F(xiàn)在,DNS協(xié)議(RFC2671)被攻擊者用來擴(kuò)大放大系數(shù)。例如,一個(gè)60字節(jié)的DNS請(qǐng)求可以得到超過4000個(gè)字節(jié)的回應(yīng)。這將產(chǎn)生超過60的放大因素。多位研究者研究過放大攻擊的影響。根據(jù)他們的分析,這些攻擊模式包含了龐大數(shù)量的大于512字節(jié)的標(biāo)準(zhǔn)DNS數(shù)據(jù)包的非標(biāo)準(zhǔn)包[3]。

2 數(shù)據(jù)集生成仿真模型

訪問流量仿真真實(shí)環(huán)境較難,所以我們利用了網(wǎng)絡(luò)模擬器。據(jù)我們所知,可用的DNS的DoS攻擊生成數(shù)據(jù)集并不存在。因此,我們的實(shí)驗(yàn)用模擬生成所需的數(shù)據(jù)。我們的模型使用NS-2(版本2.28)的OTcl程序進(jìn)行模擬,它用于構(gòu)造DNS不同的DoS攻擊。

我們的模擬網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)包含一臺(tái)合法的客戶機(jī)、一個(gè)攻擊者和兩臺(tái)服務(wù)器。所有節(jié)點(diǎn)都連接到同一個(gè)路由器。所有鏈路都是100Mbps和10ms延遲,除了目標(biāo)服務(wù)器和路由器之間鏈路是10Mbps和10ms延遲。我們以落尾排隊(duì)策略使用一個(gè)100個(gè)數(shù)據(jù)包大小的隊(duì)列。網(wǎng)絡(luò)中有兩種類型的流量的產(chǎn)生,即合法流量和攻擊流量。我們模擬修改了服務(wù)器的應(yīng)用程序,請(qǐng)求間隔時(shí)間固定為10秒。攻擊者期望用過剩的流量淹沒目標(biāo)域名服務(wù)器。DOS流量模擬成恒定比特率(CBR)源。CBR由NS-2中CBR流量生成器生成。我們選取不同的延遲值來確定攻擊開始時(shí)間,來應(yīng)對(duì)各種變化。

3 系統(tǒng)結(jié)構(gòu)

本節(jié)提出了一種新型DNS的DoS攻擊檢測(cè)系統(tǒng),它使用了一種機(jī)器學(xué)習(xí)引擎來檢測(cè)和分類攻擊。該IDS是一個(gè)基于IDS(NNIDS)的網(wǎng)絡(luò)節(jié)點(diǎn),它可實(shí)施在域名服務(wù)器上以達(dá)到檢測(cè)攻擊的目的。圖1用輸入輸出數(shù)據(jù)類型給出了我們所提出的系統(tǒng)的總體結(jié)構(gòu)。

該系統(tǒng)從收集域名服務(wù)器收到的數(shù)據(jù)包流開始。接下來,預(yù)處理器基于一個(gè)管理員指定的20秒時(shí)間窗口統(tǒng)計(jì)分析流量,超過了最大查找延遲??赡軜?biāo)識(shí)域名服務(wù)器收到的DNS流量的參數(shù),構(gòu)成了分類器的輸入定義如下:

① 收到的DNS吞吐量需定義為服務(wù)器所收到的比特?cái)?shù)量。我們測(cè)量了指定的時(shí)間窗口指標(biāo)的平均值。

② 服務(wù)器在監(jiān)測(cè)時(shí)間窗口接收的數(shù)據(jù)包平均長(zhǎng)度。,域名系統(tǒng)拒絕服務(wù)。,域名系統(tǒng)拒絕服務(wù)。

③ 丟失包定義為由于洪水攻擊流量沒能達(dá)到其目標(biāo)的丟失DNS數(shù)據(jù)包的數(shù)量。,域名系統(tǒng)拒絕服務(wù)。,域名系統(tǒng)拒絕服務(wù)。

在預(yù)處理流量和基于指定特征選擇產(chǎn)生所需數(shù)據(jù)集后,機(jī)器學(xué)習(xí)引擎得以應(yīng)用。,域名系統(tǒng)拒絕服務(wù)。四種不同的機(jī)器學(xué)習(xí)引擎已為我們的系統(tǒng)所評(píng)估,其中三個(gè)在神經(jīng)網(wǎng)絡(luò)分類器范疇,最后一個(gè)是基于支持向量的典型算法。這些引擎在接下來的章節(jié)中將詳細(xì)介紹。

圖1 系統(tǒng)框架

3.1 BP神經(jīng)網(wǎng)絡(luò)

本文中,我們嘗試找到優(yōu)化的BP網(wǎng)絡(luò)來有效地檢測(cè)和對(duì)不同的DNS的DOS攻擊分類。我們的BP神經(jīng)網(wǎng)絡(luò)有三個(gè)層次。輸入層的單元數(shù)目適合于輸入矢量的特征,即DNS流量的三大特征。輸出層還有三個(gè)單元表示正常和DoS攻擊的不同狀態(tài): [0 0 0]表示正常狀態(tài),[0 0 1]表示直接DoS攻擊以及[0 1 0]表示放大攻擊。我們?yōu)锽P網(wǎng)絡(luò)訓(xùn)練過程做出下列主要假設(shè):時(shí)代數(shù)= 500,平均方差(MSE)= 0.00001,培訓(xùn)功能=列文伯格-馬夸爾特法反向傳播(trainlm),激活功能=tan-sigmoid函數(shù)。我們的網(wǎng)絡(luò)優(yōu)化結(jié)構(gòu),發(fā)現(xiàn)隱藏神經(jīng)元的數(shù)量從3到13個(gè)不等。該系統(tǒng)在隱藏層的最佳精度是7個(gè)神經(jīng)元。

3.2 RBF神經(jīng)網(wǎng)絡(luò)

為了實(shí)現(xiàn)一個(gè)優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)的分類問題,我們需要為隱藏單元和RBF中心和寬度指定激活函數(shù)。隱藏層主要使用的激活函數(shù)是高斯函數(shù),它已經(jīng)用于我們的RBF分類器的隱藏單元。質(zhì)心位置已用K-means聚類算法選擇,接著寬度參數(shù)計(jì)算公式如下:

由于要求高計(jì)算能力,我們初步測(cè)試中不可能獲取與BP神經(jīng)網(wǎng)絡(luò)相同的MSE。因此,我們?cè)O(shè)定MSE值0.001。

3.3 SOM神經(jīng)網(wǎng)絡(luò)

在這個(gè)實(shí)驗(yàn)中,三個(gè)特征的輸入向量因輸入值的差別很大已被歸一。如果原始數(shù)據(jù)被直接應(yīng)用到網(wǎng)絡(luò),那么具有較高值的輸入樣本可能會(huì)導(dǎo)致抑制較小值的影響。因此,下面的公式給出標(biāo)準(zhǔn)的規(guī)范化:

測(cè)試不同數(shù)目的神經(jīng)元,以找到最佳的執(zhí)行網(wǎng)絡(luò)。,域名系統(tǒng)拒絕服務(wù)。查看流量數(shù)據(jù)使用的分類器的輸出,我們得到了同樣的結(jié)果,并且注意到所有正常流量在指定范圍內(nèi)聚集,而可疑流量在顯示可能攻擊群的外面。當(dāng)我們對(duì)結(jié)果充滿信心時(shí),受測(cè)試數(shù)據(jù)控制訓(xùn)練好的網(wǎng)絡(luò)得以評(píng)估。因此,實(shí)施SOM神經(jīng)網(wǎng)絡(luò)的主要假設(shè)如下:時(shí)代數(shù)= 1000,神經(jīng)元數(shù)目= 25,相鄰?fù)負(fù)? Hextop(六角層拓?fù)浜瘮?shù)),距離函數(shù)= Linkdist,預(yù)訂階段學(xué)習(xí)率= 0.9,預(yù)訂階段步驟= 1000,調(diào)整階段學(xué)習(xí)率= 0.02,調(diào)整階段相鄰距離= 1。

3.4 支持向量機(jī)

SVM是最近入侵檢測(cè)系統(tǒng)中使用的另一種學(xué)習(xí)與軟計(jì)算技術(shù)?;镜腟VM算法是為分類對(duì)象分為兩類而設(shè)計(jì)的,但許多現(xiàn)實(shí)世界的問題有兩種以上的處理方法。在我們的實(shí)驗(yàn)中,實(shí)施一對(duì)所有的方案是為解決這個(gè)問題的。它構(gòu)造3位SVM分類器,每個(gè)分類器將其中一個(gè)類從其余類分開。第i 個(gè)SVM是利用第i類正標(biāo)簽(+1)的訓(xùn)練集進(jìn)行訓(xùn)練,而負(fù)標(biāo)簽(-1)則為其他。最后,我們的測(cè)試數(shù)據(jù)的樣本歸為第i類,它擁有三種分類器之間的最大值。

在訓(xùn)練階段, 應(yīng)提供具有相應(yīng)參數(shù)的適當(dāng)函數(shù)。這將是一個(gè)耗時(shí)的過程,因?yàn)橛?xùn)練的機(jī)器使用不同的內(nèi)核參數(shù),且當(dāng)中只有一個(gè)是測(cè)試過程中選為表現(xiàn)最好的。

三個(gè)徑向內(nèi)核分別為1.5、10和5伽馬的支持向量機(jī)和最佳正規(guī)參數(shù)C= 100、1和1000000用來實(shí)施三個(gè)分類器。徑向基礎(chǔ)內(nèi)核公式如下:

4 系統(tǒng)評(píng)估

為評(píng)估我們所提出的系統(tǒng),定義了下列性能指標(biāo):

精度,是指歸為總體數(shù)據(jù)中準(zhǔn)確類型的數(shù)據(jù)比例。準(zhǔn)確的情況是真陽性(TP)和真陰性(TN),而虛假的檢測(cè)情況是假陽性(FP)和假陰性(FN)。該系統(tǒng)的精度計(jì)算公式如下:

檢測(cè)率(DR),是指在所有攻擊中檢測(cè)到的攻擊所占的比例。兩種攻擊的指標(biāo)按下列公式計(jì)算:

誤報(bào)率(FAR),是指被分類器錯(cuò)誤分類的網(wǎng)絡(luò)流量的百分比。其計(jì)算公式如下:

表1:不同分類器的性能比較

表1列出了三個(gè)神經(jīng)網(wǎng)絡(luò)分類器以及SVM的性能比較。結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)優(yōu)于本文實(shí)現(xiàn)的其他類型的分類器。它給我們提供了以可接受的誤報(bào)率對(duì)DNS的拒絕服務(wù)的良好的檢測(cè)率。

5 結(jié)束語

本文介紹了DNS的兩個(gè)不同類型的DoS攻擊,直接DoS和放大攻擊。對(duì)DNS流量的DoS攻擊的影響的調(diào)查使我們發(fā)現(xiàn)可疑行為?;谶@些模式,分析測(cè)量所需的流量數(shù)據(jù)通過使用最靈活的網(wǎng)絡(luò)模擬器NS - 2進(jìn)行模擬。最后,提出了基于機(jī)器學(xué)習(xí)的系統(tǒng),通過幾種流量統(tǒng)計(jì)來檢測(cè)和分類DNS的DoS攻擊。兩種不同的機(jī)器學(xué)習(xí)算法為探測(cè)器引擎進(jìn)行了評(píng)估,也即神經(jīng)網(wǎng)絡(luò)分類器和支持向量機(jī)。性能比較結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)以對(duì)直接DoS攻擊99.55%的檢測(cè)率優(yōu)于其他分類器,97.82%放大攻擊檢測(cè)率,99%的準(zhǔn)確率,以及0.28%的誤報(bào)率。

【參考文獻(xiàn)】

[1]Y. Wang, M. Hu, B. Li and B. Yan, Tracking anomalous behaviors of name serversby mining DNS traffic, LECTURE NOTES IN COMPUTER SCIENCE,p351-357, 2006

[2]R. Vaughn and G. Evron. DNS Amplification Attacks,isotf.org/news/

DNS-Amplification-Attacks.pdf.Accessed,Nov. 2008

篇8

關(guān)鍵詞:圖像處理;機(jī)器學(xué)習(xí);邏輯回歸;梯度下降

中圖分類號(hào):TP391.41

1 背景簡(jiǎn)介

現(xiàn)今,人與計(jì)算機(jī)的交互活動(dòng)越來越成為人們?nèi)粘I畹囊粋€(gè)重要組成部分。傳統(tǒng)的人機(jī)交互存在各種缺陷,如:必須使用鍵盤、鼠標(biāo)或操縱桿方能完成人機(jī)交互。因此,新興的交互方式應(yīng)運(yùn)而生,其中動(dòng)態(tài)手勢(shì)識(shí)別逐漸成為人機(jī)交互中最熱門的新興交互方式之一。動(dòng)態(tài)手勢(shì)識(shí)別采用手指的形態(tài)來進(jìn)行標(biāo)記和識(shí)別,從而操控計(jì)算機(jī),在人機(jī)交互過程中發(fā)揮越來越重要的作用。因此,體感手勢(shì)這一課題意義深遠(yuǎn),具有廣闊的實(shí)際應(yīng)用前景。

2 系統(tǒng)功能介紹

2.1 定義人機(jī)交互手勢(shì):通過在手指上面套上兩種顏色鮮明的指環(huán),規(guī)定控制方向的向上,向下,向左,向右四種手勢(shì),點(diǎn)擊以及縮小,放大等手勢(shì)操作。

2.2 在OpenCV平臺(tái)上面,利用CamShift算法來獲取多個(gè)動(dòng)態(tài)手勢(shì)點(diǎn)的位置。

2.3 將多個(gè)位置點(diǎn)的視頻流數(shù)據(jù)利用機(jī)器學(xué)習(xí)中的線性回歸,梯度下降算法,得出相應(yīng)的手勢(shì)操作結(jié)果。

2.4 利用手勢(shì)操作的結(jié)果,利用無線網(wǎng)絡(luò)傳輸數(shù)據(jù)來控制鼠標(biāo)的移動(dòng)/利用紅外數(shù)據(jù)來控制電視機(jī)電臺(tái)切換以及音量控制,替代遙控器的功能。

3 理論算法

3.1 Camshift算法介紹。Camshift算法是MeanShift算法的改進(jìn),稱為連續(xù)自適應(yīng)的MeanShift算法。

Camshift算法可以分為三個(gè)部分:(1)計(jì)算色彩投影圖:將圖像從RGB顏色空間轉(zhuǎn)換到HSV顏色空間,對(duì)H分量進(jìn)行直方圖統(tǒng)計(jì),將圖像中每個(gè)像素的值用其顏色出現(xiàn)的概率進(jìn)行替換,由此得到顏色概率分布圖。(2)MeanShift尋優(yōu)算法:通過不斷迭代計(jì)算得到最優(yōu)搜索窗口的位置和大小。(3)CamShift跟蹤算法:在視頻序列的每一幀當(dāng)中都運(yùn)用meanShift,并將上一幀的MeanShift結(jié)果作為下一幀的初始值,如此不斷循環(huán)迭代,就可以實(shí)現(xiàn)目標(biāo)的跟蹤了。

3.2 邏輯回歸以及梯度下降算法

我們利用邏輯回歸函數(shù)可以來實(shí)現(xiàn)有監(jiān)督學(xué)習(xí)的多分類實(shí)現(xiàn)。

4.3 手勢(shì)操作的機(jī)器實(shí)現(xiàn)。通過提取視頻流中動(dòng)態(tài)手勢(shì)點(diǎn)的特征信息,通過機(jī)器學(xué)習(xí)的決策分類之后獲得了不同手勢(shì)的操作。利用API函數(shù)GetCursorPos SetCursorPos mouse_event來操作鼠標(biāo)的移動(dòng)/點(diǎn)擊/滾作。

4.4 實(shí)驗(yàn)結(jié)果。經(jīng)過機(jī)器學(xué)習(xí)算法提取的手勢(shì)點(diǎn)坐標(biāo):

5 結(jié)束語

本文提出了基于Camshift算法結(jié)合機(jī)器學(xué)習(xí)分類算法實(shí)現(xiàn)了手勢(shì)多點(diǎn)跟蹤以及簡(jiǎn)單的鼠標(biāo)控制操作。由于Camshift算法對(duì)顏色要求比較高,在實(shí)際情景中對(duì)顏色要求很苛刻。而且為了更好更精準(zhǔn)的對(duì)鼠標(biāo)進(jìn)行操控,該算法需要戴實(shí)驗(yàn)用的指環(huán)套,并且手勢(shì)類型不夠多樣化。在算法的準(zhǔn)確性上面還有待改進(jìn)。

參考文獻(xiàn):

[1]Gray Bradski& Adrian Kaebler 著,于仕琪,劉瑞禎,譯.學(xué)習(xí)OpenCV(中文版)[M].清華大學(xué)出版社,2009-10.

[2]于仕琪,劉瑞禎.OpenCV教程(基礎(chǔ)篇)[M].北京:航空大學(xué)出版社,2007-6.

[3]斯蒂格 尤里奇 威德曼 著,楊少榮,譯.機(jī)器視覺算法與應(yīng)用[M].清華大學(xué)出版社,2008-11.

[4]西剎子.安防天下:智能網(wǎng)絡(luò)視頻監(jiān)控技術(shù)詳解與實(shí)踐[M].清華大學(xué)出版社,2010-2.

[5]汪光華.智能安防:視頻監(jiān)控全面解析與實(shí)例分析[M].機(jī)械工業(yè)出版社,2012-8.

[6]康威 John Myles White 著,陳開江,劉逸哲,孟曉楠,譯.機(jī)器學(xué)習(xí):實(shí)用案例解析[M].機(jī)械工業(yè)出版社,2013-4.

作者簡(jiǎn)介:高鑫(1992.7.20-),男,浙江寧波人,學(xué)生,本科,研究方向:信息安全。

篇9

>> 機(jī)器人智能化研究的關(guān)鍵技術(shù)與發(fā)展展望 智能化綠色建筑在辦公園區(qū)中的實(shí)踐及展望 能效管理在智能化建筑中的應(yīng)用及發(fā)展趨勢(shì) 基于車聯(lián)網(wǎng)的汽車智能化發(fā)展研究 汽車智能化技術(shù)的發(fā)展趨勢(shì)研究 汽車基本構(gòu)造及智能化的研究 綠色建筑中的智能化技術(shù)應(yīng)用探究 智能化技術(shù)在綠色建筑中的應(yīng)用論述 智能化技術(shù)在綠色建筑中的應(yīng)用分析 遺傳算法在智能機(jī)器人行為規(guī)劃中的應(yīng)用研究 智能化、信息化技術(shù)在紡織行業(yè)中的應(yīng)用與發(fā)展 智能化和信息化在工程機(jī)械發(fā)展中的應(yīng)用 智能化噴涂機(jī)器人的研究現(xiàn)狀及進(jìn)展 智能化數(shù)字電源的應(yīng)用與發(fā)展研究 國內(nèi)外智能化建筑的發(fā)展動(dòng)態(tài)及展望 電氣自動(dòng)化在樓宇智能化中的應(yīng)用研究 智能化技術(shù)在電氣工程自動(dòng)化中的應(yīng)用價(jià)值研究 建筑電氣自動(dòng)化在樓宇智能化中的應(yīng)用研究 智能化技術(shù)在機(jī)械工程自動(dòng)化中的應(yīng)用研究 試論固網(wǎng)智能化的應(yīng)用與展望 常見問題解答 當(dāng)前所在位置:l.

[8] 王笑京,沈鴻飛,汪林.中國智能交通系統(tǒng)發(fā)展戰(zhàn)略研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2006,6(4):9-12.

[9] 邵恩坡.發(fā)展天然氣汽車存在的問題及對(duì)策[J].節(jié)能技術(shù),2005,23(6):554-556.

[10] WicksM C.Radar the next generation2sensors as robots[C]//. IEEE Radar Conference,Washington,USA.2003:4-18.

[11] 沈,毛建國,李舜酩.單目視覺車道線識(shí)別算法及其ARM實(shí)現(xiàn)[J].南京航空航天大學(xué)學(xué)報(bào),2008,40(2):208-212.

[12] Baber J,Kolodko J,Noe T,et al.Intelligent vehicles sharing city roads[J].IEEE Transactions on Robotics & Automation Magazine,2005,12(1):44-49.

[13] Liu Y,Ozguner U,Acarman T.Performance evaluation of intervehicle communication in highway systems and in urban areas[J]. IEEE Intelligent Transport Systems,2006,153 (1) : 63-75.

[14] Chen Q,OzgunerU,Redmill K. Developing acompletely autonomous vehicle[J]. IEEE Intelligence Systems,2004,19(5) : 8-11.

[15] 張新豐,林凱,劉旺,等.汽車語控智能電器系統(tǒng)[J].汽車工程,2007,29 (7):601-605.

[16] 韓玉敏.汽車智能電子節(jié)氣門控制系統(tǒng)研究[J].交通科技與經(jīng)濟(jì),2006,8(2):87-89.

[17] 趙巖,王哈力,等.汽車智能雨刷系統(tǒng)的設(shè)計(jì)[J].電子科技,2007,2(209): 70-72.

[18] Xin J ianghui,Li Shunming,Liao Qingbin,et al. The application of fuzzy logic in exploration vehicle[C]//.International Conferenceon Fuzzy Systems and Knowledge Discovery.2007:195-203.

[19] 王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(10):1741-1752.

[20] 余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí):推進(jìn)人工智能的夢(mèng)想[J].程序員,2013(6): 22-27.

篇10

【關(guān)鍵詞】糧食 種植面積 指標(biāo)體系

一、引言

糧食種植面積是保證國家糧食供給安全的重要前提,研究糧食種植面積是十分有意義的。國家糧價(jià)收購政策、農(nóng)業(yè)從業(yè)人員、糧食進(jìn)出口貿(mào)易、農(nóng)民受教育程度、城鄉(xiāng)收入差距等因素都影響著糧食種植面積,為綜合度量各因素對(duì)糧食種植面積的影響程度,下文將建立指標(biāo)體系進(jìn)一步分析??紤]到數(shù)據(jù)的可得性,再參考現(xiàn)有文獻(xiàn)研究成果的基礎(chǔ)上,本文選取投入、產(chǎn)出及可持續(xù)發(fā)展三個(gè)方面的指標(biāo)建立有關(guān)糧食種植面積的指標(biāo)體系。為了更好的研究它們之間的關(guān)系,決定采用多元線性回歸模型、Bagging、m-Boosting回歸模型、支持向量機(jī)回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等方法分別對(duì)其進(jìn)行分析,以期得到最有效的結(jié)論。

二、方法介B

在研究變量對(duì)變量的影響或變量之間的關(guān)系時(shí),人們最先想到的是回歸,而線性回歸模型的前提假設(shè)較多且要求較高,所以現(xiàn)實(shí)數(shù)據(jù)是很難滿足這些條件,即使是滿足,還要受到其他因素的影響,近年來,隨著專家學(xué)者們對(duì)建模認(rèn)識(shí)的逐漸深入,再加上計(jì)算機(jī)技術(shù)的快速發(fā)展,出現(xiàn)了諸如決策樹、m-boosting等機(jī)器學(xué)習(xí)算法,這些算法模型在建模之前對(duì)數(shù)據(jù)沒有做出任何假定,使用的是諸如一致性、無偏性等概念進(jìn)行建模,能夠很好的解決多元線性回歸的不足,預(yù)測(cè)精度高,所以本文在建模中引入機(jī)器學(xué)習(xí)方法對(duì)糧食種植面積進(jìn)行研究。

決策樹(Decision Tree)是在已知概率的基礎(chǔ)上,通過計(jì)算預(yù)期的凈現(xiàn)值大于或者等于零的概率來評(píng)價(jià)某一項(xiàng)目運(yùn)行的風(fēng)險(xiǎn)。隨機(jī)森林是用隨機(jī)的方式建立一個(gè)“森林”,森林里面有很多的決策樹組成。Bagging與m-Boosting算法類似,區(qū)別在于Bagging訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而m-Boosting訓(xùn)練集的選擇不是獨(dú)立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān)。神經(jīng)網(wǎng)絡(luò)本質(zhì)上是人腦處理信息方式的簡(jiǎn)化模型。支持向量機(jī)(SVM,Support Vector Machines)有兩種功能,一是對(duì)數(shù)據(jù)進(jìn)行分類,二是對(duì)數(shù)據(jù)進(jìn)行回歸,目前主要用于對(duì)小樣本、非線性及高維數(shù)據(jù)進(jìn)行分類和回歸。

三、實(shí)證分析

糧食種植面積指標(biāo)體系的建立是從投入、產(chǎn)出及可持續(xù)發(fā)展三個(gè)角度出發(fā)的,投入是指種植糧食的成本,產(chǎn)出是指通過種植糧食獲得的收入,可持續(xù)發(fā)展是綜合考慮影響糧食種植面積的其他因素。具體的指標(biāo)選擇如下表:

其中:自然災(zāi)害成災(zāi)率=成災(zāi)面積/受災(zāi)面積;人力資本:受教育程度初中及以上勞動(dòng)力

比重;農(nóng)業(yè)勞動(dòng)力比重:鄉(xiāng)村就業(yè)人數(shù)占鄉(xiāng)村總?cè)丝诘谋戎?;農(nóng)業(yè)增加值比重=農(nóng)業(yè)增

加值/國內(nèi)生產(chǎn)總值。

數(shù)據(jù)來源于《中國統(tǒng)計(jì)年鑒2015》與《中國農(nóng)村統(tǒng)計(jì)年鑒2015》,時(shí)間維度為1990~2014年。糧食最低收購價(jià)格用稻谷、小麥和玉米的平均價(jià)格計(jì)算。由于我國糧食最低收購價(jià)格政策是從2005年開始實(shí)施的,故糧食的最低收購價(jià)格只有2005年之后數(shù)據(jù),2004年及之前的糧食最低收購價(jià)格用當(dāng)年糧食的最低收購價(jià)格代替。

在建模之前為了消除數(shù)量級(jí)和單位對(duì)模型精確性的影響,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,利用標(biāo)準(zhǔn)化之后的數(shù)據(jù)進(jìn)行建模,可以得出各種機(jī)器學(xué)習(xí)回歸方法關(guān)于訓(xùn)練集和測(cè)試集的錯(cuò)判率,具體如下表2:

由上表可知,利用隨機(jī)森林建模所得的訓(xùn)練集與測(cè)試集的錯(cuò)判率最低,分別為0.084與0.729,故選擇隨機(jī)森林回歸模型作為最終回歸模型。通過隨機(jī)森林回歸模型可以得到每個(gè)變量的對(duì)糧食種植面積的重要性排名,結(jié)果顯示農(nóng)業(yè)勞動(dòng)力比重、農(nóng)業(yè)機(jī)械總動(dòng)力、農(nóng)用化肥施用量、農(nóng)村居民家庭人均純收入和農(nóng)業(yè)增加值比重對(duì)糧食種植面積的影響排在前五位,其中前三名分別為勞動(dòng)力投入、機(jī)械投入和資本投入,可以看到糧食種植的投入對(duì)種植面積的影響很大,排名第四和第五的指標(biāo)屬于地區(qū)經(jīng)濟(jì)發(fā)展水平,顯然地區(qū)經(jīng)濟(jì)發(fā)展水平對(duì)種植面積的影響也是非常大的。

四、研究結(jié)論

為了保障糧食安全,我國需要將增加農(nóng)民收入放在糧食保護(hù)政策的第一位。本文從投入、產(chǎn)出及可持續(xù)發(fā)展三個(gè)角度出發(fā)建立了糧食種植面積的指標(biāo)體系,并利用多元線性、Bagging、m-Boosting回歸模型、支持向量機(jī)、決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等回歸模型分別對(duì)糧食種植面積的影響因素進(jìn)行了分析,分析表明,使用隨機(jī)森林建模方法隨機(jī)森林準(zhǔn)確度最高。對(duì)影響因素的重要性進(jìn)行度量可以發(fā)現(xiàn),排名前五位的為農(nóng)業(yè)勞動(dòng)力比重、農(nóng)業(yè)機(jī)械總動(dòng)力、農(nóng)用化肥施用量、農(nóng)村居民家庭人均純收入和農(nóng)業(yè)增加值比重,可以得到糧食最低收購價(jià)對(duì)糧食種植面積有一定的影響,但其影響力低于農(nóng)業(yè)勞動(dòng)力比重與農(nóng)村居民家庭人均純收入。

參考文獻(xiàn)

[1]王雙英,王群偉,曹澤.多指標(biāo)面板數(shù)據(jù)聚類方法及應(yīng)用――以行業(yè)一次能源消費(fèi)面板數(shù)據(jù)為例[J].數(shù)理統(tǒng)計(jì)與管理,2014,01:42-49.

[2]蘭錄平.中國糧食最低收購價(jià)政策研究[D].湖南農(nóng)業(yè)大學(xué),2013.