大數(shù)據(jù)分析技術(shù)在安全領(lǐng)域的運(yùn)用

時(shí)間:2022-12-31 09:00:34

導(dǎo)語(yǔ):大數(shù)據(jù)分析技術(shù)在安全領(lǐng)域的運(yùn)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

大數(shù)據(jù)分析技術(shù)在安全領(lǐng)域的運(yùn)用

1安全大數(shù)據(jù)分析

大數(shù)據(jù)分析技術(shù)給信息安全領(lǐng)域帶來(lái)了全新的解決方案,但是如同其它領(lǐng)域一樣,大數(shù)據(jù)的功效并非簡(jiǎn)單地采集數(shù)據(jù),而是需要資源的投入,系統(tǒng)的建設(shè),科學(xué)的分析。Gartner在2013年的報(bào)告中指出,大數(shù)據(jù)技術(shù)作為未來(lái)信息架構(gòu)發(fā)展的十大趨勢(shì)之首,具有數(shù)據(jù)量大、種類(lèi)繁多、速度快、價(jià)值密度低等特點(diǎn)。將大數(shù)據(jù)技術(shù)應(yīng)用與信息安全領(lǐng)域可實(shí)現(xiàn)容量大、成本低、效率高的安全分析能力。

1.1信息安全分析引入大數(shù)據(jù)的必要性

大數(shù)據(jù)具有“4V”的特點(diǎn):Volume、Variety、Velocity和Value,可實(shí)現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識(shí)別各種攻擊行為或安全事件,具有重大的研究意義和實(shí)用價(jià)值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)源豐富、數(shù)據(jù)種類(lèi)多、數(shù)據(jù)分析維度廣;同時(shí),數(shù)據(jù)生成的速度更快,對(duì)信息安全分析應(yīng)答能力要求也相應(yīng)增長(zhǎng)。傳統(tǒng)信息安全分析主要基于流量和日志兩大類(lèi)數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報(bào)等進(jìn)行關(guān)聯(lián)分析?;诹髁康陌踩治鰬?yīng)用主要包括惡意代碼檢測(cè)、僵木蠕檢測(cè)、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計(jì)、主機(jī)入侵檢測(cè)等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來(lái),通過(guò)高效的采集、存儲(chǔ)、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類(lèi)預(yù)測(cè)模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動(dòng)性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場(chǎng)景自身產(chǎn)生的數(shù)據(jù)、通過(guò)某種活動(dòng)或內(nèi)容“創(chuàng)建”出來(lái)的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問(wèn)題。

1.2安全大數(shù)據(jù)分析方法

安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過(guò)對(duì)海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對(duì)不同安全場(chǎng)景設(shè)計(jì)針對(duì)性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲(chǔ)和分析的優(yōu)勢(shì),從豐富的數(shù)據(jù)源中進(jìn)行深度挖掘,進(jìn)而挖掘出安全問(wèn)題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲(chǔ)、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲(chǔ)和檢索:基于大數(shù)據(jù)采集、存儲(chǔ)、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類(lèi)型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對(duì)不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對(duì)日志信息可采用Chukwa、Flume、Scribe等工具;針對(duì)流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和分析;針對(duì)格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲(chǔ)機(jī)制,通過(guò)MapReduce和Hive等分析方法,可以實(shí)時(shí)的對(duì)數(shù)據(jù)進(jìn)行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲(chǔ)和NoSQL數(shù)據(jù)庫(kù)提升了數(shù)據(jù)分析和查詢(xún)的效率,從海量數(shù)據(jù)中精確地挖掘安全問(wèn)題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計(jì)建模工具(如回歸分析、時(shí)間序列預(yù)測(cè)、多元統(tǒng)計(jì)分析理論)、機(jī)器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、隨機(jī)森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機(jī)場(chǎng))等。常用的大數(shù)據(jù)分析思路有先驗(yàn)分析方法、分類(lèi)預(yù)測(cè)分析方法、概率圖模型、關(guān)聯(lián)分析方法等??墒褂肕ahout和MLlib等分析工具對(duì)數(shù)據(jù)進(jìn)行挖掘分析。綜上,一個(gè)完備的安全大數(shù)據(jù)分析平臺(tái)應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過(guò)數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報(bào)信息等多源異構(gòu)數(shù)據(jù)進(jìn)行分布式融合分析,針對(duì)不同場(chǎng)景搭建分析模型,最終實(shí)現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢(shì)。

2安全大數(shù)據(jù)分析的典型應(yīng)用

2.1基于用戶行為的不良信息治理

中國(guó)移動(dòng)開(kāi)展了基于大數(shù)據(jù)的不良信息治理工作,主要針對(duì)垃圾短信和騷擾詐騙電話開(kāi)展基于異常行為的大數(shù)據(jù)分析。通過(guò)開(kāi)源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺(tái),采集用戶的行為數(shù)據(jù),構(gòu)建用戶行為分析模型;分別提出了異常行為分類(lèi)預(yù)測(cè)模型、統(tǒng)計(jì)預(yù)測(cè)分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶的行為數(shù)據(jù)輸入到模型中,可以精準(zhǔn)地挖掘出違規(guī)電話號(hào)碼,并且發(fā)現(xiàn)違規(guī)號(hào)碼與正常號(hào)碼之間存在大量相異的行為特征。通過(guò)用戶的行為,構(gòu)建多維度的用戶畫(huà)像數(shù)據(jù)庫(kù),支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識(shí)別等。實(shí)踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號(hào)碼,是對(duì)現(xiàn)有系統(tǒng)的有效補(bǔ)充。除此之外,中國(guó)移動(dòng)還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢(shì)感知、手機(jī)惡意軟件檢測(cè)和釣魚(yú)網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。

2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析

在互聯(lián)網(wǎng)出口進(jìn)行旁路流量監(jiān)控,使用Hadoop存儲(chǔ)及Storm、Spark流分析技術(shù),通過(guò)大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險(xiǎn)。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測(cè)事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點(diǎn)分析及協(xié)議還原等方法,進(jìn)行Web漏洞挖掘、CC攻擊檢測(cè)、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。

2.3基于安全日志的大數(shù)據(jù)分析

基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進(jìn)行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來(lái)挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機(jī)服務(wù)器日志、數(shù)據(jù)庫(kù)日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過(guò)規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來(lái)分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場(chǎng)景。基于安全日志的大數(shù)據(jù)分析已經(jīng)在國(guó)際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個(gè)設(shè)備端點(diǎn)和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以區(qū)別威脅和錯(cuò)誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機(jī)、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級(jí)等。ZettaSet海量事件數(shù)據(jù)倉(cāng)庫(kù)來(lái)分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉(cāng)庫(kù))。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個(gè)Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲(chǔ)。SDW于2011年BlackHat網(wǎng)絡(luò)安全會(huì)議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對(duì)于一個(gè)月的數(shù)據(jù)負(fù)載,傳統(tǒng)SIEM搜索需要20~60min,Hive運(yùn)行查詢(xún)只需1min左右。

2.4基于DNS的安全大數(shù)據(jù)分析

基于DNS的安全大數(shù)據(jù)分析通過(guò)對(duì)DNS系統(tǒng)的實(shí)時(shí)流量、日志進(jìn)行大數(shù)據(jù)分析,對(duì)DNS流量的靜態(tài)及動(dòng)態(tài)特征進(jìn)行建模,提取DNS報(bào)文特征:DNS分組長(zhǎng)、DNS響應(yīng)時(shí)間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報(bào)文特征,構(gòu)建異常行為模型,來(lái)檢測(cè)針對(duì)DNS系統(tǒng)的各類(lèi)流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚(yú)網(wǎng)站域名等。

2.5APT攻擊大數(shù)據(jù)分析

高級(jí)可持續(xù)性威脅(APT)攻擊通過(guò)周密的策劃與實(shí)施,針對(duì)特定對(duì)象進(jìn)行長(zhǎng)期的、有計(jì)劃的攻擊,具有高度隱蔽性、潛伏期長(zhǎng)、攻擊路徑和渠道不確定等特征?,F(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅?!罢鹁W(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺(tái)鈾濃縮離心機(jī)故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪問(wèn)日志、數(shù)據(jù)日志、資產(chǎn)庫(kù)及Web滲透知識(shí)庫(kù)等,提取系統(tǒng)指紋、攻擊種類(lèi)、攻擊時(shí)間、黑客關(guān)注度、攻擊手段類(lèi)型、行為歷史等事件特征,再基于大數(shù)據(jù)機(jī)器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強(qiáng)事中環(huán)節(jié)的威脅感知能力,同時(shí)支撐調(diào)查取證。

3總結(jié)

隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算等技術(shù)的日趨成熟,黑客網(wǎng)絡(luò)攻擊的手段和方法也日趨復(fù)雜,違規(guī)業(yè)務(wù)行為也變化多樣,給信息安全監(jiān)管和不良信息治理帶來(lái)極大的挑戰(zhàn)。傳統(tǒng)的基于特征的信息安全防御手段已很難應(yīng)對(duì)。只有充分地利用海量異構(gòu)的大數(shù)據(jù)資源和大數(shù)據(jù)分析技術(shù),才能有效防御新型攻擊。中國(guó)移動(dòng)已在不良信息治理、態(tài)勢(shì)感知、基礎(chǔ)網(wǎng)絡(luò)安全等方面開(kāi)展大數(shù)據(jù)分析應(yīng)用探索,并取得了一定的成效。電信行業(yè)面臨著復(fù)雜的網(wǎng)絡(luò)環(huán)境和多種安全挑戰(zhàn),需要體系化地建設(shè)安全大數(shù)據(jù)分析平臺(tái),利用大數(shù)據(jù)分析技術(shù),有效提升各領(lǐng)域的信息安全管控水平,為業(yè)務(wù)發(fā)展保駕護(hù)航。

作者:張濱 單位:中國(guó)移動(dòng)通信集團(tuán)公司信息安全管理與運(yùn)行中心