大數(shù)據(jù)分析技術(shù)在安全領(lǐng)域的運用
時間:2022-12-31 09:00:34
導(dǎo)語:大數(shù)據(jù)分析技術(shù)在安全領(lǐng)域的運用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
大數(shù)據(jù)分析技術(shù)給信息安全領(lǐng)域帶來了全新的解決方案,但是如同其它領(lǐng)域一樣,大數(shù)據(jù)的功效并非簡單地采集數(shù)據(jù),而是需要資源的投入,系統(tǒng)的建設(shè),科學(xué)的分析。Gartner在2013年的報告中指出,大數(shù)據(jù)技術(shù)作為未來信息架構(gòu)發(fā)展的十大趨勢之首,具有數(shù)據(jù)量大、種類繁多、速度快、價值密度低等特點。將大數(shù)據(jù)技術(shù)應(yīng)用與信息安全領(lǐng)域可實現(xiàn)容量大、成本低、效率高的安全分析能力。
1.1信息安全分析引入大數(shù)據(jù)的必要性
大數(shù)據(jù)具有“4V”的特點:Volume、Variety、Velocity和Value,可實現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級增長。數(shù)據(jù)源豐富、數(shù)據(jù)種類多、數(shù)據(jù)分析維度廣;同時,數(shù)據(jù)生成的速度更快,對信息安全分析應(yīng)答能力要求也相應(yīng)增長。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報等進(jìn)行關(guān)聯(lián)分析?;诹髁康陌踩治鰬?yīng)用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計、主機入侵檢測等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類預(yù)測模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場景自身產(chǎn)生的數(shù)據(jù)、通過某種活動或內(nèi)容“創(chuàng)建”出來的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問題。
1.2安全大數(shù)據(jù)分析方法
安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過對海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對不同安全場景設(shè)計針對性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲和分析的優(yōu)勢,從豐富的數(shù)據(jù)源中進(jìn)行深度挖掘,進(jìn)而挖掘出安全問題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲和檢索:基于大數(shù)據(jù)采集、存儲、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對數(shù)據(jù)進(jìn)行存儲和分析;針對格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數(shù)據(jù)進(jìn)行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲和NoSQL數(shù)據(jù)庫提升了數(shù)據(jù)分析和查詢的效率,從海量數(shù)據(jù)中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計建模工具(如回歸分析、時間序列預(yù)測、多元統(tǒng)計分析理論)、機器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機場)等。常用的大數(shù)據(jù)分析思路有先驗分析方法、分類預(yù)測分析方法、概率圖模型、關(guān)聯(lián)分析方法等??墒褂肕ahout和MLlib等分析工具對數(shù)據(jù)進(jìn)行挖掘分析。綜上,一個完備的安全大數(shù)據(jù)分析平臺應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報信息等多源異構(gòu)數(shù)據(jù)進(jìn)行分布式融合分析,針對不同場景搭建分析模型,最終實現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢。
2安全大數(shù)據(jù)分析的典型應(yīng)用
2.1基于用戶行為的不良信息治理
中國移動開展了基于大數(shù)據(jù)的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數(shù)據(jù)分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺,采集用戶的行為數(shù)據(jù),構(gòu)建用戶行為分析模型;分別提出了異常行為分類預(yù)測模型、統(tǒng)計預(yù)測分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶的行為數(shù)據(jù)輸入到模型中,可以精準(zhǔn)地挖掘出違規(guī)電話號碼,并且發(fā)現(xiàn)違規(guī)號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構(gòu)建多維度的用戶畫像數(shù)據(jù)庫,支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識別等。實踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號碼,是對現(xiàn)有系統(tǒng)的有效補充。除此之外,中國移動還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢感知、手機惡意軟件檢測和釣魚網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。
2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析
在互聯(lián)網(wǎng)出口進(jìn)行旁路流量監(jiān)控,使用Hadoop存儲及Storm、Spark流分析技術(shù),通過大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協(xié)議還原等方法,進(jìn)行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。
2.3基于安全日志的大數(shù)據(jù)分析
基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進(jìn)行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機服務(wù)器日志、數(shù)據(jù)庫日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場景?;诎踩罩镜拇髷?shù)據(jù)分析已經(jīng)在國際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個設(shè)備端點和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以區(qū)別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級等。ZettaSet海量事件數(shù)據(jù)倉庫來分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉庫)。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲。SDW于2011年BlackHat網(wǎng)絡(luò)安全會議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對于一個月的數(shù)據(jù)負(fù)載,傳統(tǒng)SIEM搜索需要20~60min,Hive運行查詢只需1min左右。
2.4基于DNS的安全大數(shù)據(jù)分析
基于DNS的安全大數(shù)據(jù)分析通過對DNS系統(tǒng)的實時流量、日志進(jìn)行大數(shù)據(jù)分析,對DNS流量的靜態(tài)及動態(tài)特征進(jìn)行建模,提取DNS報文特征:DNS分組長、DNS響應(yīng)時間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構(gòu)建異常行為模型,來檢測針對DNS系統(tǒng)的各類流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網(wǎng)站域名等。
2.5APT攻擊大數(shù)據(jù)分析
高級可持續(xù)性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進(jìn)行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征?,F(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅?!罢鹁W(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪問日志、數(shù)據(jù)日志、資產(chǎn)庫及Web滲透知識庫等,提取系統(tǒng)指紋、攻擊種類、攻擊時間、黑客關(guān)注度、攻擊手段類型、行為歷史等事件特征,再基于大數(shù)據(jù)機器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強事中環(huán)節(jié)的威脅感知能力,同時支撐調(diào)查取證。
3總結(jié)
隨著移動互聯(lián)網(wǎng)、云計算等技術(shù)的日趨成熟,黑客網(wǎng)絡(luò)攻擊的手段和方法也日趨復(fù)雜,違規(guī)業(yè)務(wù)行為也變化多樣,給信息安全監(jiān)管和不良信息治理帶來極大的挑戰(zhàn)。傳統(tǒng)的基于特征的信息安全防御手段已很難應(yīng)對。只有充分地利用海量異構(gòu)的大數(shù)據(jù)資源和大數(shù)據(jù)分析技術(shù),才能有效防御新型攻擊。中國移動已在不良信息治理、態(tài)勢感知、基礎(chǔ)網(wǎng)絡(luò)安全等方面開展大數(shù)據(jù)分析應(yīng)用探索,并取得了一定的成效。電信行業(yè)面臨著復(fù)雜的網(wǎng)絡(luò)環(huán)境和多種安全挑戰(zhàn),需要體系化地建設(shè)安全大數(shù)據(jù)分析平臺,利用大數(shù)據(jù)分析技術(shù),有效提升各領(lǐng)域的信息安全管控水平,為業(yè)務(wù)發(fā)展保駕護航。
作者:張濱 單位:中國移動通信集團公司信息安全管理與運行中心