淺析網(wǎng)絡(luò)安全大數(shù)據(jù)分析

時(shí)間:2022-07-10 03:54:27

導(dǎo)語(yǔ):淺析網(wǎng)絡(luò)安全大數(shù)據(jù)分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

淺析網(wǎng)絡(luò)安全大數(shù)據(jù)分析

一、網(wǎng)絡(luò)安全現(xiàn)狀及主要問(wèn)題

當(dāng)前移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)及云技術(shù)等更新進(jìn)程不斷加快,數(shù)據(jù)量成指數(shù)級(jí)增長(zhǎng),人們對(duì)于大數(shù)據(jù)時(shí)代下網(wǎng)絡(luò)安全的相關(guān)問(wèn)題也越來(lái)越關(guān)注。信息技術(shù)創(chuàng)新發(fā)展伴隨的安全威脅與傳統(tǒng)安全問(wèn)題相互交織,使得網(wǎng)絡(luò)空間安全問(wèn)題日益復(fù)雜隱蔽,面臨的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)不斷加大,各種網(wǎng)絡(luò)攻擊事件層出不窮。2016年,我國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全狀況總體平穩(wěn),未出現(xiàn)影響互聯(lián)網(wǎng)正常運(yùn)行的重大網(wǎng)絡(luò)安全事件,但移動(dòng)互聯(lián)網(wǎng)惡意程序數(shù)量持續(xù)高速上漲且具有明顯趨利性;來(lái)自境外的針對(duì)我國(guó)境內(nèi)的網(wǎng)站攻擊事件頻繁發(fā)生;聯(lián)網(wǎng)智能設(shè)備被惡意控制,并用于發(fā)起大流量分布式拒絕服務(wù)攻擊的現(xiàn)象更加嚴(yán)重;網(wǎng)站數(shù)據(jù)和個(gè)人信息泄露帶來(lái)的危害不斷擴(kuò)大;欺詐勒索軟件在互聯(lián)網(wǎng)上肆虐;具有國(guó)家背景黑客組織發(fā)動(dòng)的高級(jí)持續(xù)性威脅(APT)攻擊事件直接威脅了國(guó)家安全和穩(wěn)定。由于大數(shù)據(jù)網(wǎng)絡(luò)安全攻擊事件仍呈高發(fā)態(tài)勢(shì),而且內(nèi)容多又復(fù)雜,利用大數(shù)據(jù)分析技術(shù)特有的特點(diǎn),為大規(guī)模網(wǎng)絡(luò)安全事件監(jiān)測(cè)分析提供計(jì)算支撐力量,并且對(duì)海量的基礎(chǔ)數(shù)據(jù)進(jìn)行深度挖掘及分析處理,及時(shí)監(jiān)測(cè)發(fā)現(xiàn)網(wǎng)絡(luò)安全事件,實(shí)現(xiàn)對(duì)整體網(wǎng)絡(luò)安全態(tài)勢(shì)的感知。

二、大數(shù)據(jù)基本概述及分析技術(shù)

(一)大數(shù)據(jù)基本概述

隨著信息技術(shù)全面融入社會(huì)生活,整個(gè)世界的信息量正在不斷增多,而且增長(zhǎng)的速度也在不斷加快。所謂的大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行獲取、存儲(chǔ)、管理和處理分析的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的規(guī)模之大,其在獲取、存儲(chǔ)、分析等方面已經(jīng)遠(yuǎn)遠(yuǎn)超出傳統(tǒng)軟件工具能力范圍,業(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來(lái)概括大數(shù)據(jù)的特征,分別是大量化,多樣化,快速化,價(jià)值密度低。

(二)HadoopMapReduce大數(shù)據(jù)技術(shù)

Hadoop除了提供為大家所共識(shí)的HDFS分布式數(shù)據(jù)存儲(chǔ)功能之外,還提供了叫做MapReduce的數(shù)據(jù)處理功能。HadoopMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",其來(lái)源于函數(shù)式編程語(yǔ)言或者矢量編程語(yǔ)言里的特性。Mapreduce是一個(gè)計(jì)算框架,其表現(xiàn)形式就是具有一個(gè)輸入(input),mapreduce操作這個(gè)輸入(input),通過(guò)本身定義好的計(jì)算模型,得到一個(gè)輸出(output),這個(gè)輸出就是最終需要的結(jié)果,計(jì)算模型如下圖所示:

(三)Spark大數(shù)據(jù)分析技術(shù)

Spark是一個(gè)基于內(nèi)存計(jì)算的開源的集群(分布式)計(jì)算系統(tǒng),Spark非常小巧玲瓏,由加州伯克利大學(xué)AMP實(shí)驗(yàn)室的Matei為主的小團(tuán)隊(duì)所開發(fā)。使用的語(yǔ)言是Scala,項(xiàng)目的core部分的代碼只有63個(gè)Scala文件,非常短小精悍。由于是基于內(nèi)存計(jì)算,效率要高于擁有Hadoop,Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,節(jié)省了磁盤IO耗時(shí),號(hào)稱性能比Hadoop快100倍。Spark是繼HadoopMap-Reduce之后新興的基于內(nèi)存的大數(shù)據(jù)計(jì)算框架,相對(duì)于HadoopMapReduce來(lái)說(shuō),Spark具有一定的優(yōu)勢(shì)。一是計(jì)算速度快。大數(shù)據(jù)處理首先追求的是速度。官方指出“Spark允許Hadoop集群中的應(yīng)用程序在內(nèi)存中以100倍的速度運(yùn)行,即使在磁盤上運(yùn)行也能快10倍”。二是應(yīng)用靈活。Spark在簡(jiǎn)單的Map及Reduce操作之外,還支持SQL查詢、流式查詢及復(fù)雜查詢,比如開箱即用的機(jī)器學(xué)習(xí)算法。同時(shí),用戶可以在同一個(gè)工作流中無(wú)縫地搭配這些能力,應(yīng)用十分靈活。三是兼容性好。Spark可以獨(dú)立運(yùn)行,除了可以運(yùn)行在當(dāng)下的YARN集群管理外,還可以讀取已有的任何Hadoop數(shù)據(jù)。它可以運(yùn)行在任何Hadoop數(shù)據(jù)源上,比如HBase、HDFS等。四是Spark比Hadoop更通用。Spark提供了大量的庫(kù),包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。開發(fā)者可以在同一個(gè)應(yīng)用程序中無(wú)縫組合使用這些庫(kù)。五是實(shí)時(shí)處理性能強(qiáng)。Spark很好地支持實(shí)時(shí)的流計(jì)算,依賴SparkStreaming對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。SparkStreaming具備功能強(qiáng)大的API,允許用戶快速開發(fā)流應(yīng)用程序。而且不像其他的流解決方案,比如Storm,SparkStreaming無(wú)須額外的代碼和配置,就可以做大量的恢復(fù)和交付工作。隨著UCBerkeleyAMPLab推出的新一代大數(shù)據(jù)平臺(tái)Spark系統(tǒng)的出現(xiàn)和逐步發(fā)展成熟,近年來(lái)國(guó)內(nèi)外開始關(guān)注在Spark平臺(tái)上如何實(shí)現(xiàn)各種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘并行化算法設(shè)計(jì)。

三、基于Spark技術(shù)的網(wǎng)絡(luò)安全大數(shù)據(jù)分析平臺(tái)

(一)大數(shù)據(jù)分析平臺(tái)整體架構(gòu)

本文提出了基于Spark技術(shù)的網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái),該平臺(tái)分為五層,即數(shù)據(jù)接入層、解析處理層、后臺(tái)分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)層、數(shù)據(jù)挖掘分析層、接口層,整體架構(gòu)圖如圖3。其中,數(shù)據(jù)接入層提供多源數(shù)據(jù)的接入。解析處理層負(fù)責(zé)對(duì)接入的多源數(shù)據(jù)進(jìn)行解析。后臺(tái)分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)層負(fù)責(zé)所有數(shù)據(jù)的存儲(chǔ)、讀取和更新的功能,提供基本的API供上層調(diào)用。數(shù)據(jù)挖掘分析層基于Spark等引擎,實(shí)現(xiàn)分布式數(shù)據(jù)關(guān)聯(lián)分析、特征提取、統(tǒng)計(jì)分析等安全事件挖掘能力,同時(shí)提供實(shí)時(shí)檢索與溯源能力。接口層為用戶可以查詢的功能,其中包括數(shù)據(jù)上傳、查看、任務(wù)的生成、參數(shù)設(shè)定等。

(二)網(wǎng)絡(luò)安全大數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)相關(guān)技術(shù)

表1網(wǎng)絡(luò)安全大數(shù)據(jù)分析平臺(tái)實(shí)現(xiàn)相關(guān)技術(shù)結(jié)語(yǔ)總而言之,當(dāng)前基于大數(shù)據(jù)下的網(wǎng)絡(luò)安全面臨著越來(lái)越多的挑戰(zhàn),因此我們必須高度重視大數(shù)據(jù)時(shí)代下網(wǎng)絡(luò)安全問(wèn)題,應(yīng)對(duì)好大數(shù)據(jù)分析處理工作。本文從當(dāng)前網(wǎng)絡(luò)安全現(xiàn)狀及面臨的問(wèn)題出發(fā),淺析HadoopMapReduce和Spark大數(shù)據(jù)分析技術(shù),提出基于Spark技術(shù)的網(wǎng)絡(luò)安全大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速分析,該平臺(tái)具有高效、高可擴(kuò)展性,具有很強(qiáng)的適應(yīng)性。

作者:陳平陽(yáng) 單位:國(guó)家互聯(lián)網(wǎng)應(yīng)急中心福建分中心

參考文獻(xiàn):

[1]國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心?!?016年我國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全態(tài)勢(shì)綜述》。2016.04.19

[2]鄧?yán)??;诖髷?shù)據(jù)時(shí)代下的網(wǎng)絡(luò)安全問(wèn)題分析?!墩n程教育研究:學(xué)法教法研究》,2016(18):15-15

[3]王帥,汪來(lái)富,金華敏,沈軍。網(wǎng)絡(luò)安全分析中的大數(shù)據(jù)技術(shù)應(yīng)用[J]。《電信科學(xué)》,2015,31(7):139-144

[4]詹義,方媛?;赟park技術(shù)的網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái)搭建與應(yīng)用?!痘ヂ?lián)網(wǎng)天地》,2016(2):75-78