卷積神經(jīng)網(wǎng)絡(luò)的算法范文
時(shí)間:2024-04-02 18:03:30
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的算法,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:樹葉識別;支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號 TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
樹葉識別與分類在對于區(qū)分樹葉的種類,探索樹葉的起源,對于人類自身發(fā)展、科普具有特別重要的意義。目前的樹葉識別與分類主要由人完成,但,樹葉種類成千上萬種,面對如此龐大的樹葉世界,任何一個(gè)植物學(xué)家都不可能知道所有,樹葉的種類,這給進(jìn)一步研究樹葉帶來了困難。為了解決這一問題,一些模式識別方法諸如支持向量機(jī)(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數(shù)據(jù)時(shí)代的到來,這些傳統(tǒng)分類算法暴露出越來越多的不足,如訓(xùn)練時(shí)間過長、特征不易提取等不足。
上世紀(jì)60年代開始,學(xué)者們相繼提出了各種人工神經(jīng)網(wǎng)絡(luò)[3]模型,其中卷積神經(jīng)網(wǎng)絡(luò)由于其對幾何、形變、光照具有一定程度的不變形,因此被廣泛應(yīng)用于圖像領(lǐng)域。其主要特點(diǎn)有:1)輸入圖像不需要預(yù)處理;2)特征提取和識別可以同時(shí)進(jìn)行;3)權(quán)值共享,大大減少了需要訓(xùn)練的參數(shù)數(shù)目,是訓(xùn)練變得更快,適應(yīng)性更強(qiáng)。
卷積神經(jīng)網(wǎng)絡(luò)在國內(nèi)研究才剛剛起步。LeNet-5[4]就是一種卷積神經(jīng)網(wǎng)絡(luò),最初用于手寫數(shù)字識別,本文研究將卷積神經(jīng)網(wǎng)絡(luò)LeNet-5模型改進(jìn)并應(yīng)用于樹葉識別中。本文首先介紹一下卷積神經(jīng)網(wǎng)絡(luò)和LeNet-5的結(jié)構(gòu),進(jìn)而將其應(yīng)用于樹葉識別,設(shè)計(jì)了實(shí)驗(yàn)方案,用卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的模式識別算法支持向量機(jī)(SVM)進(jìn)行比較,得出了相關(guān)結(jié)論,并對進(jìn)一步研究工作進(jìn)行了展望。
2人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)方面的研究很早就已開展,現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成了多領(lǐng)域、多學(xué)科交叉的獨(dú)立的研究領(lǐng)域。神經(jīng)網(wǎng)絡(luò)中最基本的單元是神經(jīng)元模型。類比生物神經(jīng)元,當(dāng)它“興奮”時(shí),就會向相連的神經(jīng)元發(fā)送化學(xué)物質(zhì),從而改變這些神經(jīng)元的狀態(tài)。人工神經(jīng)元模型如圖1所示:
上述就是一個(gè)簡單的神經(jīng)元模型。在這個(gè)模型中,神經(jīng)元接收來自n個(gè)其他神經(jīng)元傳遞過來的輸入信號,這些信號通過帶權(quán)重的w進(jìn)行傳遞,神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進(jìn)行比較,然后通過“激活函數(shù)”來產(chǎn)生輸出。
一般采用的激活函數(shù)是Sigmoid函數(shù),如式1所示:
[σz=11+e-z] (1)
該函數(shù)圖像圖2所示:
2.1多層神經(jīng)網(wǎng)絡(luò)
將上述的神經(jīng)元按一定的層次結(jié)構(gòu)連接起來,就得到了如圖3所示的多層神經(jīng)網(wǎng)絡(luò):
多層神經(jīng)網(wǎng)絡(luò)具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權(quán)重對整個(gè)網(wǎng)絡(luò)的影響都是特別重要的。在這個(gè)網(wǎng)絡(luò)中,采用的訓(xùn)練算法是隨機(jī)梯度下降算法[5],由于每一層之間都是全連接,當(dāng)訓(xùn)練樣本特別大的時(shí)候,訓(xùn)練需要的時(shí)間就會大大增加,由此提出了另一種神經(jīng)網(wǎng)絡(luò)―卷積神經(jīng)網(wǎng)絡(luò)。
2.2卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)由于在圖像分類任務(wù)上取得了非常好的表現(xiàn)而備受人們關(guān)注。發(fā)展到今天,CNN在深度學(xué)習(xí)領(lǐng)域已經(jīng)成為了一種非常重要的人工神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的核心在于通過建立很多的特征提取層一層一層地從圖片像素中找出關(guān)系并抽象出來,從而達(dá)到分類的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:
在該LeNet-5模型中,一共有6層。如上圖所示,網(wǎng)絡(luò)輸入是一個(gè)28x28的圖像,輸出的是其識別的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)通過多個(gè)“卷積層”和“采樣層”對輸入信號進(jìn)行處理,然后在連接層中實(shí)現(xiàn)與輸出目標(biāo)之間的映射,通過每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個(gè)卷積層由4個(gè)特征映射構(gòu)成,每個(gè)特征映射是一個(gè)24x24的神經(jīng)元陣列。采樣層是基于對卷積后的“平面”進(jìn)行采樣,如圖所示,在第一個(gè)采樣層中又4的12x12的特征映射,其中每個(gè)神經(jīng)元與上一層中對應(yīng)的特征映射的2x2鄰域相連接,并計(jì)算輸出??梢?,這種局部相關(guān)性的特征提取,由于都是連接著相同的連接權(quán),從而大幅度減少了需要訓(xùn)練的參數(shù)數(shù)目[6]。
3實(shí)驗(yàn)研究
為了將LeNet-5卷積網(wǎng)絡(luò)用于樹葉識別并檢驗(yàn)其性能,本文收集了8類樹葉的圖片,每一類有40張照片,如圖5所示的一張樹葉樣本:
本文在此基礎(chǔ)上改進(jìn)了模型,使用了如圖6卷積神經(jīng)網(wǎng)絡(luò)模型:
在此模型中,第一個(gè)卷積層是由6個(gè)特征映射構(gòu)成,每個(gè)特征映射是一個(gè)28*28的神經(jīng)元陣列,其中每個(gè)神經(jīng)元負(fù)責(zé)從5*5的區(qū)域通過卷積濾波器提取局部特征,在這里我們進(jìn)行了可視化分析,如圖7所示:
從圖中可以明顯地看出,卷積網(wǎng)絡(luò)可以很好地提取樹葉的特征。為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)分類算法之間的性能,本文基于Python語言,CUDA并行計(jì)算平臺,訓(xùn)練同樣大小8類,一共320張的一批訓(xùn)練樣本,采用交叉驗(yàn)證的方法,得到了如表1所示的結(jié)論。
可見,無論是識別率上,還是訓(xùn)練時(shí)間上,卷積網(wǎng)絡(luò)較傳統(tǒng)的支持向量機(jī)算法體現(xiàn)出更好地分類性能。
4 總結(jié)
本文從人工神經(jīng)網(wǎng)絡(luò)出發(fā),重點(diǎn)介紹了卷積神經(jīng)網(wǎng)絡(luò)模型LeNet-5在樹葉識別上的各種研究并提取了特征且進(jìn)行了可視化,并與傳統(tǒng)分類算法SVM進(jìn)行比較。研究表明,該模型應(yīng)用在樹葉識別上較傳統(tǒng)分類算法取得了較好的結(jié)果,對收集的樹葉達(dá)到了92%的準(zhǔn)確率,并大大減少了訓(xùn)練所需要的時(shí)間。由于卷積神經(jīng)網(wǎng)絡(luò)有如此的優(yōu)點(diǎn),因此在人臉識別、語音識別、醫(yī)療識別、犯罪識別方面具有很廣泛的應(yīng)用前景。
本文的研究可以歸納為探討了卷積神經(jīng)網(wǎng)絡(luò)在樹葉識別上的效果,并對比了傳統(tǒng)經(jīng)典圖像分類算法,取得了較好的分類精度。
然而,本文進(jìn)行實(shí)驗(yàn)的樣本過少,當(dāng)數(shù)據(jù)集過多的時(shí)候,這個(gè)卷積神經(jīng)網(wǎng)絡(luò)算法的可行性有待我們進(jìn)一步的研究;另外,最近這幾年,又有很多不同的卷積神經(jīng)網(wǎng)絡(luò)模型出現(xiàn),我們會繼續(xù)試驗(yàn)其他的神經(jīng)網(wǎng)絡(luò)模型,力求找到更好的分類算法來解決樹葉識別的問題。
參考文獻(xiàn):
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
篇2
關(guān)鍵詞關(guān)鍵詞:人臉識別;卷積神經(jīng)網(wǎng)絡(luò);圖像識別;深度學(xué)習(xí);模式識別
DOIDOI:10.11907/rjdk.171043
中圖分類號:TP317.4
文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2017)005018603
0引言
人臉識別是近年來模式識別、圖像處理、機(jī)器視覺、神經(jīng)網(wǎng)絡(luò)及認(rèn)知科學(xué)領(lǐng)域的研究熱點(diǎn)[12]。所謂人臉識別,是指給定一個(gè)靜態(tài)人臉圖像或動態(tài)視頻,利用存儲有若干已知身份的人臉數(shù)據(jù)庫驗(yàn)證單個(gè)或多個(gè)人的身份[1]。作為生物特征識別的一個(gè)重要方面,人臉識別有著廣泛的應(yīng)用場景,如:檔案管理系統(tǒng)、公安系統(tǒng)的犯罪身份識別、銀行和海關(guān)的監(jiān)控、安全驗(yàn)證系統(tǒng)、信用卡驗(yàn)證等領(lǐng)域。在人臉識別巨大魅力的影響下,國內(nèi)互聯(lián)網(wǎng)公司也開始了人臉識別應(yīng)用的探索,如百度推出的人臉考勤系統(tǒng)、阿里支付寶的刷臉登錄等功能都是人臉識別的具體應(yīng)用。目前,人臉識別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區(qū)別分析,Belhumeur 等[4]提出了Fisherface方法;基于統(tǒng)計(jì)理論,劍橋大學(xué)的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過多級自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)[6]與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行人臉識別。上述方法雖然獲得了良好的識別正確率,但需要人工參與特征提取,然后將提取的特征送入分類器進(jìn)行識別,過程較為復(fù)雜。
卷積神經(jīng)網(wǎng)絡(luò)[79]是近年發(fā)展起來,并引起廣泛重視的一種高效深度學(xué)習(xí)識別算法,其已成為當(dāng)前語音分析和圖像處理領(lǐng)域的研究熱點(diǎn)。相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,卷積神經(jīng)網(wǎng)絡(luò)具有權(quán)值共享、局部感知的優(yōu)點(diǎn)。局部感知的網(wǎng)絡(luò)結(jié)構(gòu)使其更接近于生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享大大減少了模型學(xué)習(xí)參數(shù)的個(gè)數(shù),同時(shí)降低了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性。在圖像處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)體現(xiàn)得更為突出,多維的圖像數(shù)據(jù)可以直接作為網(wǎng)絡(luò)的輸入,特征提取和分類均集成在網(wǎng)絡(luò)中,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和訓(xùn)練分類器過程。除此之外,卷積神經(jīng)網(wǎng)絡(luò)對圖像中的位移、比例縮放、旋轉(zhuǎn)、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統(tǒng)人臉識別算法特征提取和訓(xùn)練分類器困難的問題,本文借鑒Lenet-5[10]的結(jié)構(gòu),設(shè)計(jì)一個(gè)適合ORL數(shù)據(jù)集人臉識別任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
1卷積神經(jīng)網(wǎng)絡(luò)
1.1用于ORL人臉識別的CNN
本文提出的7層卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、2個(gè)卷積層、2個(gè)降采樣層、一個(gè)全連接層和一個(gè)Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區(qū)域的大小為2×2,采用Average Pooling(相鄰小區(qū)域之間無重疊),激活函數(shù)均采用Sigmoid函數(shù)。每一個(gè)卷積層或降采樣層由多個(gè)特征圖組成,每個(gè)特征圖有多個(gè)神經(jīng)元,上層的輸出作為下一層的輸入。此外,本文實(shí)驗(yàn)學(xué)習(xí)率的取值為常數(shù)1.5,該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2卷積層
卷積神經(jīng)網(wǎng)絡(luò)中的卷積層一般稱C層[11](特征提取層)。卷積層的輸入來源于輸入層或者采樣層。卷積層中的每一個(gè)特征圖都對應(yīng)一個(gè)大小相同的卷積核,卷積層的每一個(gè)特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對應(yīng)元素累加后加一個(gè)偏置,最后通過激活函數(shù)得到。假設(shè)第l層榫砘層,則該層中第j個(gè)特征圖的計(jì)算表達(dá)式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
這里的Mj表示選擇的上一層輸出特征圖的集合。
1.3降采樣層
降采樣層是對上一層的特征圖進(jìn)行下采樣處理,處理方式是在每一個(gè)特征圖內(nèi)部的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì)。常見的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區(qū)域內(nèi)像素的平均值,而Max Pooling是取小區(qū)域內(nèi)像素的最大值。降采樣層只是對輸入的特征圖進(jìn)行降維處理,不改變特征圖的個(gè)數(shù)。假設(shè)down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個(gè)特征圖的計(jì)算表達(dá)式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4輸出層
卷積神經(jīng)網(wǎng)絡(luò)的輸出層一般為分類器層,常用的有徑向基(RBF)函數(shù)輸出單元、Sigmoid輸出單元和Softmax回歸分類器。在ORL人臉識別任務(wù)中,采用Sigmoid函數(shù)輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數(shù),每一個(gè)單元輸出值是0-1范圍內(nèi)的一個(gè)正數(shù),代表該樣本屬于該單元對應(yīng)類別的概率。數(shù)值最大的那個(gè)單元即為樣本的預(yù)測類別。假設(shè)x為全連接層的輸出,則輸出層輸出結(jié)果的計(jì)算表達(dá)式如下:
y=f(wTx+b)(3)
其中,f表示激活函數(shù),這里采用Sigmoid函數(shù),Sigmoid函數(shù)表達(dá)式如下:
f(x)=11+e-x(4)
2實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)在Windows7 64位下的Matlab 2014a中進(jìn)行,采用Matlab深度學(xué)習(xí)工具箱DeepLearnToolbox。PC的內(nèi)存8G,CPU主頻為3.2GHZ。
ORL人臉數(shù)據(jù)集是在1992年至1994年之間由AT &T Cambridge實(shí)驗(yàn)室拍攝的人臉圖像所構(gòu)成。數(shù)據(jù)集中包含40個(gè)不同人物的臉部圖像,每個(gè)人物包含10張圖像,總共400張。每個(gè)類別中的臉部圖像在不同的時(shí)間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開狀態(tài),面部是否帶有微笑的表情等;③一些面部細(xì)節(jié)上的差異,如是否佩戴眼鏡等。該數(shù)據(jù)集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。
圖2為ORL數(shù)據(jù)集中部分人臉圖像。數(shù)據(jù)集中每個(gè)原始圖像大小為92*112像素,本文實(shí)驗(yàn)中對這些圖像進(jìn)行預(yù)處理,使每一幅圖像的尺寸調(diào)整為28*28,并對每一副圖像進(jìn)行歸一化處理,這里采用簡單的除255的方式。隨機(jī)選取每一個(gè)類別的8張圖像作為訓(xùn)練樣本,剩下的2張作為測試樣本。因此,訓(xùn)練集有320個(gè)樣本,測試集有80個(gè)樣本。
2.1改變C3層卷積核個(gè)數(shù)對網(wǎng)絡(luò)的影響
卷積神經(jīng)網(wǎng)絡(luò)性能的好壞與卷積層卷積核的個(gè)數(shù)密切相關(guān),但每一個(gè)卷積層應(yīng)該設(shè)置多少個(gè)卷積濾波器,目前并沒有數(shù)學(xué)理論指導(dǎo)。為了研究卷積核個(gè)數(shù)對網(wǎng)絡(luò)最終識別準(zhǔn)確率的影響,本文保持C1層卷積核個(gè)數(shù)不變,通過改變C3層卷積核的個(gè)數(shù),形成新的網(wǎng)絡(luò)結(jié)構(gòu),用訓(xùn)練集訓(xùn)練網(wǎng)絡(luò),訓(xùn)練迭代次數(shù)均為60次,然后用測試集對每一種網(wǎng)絡(luò)結(jié)構(gòu)的性能進(jìn)行測試。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,當(dāng)C3層有10個(gè)卷積核時(shí),網(wǎng)絡(luò)模型對測試集的識別正確率最高。卷積核的個(gè)數(shù)與識別準(zhǔn)確率并不成正比關(guān)系,當(dāng)卷積核個(gè)數(shù)過多時(shí),網(wǎng)絡(luò)的識別準(zhǔn)確率會下降,這是因?yàn)樵诰矸e核個(gè)數(shù)增加的同時(shí),需要學(xué)習(xí)的參數(shù)也隨之增加,而數(shù)據(jù)集中訓(xùn)練樣本的規(guī)模較小,已不能滿足學(xué)習(xí)的要求。
2.2改變C1層卷積核個(gè)數(shù)對網(wǎng)絡(luò)的影響
由上述實(shí)驗(yàn)結(jié)果可知,C3層卷積核個(gè)數(shù)為10時(shí),網(wǎng)絡(luò)識別效果最好。因此,為了研究卷積層C1層卷積核個(gè)數(shù)對識別準(zhǔn)確率的影響, C3層保留10個(gè)卷積核,改變C1層卷積核的個(gè)數(shù)構(gòu)造新的網(wǎng)絡(luò)結(jié)構(gòu),用測試集針對不同網(wǎng)絡(luò)結(jié)構(gòu)就測試集和訓(xùn)練集的識別準(zhǔn)確率進(jìn)行測試。實(shí)驗(yàn)結(jié)果如表2所示。
從表2的實(shí)驗(yàn)結(jié)果可以得到相同結(jié)論:卷積層卷積核的個(gè)數(shù)并非越多越好,卷積核個(gè)數(shù)過多,網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)也隨之增加,當(dāng)訓(xùn)練集中樣本個(gè)數(shù)無法滿足學(xué)習(xí)需要時(shí),網(wǎng)絡(luò)識別準(zhǔn)確率就會下降。
2.3與其它算法比較
為進(jìn)一步說明本文所提卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的有效性和優(yōu)越性,將該結(jié)構(gòu)(C1層6個(gè)卷積核,C3層10個(gè)卷積核,學(xué)習(xí)率1.5)的實(shí)驗(yàn)結(jié)果與其它識別方法在ORL數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行對比,結(jié)果如表3所示。可以看出,本文所提方法比Eigface、ICA的識別效果好,與2DPCA方法的識別準(zhǔn)確率一樣,比FisherFace方法的識別準(zhǔn)確率只低了0.20%,這進(jìn)一步證實(shí)了本文所提網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
3結(jié)語
本文在理解Lenet-5結(jié)構(gòu)的基礎(chǔ)上,提出一種適用于ORL人臉數(shù)據(jù)集的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,本文提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),不僅避免了復(fù)雜的顯式特征提取過程,在ORL數(shù)據(jù)集上獲得98.30%的識別正確率,而且比大多數(shù)傳統(tǒng)人臉識別算法的效果都好。此外,本文還通過大量驗(yàn)就每個(gè)卷積層卷積核個(gè)數(shù)對網(wǎng)絡(luò)識別準(zhǔn)確率的影響進(jìn)行了詳細(xì)研究與分析,這對設(shè)計(jì)CNN網(wǎng)絡(luò)結(jié)構(gòu)具有一定的參考意義。
參考文獻(xiàn)參考文獻(xiàn):
[1]李武軍,王崇駿,張煒,等.人臉識別研究綜述[J].模式識別與人工智能,2006,19(1):5866.
[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報(bào),2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吳學(xué)毅,劉文峰.人臉識別綜述與展望[J].計(jì)算機(jī)與信息技術(shù),2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陳耀丹,王連明.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J].東北師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,48(2):7076.
[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識別的卷積神經(jīng)網(wǎng)絡(luò)[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2016,36(1):1622.
[9]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
篇3
【關(guān)鍵詞】壓縮緊鄰 字符識別 正確率
1 研究背景
樣本選擇是從原有的樣本集中某一種選擇方式來選出樣本子集,是一個(gè)能加快數(shù)據(jù)處理效率,可以節(jié)省存儲資源并且保證不降低分類性能的可靠方法。樣本選擇和特征選擇在某些方面上有相似之處,一般都是與具體分類預(yù)測方法相關(guān)聯(lián)。字符識別是模式識別中一類熱門的研究問題,本文將利用樣本選擇方法結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符識別。
2 加權(quán)壓縮近鄰方法
基于壓縮近鄰的樣本選擇方法具有擁有降低存儲、縮短運(yùn)算等特點(diǎn)。郝紅衛(wèi)等人在此基礎(chǔ)上提出了加權(quán)壓縮近鄰規(guī)則,針對那些未被選中的邊緣樣本,可以重復(fù)數(shù)次對壓縮近鄰的過程,從而確保樣本數(shù)據(jù)均能夠被選上。對于中心樣本也能被保留的問題,通過對樣本加權(quán)評估、再次選擇的方式來解決。在選擇的過程中可以根據(jù)實(shí)驗(yàn)需要進(jìn)行樣本數(shù)量進(jìn)行控制,稱之為加權(quán)壓縮近鄰規(guī)則(Weighted Condensed Nearest Neighbor)。
該算法是通過壓縮近鄰規(guī)則過程的循環(huán)保證子集P中有足夠多的邊界樣本,但是其中仍存在大量的冗余,我們依據(jù)投票的原則對子集P中樣本的代表性進(jìn)行評估并且再次選擇。其具體過程是對于U中的每個(gè)樣本x找出P中距離最接近的樣本xi,如果x和xi的類別是相同的,那么投xi一票。樣本獲得的票數(shù)最高,說明它最具有代表性。根據(jù)投票的實(shí)際情況和樣本的數(shù)量來得到最終的子集A。用加權(quán)壓縮近鄰規(guī)則獲得的子集比壓縮近鄰規(guī)則得到的子集包含更少的冗余樣本和更多的具有代表性樣本,同時(shí)還可以根據(jù)實(shí)驗(yàn)來控制子集中所含有的樣本數(shù)。
3 實(shí)驗(yàn)結(jié)果與分析
本次實(shí)驗(yàn)分別使用MNIST和USPS手寫體識別庫作為訓(xùn)練和測試樣本集。
實(shí)驗(yàn)平臺采用英特爾酷睿i5-4430CPU 3.00GHz,8GB內(nèi)存,Windows10操作系統(tǒng),Matlab R2010b。我們設(shè)定隨機(jī)選擇和壓縮近鄰選取MNIST中樣本數(shù)目為6600個(gè),樣本壓縮比為10%,USPS庫中選取樣本數(shù)目為1767個(gè),樣本壓縮比為20.34%。設(shè)置深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)設(shè)為100次。
算法給出了基于壓縮近鄰和BP神經(jīng)網(wǎng)絡(luò)手寫體字符識別結(jié)果。通過融合壓縮近鄰規(guī)則選取樣本和BP神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),在訓(xùn)練時(shí)間上雖然沒有融合隨機(jī)選取樣本和深度卷積網(wǎng)絡(luò)實(shí)驗(yàn)短,但是在時(shí)間上并沒有很大幅度延長。在實(shí)驗(yàn)的識別錯誤率上,MNIST庫中比隨機(jī)選擇實(shí)驗(yàn)提升了1.52%,分類效果提升明顯??梢妷嚎s近鄰方法可以選擇到更好的代表性樣本。這兩組數(shù)據(jù)依然說明了壓縮近鄰對樣本選擇的可靠性。表1給出了基于壓縮近鄰和卷積神經(jīng)網(wǎng)絡(luò)的手寫體字符識別結(jié)果。
4 總結(jié)
本文主要介紹了基于壓縮近鄰的樣本選擇方法。樣本選擇的提出是為了有效減少樣本數(shù)量,并且保證不降低訓(xùn)練精確度。在實(shí)驗(yàn)中進(jìn)行驗(yàn)證,通過壓縮近鄰規(guī)則選取樣本和深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),證明其能夠減少訓(xùn)練樣本,提升訓(xùn)練速度,降低存儲空間還可以提高識別正確率。
參考文獻(xiàn)
[1]郝紅衛(wèi),蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動化學(xué)報(bào),2007,33(12):1247-1251.
[2]姜文瀚.模式識別中的樣本選擇研究及其應(yīng)用[D].南京理工大學(xué),2008.
[3]余凱,賈磊,陳雨強(qiáng).深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(09):1799-1804.
篇4
【關(guān)鍵詞】圖像識別;數(shù)學(xué)建模;分類算法;深度學(xué)習(xí)
引言
隨著微電子技術(shù)及計(jì)算機(jī)技術(shù)的蓬勃發(fā)展,圖像識別應(yīng)運(yùn)而生,圖像識別是研究用計(jì)算機(jī)代替人們自動地去處理大量的物理信息,從而代替人的腦力勞動。隨著計(jì)算機(jī)處理能力的不斷強(qiáng)大,圖像識別從最早的文字識別、數(shù)字識別逐漸發(fā)展到人臉識別、物體識別、場景識別、精細(xì)目標(biāo)識別等,所采用的技術(shù)也從最早的模板匹配、線性分類到廣泛使用的深層神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類等方法。
1.圖像識別中的數(shù)學(xué)問題建模
1.1飛行器降落圖像智能識別建模
在復(fù)雜地形環(huán)境下,飛行器進(jìn)行下降過程,需要采集圖像并且判斷是否符合降落要求。在對飛行器進(jìn)行最終落地點(diǎn)的選擇時(shí),如果降落點(diǎn)復(fù)雜程度較高,采集的圖像中將會產(chǎn)生大量的訓(xùn)練樣本數(shù)目,圖像配準(zhǔn)過程中,極大地增加了運(yùn)算量,造成最佳降落點(diǎn)選擇的準(zhǔn)確率降低。提出了利用圖像智能識別進(jìn)行最佳降落點(diǎn)的建模。利用偽Zemike矩能夠?qū)德潼c(diǎn)的圖像形狀進(jìn)行準(zhǔn)確的描述,利用Procrustes形狀分析法提取最佳降落點(diǎn)的特征,利用Rank的融合決策法最終實(shí)現(xiàn)最佳降落點(diǎn)選擇的目的。
1.2人臉面部表情圖像識別的隱馬爾科夫建模
人有喜怒哀樂,目前有一種利用隱馬爾科夫模型的建模方法,可以實(shí)現(xiàn)對人臉表情中的情感進(jìn)行識別。具體的是:首先,采用子窗口對人臉面部表情圖像進(jìn)行采樣,然后利用離散余弦變換提取所需要的特征向量,通過對人臉面部圖像進(jìn)行隱馬爾科夫建模,使用獲得的特征向量作為觀測向量對人臉面部圖像的隱馬爾科夫模型進(jìn)行訓(xùn)練,再使用訓(xùn)練后的隱馬爾科夫模型對JAFFE人臉圖像測試集中地人臉表情圖像進(jìn)行情感識別。
2.典型的圖像識別算法
2.1 基于Gabor變換和極限學(xué)習(xí)機(jī)的貝類圖像種類識別
對貝類圖像進(jìn)行Gabor變換,提取其圖像特征,確定了圖像特征維數(shù);采用2DPCA方法,對變換后的特征進(jìn)行降維,并利用極限學(xué)習(xí)機(jī)(ELM)進(jìn)行貝類圖像的分類識別。與BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)實(shí)驗(yàn)對比發(fā)現(xiàn),極限學(xué)習(xí)機(jī)分類器用于貝類識別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點(diǎn)對高維圖像識別精確度高,但算法的復(fù)雜度和設(shè)計(jì)一個(gè)精確的分類器都顯得難以把握。因此該類圖像識別算法很難普遍推廣使用,識別對象必須是貝類圖像。
2.2 利用公開的全極化SAR數(shù)據(jù),研究基于SAR圖像的檢測、極化分解和識別算法
首先根據(jù)四個(gè)線極化通道合成偽彩色圖像,從而對場景進(jìn)行初步認(rèn)知。利用一維距離像分析全極化各通道的信噪比強(qiáng)度,通過對目標(biāo)進(jìn)行Pauli分解得到目標(biāo)的奇次散射分量和偶次散射分量,從而完成對海雜波、建筑物和艦船的相干分量的研究。其特點(diǎn)過程簡單易掌握,但識別對象有限。
2.3 基于SVM的離線圖像目標(biāo)分類算法
基于SVM的離線圖像目標(biāo)分類算法,先對訓(xùn)練集預(yù)處理,然后將處理后的圖像進(jìn)行梯度直方圖提取最后對圖像目標(biāo)的分離器進(jìn)行檢測,但是這種圖像識別算法只是有效,實(shí)用性不強(qiáng)。
3.深度學(xué)習(xí)在圖像識別的應(yīng)用
3.1 Deep learning的原理
深度學(xué)習(xí)是一種模擬人腦的思考方式,通過建立類似人腦的神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對數(shù)據(jù)的分析,即按照人類的思維做出先關(guān)解釋,形成方便人們理解的圖像、文字或者聲音。深度學(xué)習(xí)的重點(diǎn)是對模型的運(yùn)用,模型中需要的參數(shù)是通過對大量數(shù)據(jù)的學(xué)習(xí)和分析中得到的。
深度學(xué)習(xí)有兩種類型:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。學(xué)習(xí)模型根據(jù)學(xué)習(xí)框架的類型來確定。比如,卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)就是一種無監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。
3.2 深度學(xué)習(xí)的典型應(yīng)用
深度學(xué)習(xí)是如今計(jì)算機(jī)領(lǐng)域中的一個(gè)奪人眼球的技術(shù)。而在深度學(xué)習(xí)的模型中研究熱度最高的是卷積神經(jīng)網(wǎng)絡(luò),它是一種能夠?qū)崿F(xiàn)大量圖像識別任務(wù)的技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是局部感受野、權(quán)值共享以及時(shí)間或空間亞采集。通常卷及神經(jīng)網(wǎng)絡(luò)使用最后一層全連接隱層的值作為對輸入樣本所提出的特征,通過外部數(shù)據(jù)進(jìn)行的有監(jiān)督學(xué)習(xí),從而可以保證所得的特征具有較好的對類內(nèi)變化的不變性。
3.2.1基于深度學(xué)習(xí)特征的人臉識別方法。
卷積神經(jīng)網(wǎng)絡(luò)在人臉識別領(lǐng)域取得了較大突破,為了更加有效的解決復(fù)雜類內(nèi)變化條件下的小樣本人臉識別問題,使用深度學(xué)習(xí)的方法來提取特征,與基于稀疏表示的方法結(jié)合起來,實(shí)驗(yàn)證明了深度學(xué)習(xí)所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對類內(nèi)變化的不變性。
3.2.2基于深度學(xué)習(xí)的盲文識別方法。
目前盲文識別系統(tǒng)存在識別率不高、圖片預(yù)處理較為復(fù)雜等問題。針對這些問題,利用深度模型堆疊去噪編碼器自動、全面學(xué)習(xí)樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學(xué)習(xí)的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,更大程度地避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于隨機(jī)選取初值而導(dǎo)致結(jié)果陷入局部極值的問題。
3.2.3基于深度學(xué)習(xí)的手繪草圖識別。
目前的手繪草圖識別方法存在費(fèi)時(shí)費(fèi)力,較依賴于手工特征提取等問題。基于深度學(xué)習(xí)的手繪草圖識別方法根據(jù)手繪草圖時(shí)缺失顏色、紋理信息等特點(diǎn),使用大尺寸的首層卷積核獲得更多的空間結(jié)構(gòu)信息,利用訓(xùn)練淺層模型獲得的模型參數(shù)來初始化深度模型對應(yīng)層的模型參數(shù),以加快收斂,減少訓(xùn)練時(shí)長,加入不改變特征大小的卷基層來加深網(wǎng)絡(luò)深度等方法實(shí)現(xiàn)減小錯誤率。
4.結(jié)論
圖像識別是當(dāng)代人工智能的熱門研究方向,其應(yīng)用領(lǐng)域也是超乎人類想象的,相信通過技術(shù)的不斷創(chuàng)新,圖像識別技術(shù)會給人們的生活帶來智能化、個(gè)性化、全面化的服務(wù)。
參考文獻(xiàn):
[1]穆靜,陳芳,王長元.人臉面部表情圖像的隱馬爾科夫建模及情感識別[J].西安:西安工業(yè)大學(xué)學(xué)報(bào),2015(09).
[2]楊靖堯,里紅杰,陶學(xué)恒.基于Gabor變換和極限學(xué)習(xí)機(jī)的貝類圖像種類識別[J].大連工業(yè)大學(xué)學(xué)報(bào),2013(04).
[3]馬曉,張番棟,封舉富.基于深度學(xué)習(xí)特征的稀疏表示的人臉識別方法[J].智能系統(tǒng)學(xué)報(bào),2016(11).
篇5
關(guān)鍵詞:無人機(jī);STM32;道路檢測;神經(jīng)網(wǎng)絡(luò);模型訓(xùn)練
傳統(tǒng)的道路巡檢和保養(yǎng)主要由人工來完成,需要投入大量的人力物力來保證道路的相對安全,這種方式存在著低效率、高成本且難以保證道路的決定安全[1]。固定式交通檢測設(shè)備大量設(shè)置在道路的主干路上,也存在著一些缺陷:(1)監(jiān)控?cái)z像頭不能做到全覆蓋且具有一定的探測盲區(qū)。(2)監(jiān)控系統(tǒng)采用多屏幕方式,工作人員進(jìn)行道路故障判斷時(shí)受限。(3)不能靈活的通知有關(guān)部門對事故的快速應(yīng)急處理。為了克服上述的缺點(diǎn),本文設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的無人機(jī)道路巡檢系統(tǒng),對發(fā)生故障和需要保養(yǎng)的道路能快速響應(yīng),及時(shí)的通知有關(guān)部門,避免事故的發(fā)生。
1系統(tǒng)的總體設(shè)計(jì)
在無人機(jī)道路巡檢系統(tǒng)中,我們主要考慮了以下幾個(gè)要求[3]:(1)無人機(jī)系統(tǒng)能滿足正常的工作;(2)無人機(jī)系統(tǒng)能適應(yīng)各種天氣和氣候變化等;(3)無人機(jī)系統(tǒng)應(yīng)充分考慮控制的安全性;(4)視頻流的傳輸應(yīng)避免較長的延時(shí)。無人機(jī)道路巡檢系統(tǒng)主要由無人機(jī)系統(tǒng)設(shè)計(jì)、遠(yuǎn)程控制系統(tǒng)、PC端系統(tǒng)三大部分組成,系統(tǒng)的總體結(jié)構(gòu)框圖如圖1所示。系統(tǒng)的具體工作原理為:無人機(jī)將道路環(huán)境檢測的結(jié)果,將處理后的視頻流通過遠(yuǎn)程傳輸?shù)姆绞?,發(fā)送到PC端進(jìn)行實(shí)時(shí)監(jiān)控道路狀況。遠(yuǎn)程控制系統(tǒng)以STM32作為主控芯片,主要包括在無人機(jī)端和遙控端兩個(gè)部分,遙控端將控制指令通過2.4G通信發(fā)送到無人機(jī)端,此時(shí)無人機(jī)的做出相應(yīng)的位姿變化,完成遙控端對無人機(jī)位姿的控制。無人機(jī)系統(tǒng)的圖像采集模塊芯片為樹莓派,完成圖像的采集并采用TCP通信實(shí)現(xiàn)遠(yuǎn)程視頻的傳輸,將獲取的視頻流傳輸?shù)絇C端。PC端上使用OpenCV對圖像進(jìn)行處理[4],利用深度學(xué)習(xí)模塊對設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)訓(xùn)練,從而得到檢測模型,最后在PC上接收處理過的數(shù)據(jù)并實(shí)時(shí)監(jiān)測道路狀況。上述工作原理可實(shí)現(xiàn)無人機(jī)道路巡檢系統(tǒng),下文將對其包括的三大模塊進(jìn)行說明介紹。
2無人機(jī)系統(tǒng)設(shè)計(jì)
本次使用的是RaspberryPi3(modelB+)作為無人機(jī)的主控制板[7],無人機(jī)的飛行控制算法和圖像采集模塊集成在樹莓派中。遠(yuǎn)程控制系統(tǒng)通過2.4G無線通信模塊連接,通過控制器實(shí)現(xiàn)對無人機(jī)飛行和圖像采集的控制。無人機(jī)系統(tǒng)總體結(jié)構(gòu)如圖2所示。
3PC端系統(tǒng)設(shè)計(jì)
在PC端系統(tǒng)設(shè)計(jì)主要分為圖像預(yù)處理、模型訓(xùn)練和視頻監(jiān)控三大部分,通過TCP通信協(xié)議進(jìn)行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務(wù)端(PC)的信息傳遞[9]。下面主要對前兩部分詳細(xì)介紹。
3.1圖像預(yù)處理
本系統(tǒng)對地面裂縫檢測的圖像預(yù)處理流程如圖3所示具體工作原理為:(1)采用加權(quán)平均灰度化對獲取的無人機(jī)影像進(jìn)行灰度化處理;(2)對灰度化處理后的影像進(jìn)行直方圖均衡化,使得影像具有高對比度和多元的灰度色調(diào)變化,為后續(xù)的濾波降噪奠定基礎(chǔ);(3)對處理后的影像進(jìn)行濾波降噪,消除孤立的噪聲點(diǎn),采用方法的是中值濾波降噪;(4)使用迭代二值化處理將影像的灰度值設(shè)置合適的閾值,使得圖像更簡單,目標(biāo)更突出,然后對圖像進(jìn)行分割,計(jì)算迭代的閾值,判斷迭代的閾值是否收斂到某一值或者達(dá)到限定的迭代次數(shù),如果是的話,將完成二值化處理和濾波,否則將初始二值化閾值;(5)最終完成道路故障的識別與標(biāo)記。
3.2模型檢測
3.2.1卷積神經(jīng)網(wǎng)絡(luò)原理使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,首先使用卷積層實(shí)現(xiàn)特征的提取,原理如圖4所示。如圖5所示,卷積操作是模仿神經(jīng)元的機(jī)制。不同的輸入在權(quán)重的影響下會有不同的輸出,根據(jù)損失函數(shù)的計(jì)算來不斷的更新權(quán)重,直到獲得合理的權(quán)重參數(shù)。初始傳遞的信號為x,中間通過權(quán)重w,再經(jīng)過偏置b后連接在末端,最后輸出信號變成wx+b。fun(?)表示激活函數(shù),最終f(z為輸出的結(jié)果,如式(1)所示。3.2.2卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程通過相機(jī)采集到的缺陷和問題圖像作為訓(xùn)練樣本,這部分是檢測道路安全的關(guān)鍵一步,(1)訓(xùn)練標(biāo)記數(shù)據(jù):首先使用圖像預(yù)處理中標(biāo)記好的道路故障提取出來,通過卷積神經(jīng)網(wǎng)絡(luò)對標(biāo)記框內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練;(2)提取特征數(shù)據(jù):將道路故障的類型統(tǒng)計(jì)并歸納;(3)誤差反饋學(xué)習(xí):對測試樣本進(jìn)行誤差反饋學(xué)習(xí),并進(jìn)行測試;(4)優(yōu)化訓(xùn)練數(shù)據(jù):根據(jù)實(shí)際應(yīng)用場景增加圖像的種類和數(shù)量,不斷訓(xùn)練模型。3.2.3故障的基本分類道路故障主要路面缺陷(例如裂縫、殘缺等)和路面增加(例如長時(shí)間靜止的車輛和路人),各自訓(xùn)練集數(shù)量為1000張。如表1所示。3.2.4實(shí)驗(yàn)測試為實(shí)現(xiàn)故障的檢測,測試數(shù)據(jù)集為100張,不同類型故障數(shù)據(jù)50張,均采集自新道路且與訓(xùn)練樣本一致,實(shí)驗(yàn)結(jié)果如表2所示。由表2可知,檢測路面增加(例如長時(shí)間靜止的車輛和路人)的準(zhǔn)確率高達(dá)96%,但是地面缺陷的準(zhǔn)確率相比較而言略低,可能造成的原因是:①硬件原因?qū)е虏杉膱D像清晰度比較低;②地面缺陷太小,無人機(jī)難以識別;③訓(xùn)練的數(shù)據(jù)集較少,特征學(xué)習(xí)誤差大;但是滿足了設(shè)計(jì)需求,還需進(jìn)一步改進(jìn)。
4總結(jié)與展望
篇6
在AlphaGo贏得第一局的比賽時(shí),就激起了人們熱烈的討論,因?yàn)楹芏鄰氖氯斯ぶ悄苎芯康摹凹夹g(shù)派”也對電腦圍棋程序戰(zhàn)勝人類棋手沒有足夠的信心。但第一局的結(jié)果仍然讓人震驚,因?yàn)樵谖鍌€(gè)月前,AlphaGo的棋力水平也只是達(dá)到戰(zhàn)勝職業(yè)二段棋手的程度,人們吃驚的是它的棋藝水平提高的速度。
與20年前深藍(lán)在國際象棋人機(jī)大戰(zhàn)中戰(zhàn)勝世界冠軍卡斯帕羅夫不同,AlphaGo并非僅僅依賴強(qiáng)悍的計(jì)算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是具有深度學(xué)習(xí)的能力,能在實(shí)戰(zhàn)和練習(xí)中不斷學(xué)習(xí)和積累經(jīng)驗(yàn),這已經(jīng)非常類似于人類棋手的成長過程了,不過它成長的速度非常之快。
普通大眾會認(rèn)為,機(jī)器人獲勝是因?yàn)樗鼉?nèi)部存儲有極為豐富的棋譜,以及很多一流棋手的經(jīng)驗(yàn),再配合它強(qiáng)大的邏輯判斷能力,是一群人對一個(gè)人的戰(zhàn)斗,是機(jī)器計(jì)算對人腦計(jì)算的碾軋,結(jié)果是必然的。這樣的歸納未免有些草率和簡單,完全無視機(jī)器學(xué)習(xí)在程序中的作用。
機(jī)器學(xué)習(xí)(Machine Learning,ML)是一種讓計(jì)算機(jī)在事先沒有明確的程序的情況下做出正確反應(yīng)的能力,是計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的一種方法,是人工智能的核心,也是使計(jì)算機(jī)具有智能的根本途徑。但是它仍然主要是使用歸納、綜合而不是演繹的方式來進(jìn)行學(xué)習(xí)。
早在1959年,塞繆爾的下棋程序就具有了學(xué)習(xí)能力,能在不斷對弈中改善自己的棋藝。這個(gè)程序已經(jīng)涉及到了關(guān)于學(xué)習(xí)的令人頭疼的哲學(xué)問題,此后就有各種各樣的棋類程序誕生,演繹出一個(gè)又一個(gè)電腦程序戰(zhàn)勝人類棋手的傳說,不斷刷新博弈難度的記錄。
而圍棋,因?yàn)槠灞P的復(fù)雜性(大約10的172次方種狀態(tài),是計(jì)算機(jī)不可能窮盡的天文數(shù)字),則被看作是“人類智力的最后防線”,是僅存的人類能夠擊敗電腦的完全信息博弈游戲。AlphaGo的獲勝,宣告了機(jī)器學(xué)習(xí)的重大突破。
AlphaGo是一套為圍棋優(yōu)化的深度學(xué)習(xí)引擎,它使用了神經(jīng)網(wǎng)絡(luò)和蒙特卡羅算法,可以讓機(jī)器充分學(xué)習(xí),并能在不斷自我對決中提升水平。
深度學(xué)習(xí)(Deep Learning)的概念在10年前就已提出,又叫深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks),是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域,通過建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦機(jī)制來解釋數(shù)據(jù)。深度學(xué)習(xí)提出了一種讓計(jì)算機(jī)自動學(xué)習(xí)出模式特征的方法,有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等不同的機(jī)器學(xué)習(xí)模型,但都需要大量的并行計(jì)算。非監(jiān)督貪心逐層訓(xùn)練算法可以解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題,卷積神經(jīng)網(wǎng)絡(luò)可以利用空間相對關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能,這些特點(diǎn)正適合用于復(fù)雜的博弈程序。
但是,在具有不確定性的對決中,即使深度學(xué)習(xí)也發(fā)揮不了作用,無法幫助程序來確定對手的狀態(tài)。
篇7
關(guān)鍵詞:人機(jī)大戰(zhàn);人工智能;發(fā)展前景
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
0.引言
2016年3月15日,備受矚目的“人機(jī)大戰(zhàn)”終于落下帷幕,最終Google公司開發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個(gè)具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個(gè)新的高度。
這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個(gè)方面:
(1)AlphaGo的勝利并非僅僅依賴強(qiáng)悍的計(jì)算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對弈過的棋盤,并在練習(xí)和實(shí)戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗(yàn)。
(2)圍棋比國際象棋更加復(fù)雜,圍棋棋盤有361個(gè)點(diǎn),其分支因子無窮無盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計(jì)算量相當(dāng)巨大。英國圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡單的規(guī)則加深了棋局的復(fù)雜性”。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
簡而言之,AlphaGo取得勝利的一個(gè)很重要的方面就是它擁有強(qiáng)大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來發(fā)展前景。
1.人工智能的發(fā)展歷程
AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個(gè)不斷進(jìn)步,并且至今仍在取得不斷突破的學(xué)科。回顧人工智能的發(fā)展歷程,可大致分為孕育、形成、暗淡、知識應(yīng)用和集成發(fā)展五大時(shí)期。
孕育期:1956年以前,數(shù)學(xué)、邏輯、計(jì)算機(jī)等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號化,奠定了數(shù)理邏輯的基礎(chǔ)。英國數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動機(jī)理論(亦稱圖靈機(jī)),1950年在其著作《計(jì)算機(jī)與智能》中首次提出“機(jī)器也能思維”,被譽(yù)為“人工智能之父”。總之,這些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻(xiàn)。
形成期:1956年夏季,在美國達(dá)特茅斯大學(xué)舉辦了長達(dá)2個(gè)多月的研討會,熱烈地討論用機(jī)器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術(shù)語。這是人類歷史上第一次人工智能研討會,標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時(shí)期。在接下來的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時(shí)形成了廣泛的樂觀思潮。
暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發(fā)展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復(fù)雜的問題。隨著AI遭遇批評,對AI提供資助的機(jī)構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應(yīng)用期:在80年代,“專家系統(tǒng)”(Expect System)成為了人工智能中一個(gè)非常主流的分支?!皩<蚁到y(tǒng)”是一種程序,為計(jì)算機(jī)提供特定領(lǐng)域的專門知識和經(jīng)驗(yàn),計(jì)算機(jī)就能夠依據(jù)一組從專門知識中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問題。不同領(lǐng)域的專家系統(tǒng)基本都是由知識庫、數(shù)據(jù)庫、推理機(jī)、解釋機(jī)制、知識獲取等部分組成。
集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計(jì)算機(jī)性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長足的進(jìn)步,取得了令人矚目的成就。
人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個(gè)里程碑。當(dāng)前人工智能的研究熱點(diǎn)主要集中在自然語言處理、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
2.人工智能l展現(xiàn)狀與前景
人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來越多的AI項(xiàng)目依賴于分布式系統(tǒng),而當(dāng)前研究的普遍熱點(diǎn)則集中于自然語言處理、機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實(shí)現(xiàn)讓機(jī)器明白人類的語言,這需要將人類的自然語言轉(zhuǎn)化為計(jì)算機(jī)能夠處理的機(jī)器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結(jié)構(gòu)、語法進(jìn)行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個(gè)段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態(tài)度。
當(dāng)前自然語言的處理主要有兩大方向。一種是基于句法-語義規(guī)則的理性主義理論,該理論認(rèn)為需要為計(jì)算機(jī)制定一系列的規(guī)則,計(jì)算機(jī)在規(guī)則下進(jìn)行推理與判斷。因此其技術(shù)路線是一系列的人為的語料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計(jì)學(xué)習(xí)的經(jīng)驗(yàn)主義理論,這種理論在最近受到普遍推崇。該理論讓計(jì)算機(jī)自己通過學(xué)習(xí)并進(jìn)行統(tǒng)計(jì)推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語言,試圖刻畫真實(shí)世界的語言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計(jì)語言的規(guī)律。
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(Machine Learning)是近20年來興起的人工智能一大重要領(lǐng)域。其主要是指通過讓計(jì)算機(jī)在數(shù)據(jù)中自動分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行判斷和預(yù)測的方法。
機(jī)器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個(gè)函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來時(shí),可以由訓(xùn)練得到函數(shù)預(yù)測目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時(shí)有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問題,即統(tǒng)計(jì)分類問題和回歸分析問題。統(tǒng)計(jì)分類的預(yù)測結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標(biāo)是連續(xù)的,如天氣、股價(jià)等的預(yù)測。
無監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒有人為標(biāo)注的結(jié)果,這就需要計(jì)算機(jī)去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來分類等。一種常見的無監(jiān)督學(xué)習(xí)是聚類分析(Cluster Analysis),它是將相似的對象通過靜態(tài)分類的方法分成不同的組別或者是特定的子集,讓同一個(gè)子集中的數(shù)據(jù)對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個(gè)中心并對距離這些中心最近的數(shù)據(jù)對象進(jìn)行分類。
機(jī)器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等類別??偠灾瑱C(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動的一門學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來越廣泛,如模式識別、計(jì)算機(jī)視覺、語音識別、推薦算法等領(lǐng)域越來越廣泛地應(yīng)用到了機(jī)器學(xué)習(xí)中。
人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類的意識及智能行為,都是通過巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個(gè)神經(jīng)細(xì)胞通過突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過突觸的信號強(qiáng)度超過某個(gè)閾值時(shí),神經(jīng)細(xì)胞便會進(jìn)入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個(gè)多輸入單輸出的信息處理單元,并通過傳遞函數(shù)f對輸入x1,x2…,xn進(jìn)行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線性型和S型。
在此基礎(chǔ)上,對神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進(jìn)展。日本的福島教授于1983年基于視覺認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計(jì)算模型。通過學(xué)習(xí)訓(xùn)練獲取到卷積運(yùn)算中所使用的卷積系數(shù),并通過不同層次與自由度的變化,可以得到較為優(yōu)化的計(jì)算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強(qiáng)了其對全盤決策和把握的能力。
3.人工智能的發(fā)展前景
總體來看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個(gè)里程碑。在以上4個(gè)領(lǐng)域中,既是縱向發(fā)展的過程,也是橫向不斷改進(jìn)的過程。
人工智能在博弈階段,主要是實(shí)現(xiàn)邏輯推理等功能,隨著計(jì)算機(jī)處理能力的進(jìn)步以及深度學(xué)習(xí)等算法的改進(jìn),機(jī)器擁有了越來越強(qiáng)的邏輯與對弈能力。在感知領(lǐng)域,隨著自然語言處理的進(jìn)步,機(jī)器已經(jīng)基本能對人類的語音與語言進(jìn)行感知,并且能夠已經(jīng)對現(xiàn)實(shí)世界進(jìn)行視覺上的感知?;诖髷?shù)據(jù)的處理和機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器已經(jīng)能夠?qū)χ車沫h(huán)境進(jìn)行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對人的肢體動作進(jìn)行判斷。該領(lǐng)域的主要實(shí)現(xiàn)還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個(gè)階段的基礎(chǔ)上,機(jī)器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發(fā)展就是這兩個(gè)里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環(huán)境進(jìn)行感知并處理人類的語言等指令,利用所收集的信息進(jìn)行最后的決策,比如操作方向盤、剎車等。
人工智能已經(jīng)滲透到生活中的各個(gè)領(lǐng)域。機(jī)器已經(jīng)能識別語音、人臉以及視頻內(nèi)容等,從而實(shí)現(xiàn)各種人際交互的場景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實(shí)現(xiàn)自動讀片和輔助診斷以及個(gè)性化t療和基因排序等功能。在教育領(lǐng)域,機(jī)器也承擔(dān)了越來越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無人車的發(fā)展表明無人駕駛是一個(gè)可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景。總之,人工智能在一些具有重復(fù)性的和具備簡單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來幫助人們解決問題,創(chuàng)造價(jià)值。
參考文獻(xiàn)
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經(jīng)濟(jì)導(dǎo)刊,2016 (6):69-74.
篇8
人工智能、大數(shù)據(jù)、光纖網(wǎng)絡(luò)等技術(shù)的發(fā)展和改進(jìn),人類社會已經(jīng)進(jìn)入到了“互聯(lián)網(wǎng)+”時(shí)代,有力的促進(jìn)了信息化系統(tǒng)的普及和使用,比如證券交易所開發(fā)了結(jié)算交易系統(tǒng),政府機(jī)關(guān)開發(fā)了電子政務(wù)系統(tǒng),旅游景區(qū)開發(fā)了旅游住宿管理系統(tǒng)等,提高了行業(yè)智能化、自動化和共享化水平?;ヂ?lián)網(wǎng)雖然為人們帶來了極大的方便,提高了各行業(yè)的信息化水平,但是其也面臨著海量的安全攻擊威脅,比如數(shù)以萬計(jì)的病毒或木馬,都給互聯(lián)網(wǎng)的應(yīng)用帶來了極大的障礙。目前,網(wǎng)絡(luò)中流行的攻擊包括病毒木馬、DDOS攻擊等,這些病毒木馬常常發(fā)生各類型的變異,比如2018年初爆發(fā)的勒索病毒,攻擊了很多政企單位的服務(wù)器,導(dǎo)致終端操作系統(tǒng)無法登錄和訪問,傳統(tǒng)的防火墻、殺毒軟件等網(wǎng)絡(luò)安全防御軟件已經(jīng)無法滿足需求,需要引入大數(shù)據(jù)技術(shù),以便能夠?qū)⒈粍臃烙夹g(shù)改進(jìn)為主動防御技術(shù),及時(shí)的查處網(wǎng)絡(luò)中的病毒或木馬,從而可以提高互聯(lián)網(wǎng)防御水平。
1.網(wǎng)絡(luò)安全防御現(xiàn)狀研究
網(wǎng)絡(luò)安全防御經(jīng)過多年的研究,已經(jīng)吸引了很多的學(xué)者和企業(yè)開發(fā)先進(jìn)的防御技術(shù),比如360安全衛(wèi)士、訪問控制列表、防火墻等,同時(shí)還提出了一些更加先進(jìn)的深度包過濾和自治網(wǎng)絡(luò)等防御技術(shù),這些技術(shù)均由許多的網(wǎng)絡(luò)安全防御學(xué)者、專家和企業(yè)進(jìn)行研究提出,已經(jīng)在網(wǎng)絡(luò)中部署喝應(yīng)用,一定程度上提高了網(wǎng)絡(luò)防御水平。(1)防火墻防火墻是一種部署于因特網(wǎng)和局域網(wǎng)之間防御工具,其類似一個(gè)過濾器,可以不熟一些過濾規(guī)則,從而可以讓正常的數(shù)據(jù)通過防火墻,也可以阻止攜帶病毒或木馬的數(shù)據(jù)通過防火墻,防火墻經(jīng)過多年的部署,已經(jīng)誕生了數(shù)據(jù)庫防火墻、網(wǎng)絡(luò)防火墻、服務(wù)器防火墻等,使用枚舉規(guī)則禁止查看每一個(gè)協(xié)議是否正常,能夠防御一定的病毒或木馬。(2)殺毒軟件殺毒軟件也是一個(gè)非常關(guān)鍵的程序代碼,可以在殺毒軟件系統(tǒng)的服務(wù)器中保存檢測出的病毒或木馬基因特征片段,將這些片段可以與網(wǎng)絡(luò)中的數(shù)據(jù)信息進(jìn)行匹配,從而可以查找網(wǎng)絡(luò)中的病毒或木馬,及時(shí)的將其從網(wǎng)絡(luò)中清除。殺毒軟件為了能夠準(zhǔn)確的識別病毒,目前引入了許多的先進(jìn)技術(shù),這些技術(shù)包括脫殼技術(shù)、自我保護(hù)技術(shù)等,同時(shí)目前也吸引了更多的網(wǎng)絡(luò)安全防御公司研究殺毒軟件,最為著名的軟件廠商包括360、瑞星、江民、卡巴斯基等,同時(shí)騰訊公司、搜狗公司也開發(fā)了自己的安全管理技術(shù),大大的提高網(wǎng)絡(luò)防御能力。(3)訪問控制列表訪問控制列表是一個(gè)易于配置、安裝簡單和管理容易的網(wǎng)絡(luò)安全防御工具,設(shè)置了黑白兩個(gè)關(guān)鍵名單,白名單收錄了安全數(shù)據(jù)源IP地址,黑名單收錄了非法的數(shù)據(jù)源IP地址。訪問控制列表已經(jīng)可以在四個(gè)層次配置防御策略,分別是目錄及控制級、入網(wǎng)訪問控制級、屬性控制級和權(quán)限控制級。訪問控制列表級別越高訪問性能越好,但是工作效率非常慢,不能夠?qū)崟r(shí)升級訪問控制列表,因此應(yīng)用的場所比較簡單,一般都是不重要的中小學(xué)實(shí)驗(yàn)室等,許多大型政企單位都不用這個(gè)防御措施。(4)深度包過濾深度包過濾能夠嵌入到硬件中形成一個(gè)固件,這樣就可以快速的采集網(wǎng)絡(luò)中的數(shù)據(jù),然后利用深度包過濾的枚舉檢查規(guī)則,不僅檢查數(shù)據(jù)包的頭部IP地址、目的IP地址,還檢查數(shù)據(jù)包中的內(nèi)容,以便能夠深入到數(shù)據(jù)包內(nèi)部檢查是否存在病毒或木馬,一旦發(fā)現(xiàn)就可以啟動防御軟件。深度包過濾可以實(shí)施穿透式檢查規(guī)則,分析每一個(gè)協(xié)議字段,深入到內(nèi)部檢查的更加詳細(xì)和全面,從而避免病毒或木馬隱藏在數(shù)據(jù)包內(nèi)部,因此深度包過濾已經(jīng)在很多領(lǐng)域得到應(yīng)用,比如阿里云、騰訊云、百度云等都采用了這些技術(shù),許多的政企單位也采用了深度包過濾技術(shù),進(jìn)一步提高了數(shù)據(jù)防御水平。(5)自治網(wǎng)絡(luò)自治網(wǎng)絡(luò)作為一種先進(jìn)的互聯(lián)網(wǎng)安全防御技術(shù),其采用了自動愈合的建設(shè)理念,在網(wǎng)絡(luò)中構(gòu)建了一個(gè)冗余策略,一旦網(wǎng)絡(luò)受到病毒或木馬的攻擊,此時(shí)自治網(wǎng)絡(luò)就可以將這些一部分網(wǎng)絡(luò)設(shè)備隔離,同時(shí)形成一個(gè)新傳輸通道為網(wǎng)絡(luò)設(shè)備提供連接,知道數(shù)據(jù)修復(fù)完畢之后才能夠?qū)⑦@些網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)納入到網(wǎng)絡(luò)中。自治網(wǎng)絡(luò)可以實(shí)現(xiàn)自我防御,也可以調(diào)動網(wǎng)絡(luò)信息安全的許多的資源,將網(wǎng)絡(luò)病毒導(dǎo)入備用服務(wù)器,此時(shí)就可以殺滅這些病毒。
2.基于大數(shù)據(jù)的網(wǎng)絡(luò)安全防御系統(tǒng)設(shè)計(jì)
網(wǎng)絡(luò)安全防御系統(tǒng)集成了很多先進(jìn)的技術(shù),尤其是快速的數(shù)據(jù)采集和大數(shù)據(jù)分析技術(shù),能夠?qū)鹘y(tǒng)的被動網(wǎng)絡(luò)安全防御模式轉(zhuǎn)變?yōu)橹鲃?,提高網(wǎng)絡(luò)安全防御性能。本文結(jié)合傳統(tǒng)的網(wǎng)絡(luò)安全防御功能及引入的大數(shù)據(jù)技術(shù),給出了網(wǎng)絡(luò)安全防御系統(tǒng)的主要功能,這些功能包括四個(gè)關(guān)鍵方面,分別是數(shù)據(jù)采集功能、大數(shù)據(jù)圖1基于大數(shù)據(jù)的網(wǎng)絡(luò)安全防御系統(tǒng)功能分析功能、網(wǎng)絡(luò)安全防御功能和防御效果評估功能。(1)網(wǎng)絡(luò)數(shù)據(jù)采集功能目前,人們已經(jīng)進(jìn)入到了“互聯(lián)網(wǎng)+”時(shí)代,網(wǎng)絡(luò)部署的軟硬件資源非常多,訪問的用戶頻次數(shù)以億計(jì),因此網(wǎng)絡(luò)安全防御首先需要構(gòu)建一個(gè)強(qiáng)大的數(shù)據(jù)采集功能,可以及時(shí)的采集網(wǎng)絡(luò)中的軟硬件數(shù)據(jù)資源,將這些網(wǎng)絡(luò)數(shù)據(jù)發(fā)送給大數(shù)據(jù)分析功能。網(wǎng)絡(luò)數(shù)據(jù)采集過程中可以引入深度包過濾功能,利用這個(gè)深度包過濾可以快速的采集網(wǎng)絡(luò)數(shù)據(jù),提高網(wǎng)絡(luò)數(shù)據(jù)采集速度。(2)大數(shù)據(jù)分析和處理功能網(wǎng)絡(luò)數(shù)據(jù)采集完畢之后,系統(tǒng)將數(shù)據(jù)發(fā)送給大數(shù)據(jù)分析和處理模塊,該模塊中包含了很多的病毒基因片段或特征,可以針對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行智能分析,將預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù)與學(xué)習(xí)到的特征進(jìn)行對比,以便能夠發(fā)現(xiàn)這些數(shù)據(jù)信息中是否潛藏著木馬或病毒,發(fā)現(xiàn)之后及時(shí)的將其發(fā)送給安全防御模塊。(3)網(wǎng)絡(luò)安全防御功能網(wǎng)絡(luò)安全防御與傳統(tǒng)的防御技術(shù)一致,采用木馬或病毒查殺軟件,因此一旦發(fā)現(xiàn)網(wǎng)絡(luò)中存在病毒或木馬,此時(shí)就可以啟動網(wǎng)絡(luò)安全防御工具,及時(shí)的將網(wǎng)絡(luò)中的病毒或木馬殺滅,并且可以跟蹤病毒或木馬來源,從而可以鎖定源頭服務(wù)器,將源頭清除掉。如果源頭涉及到犯罪就可以獲取這些證據(jù),同時(shí)將這些證據(jù)發(fā)送給公安機(jī)關(guān)進(jìn)行偵破。(4)防御效果評估功能網(wǎng)絡(luò)安全防御功能完成之后,系統(tǒng)可以針對處理效果進(jìn)行評估,從而可以獲取網(wǎng)絡(luò)系統(tǒng)中的殺毒信息,將這些網(wǎng)絡(luò)病毒消滅,避免網(wǎng)絡(luò)中的病毒或木馬復(fù)發(fā)。網(wǎng)絡(luò)安全防御效果評估之后,還可以跟蹤大數(shù)據(jù)分析的準(zhǔn)確度,一旦準(zhǔn)確度降低就可以及時(shí)進(jìn)行學(xué)習(xí),從而提高網(wǎng)絡(luò)安全防御性能。大數(shù)據(jù)是一種非常關(guān)鍵的數(shù)據(jù)處理和分析技術(shù),可以利用多種算法,比如BP神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、深度學(xué)習(xí)、K-means算法等挖掘數(shù)據(jù)中潛在的知識,這些知識對人們是有價(jià)值的,能夠幫助人們進(jìn)行決策。本文為了能夠更好的展示互聯(lián)網(wǎng)應(yīng)用性能,重點(diǎn)描述了深度學(xué)習(xí)算法分析互聯(lián)網(wǎng)安全數(shù)據(jù)過程。深度學(xué)習(xí)算法是一種多層次的卷積神經(jīng)網(wǎng)絡(luò),包括兩個(gè)非常關(guān)鍵的層次結(jié)構(gòu),一個(gè)是卷積層稱為病毒數(shù)據(jù)特征提取層,一個(gè)卷積層為病毒數(shù)據(jù)特征映射層,可以識別病毒數(shù)據(jù)中的特征數(shù)據(jù),同時(shí)將池化層進(jìn)行處理,壓縮和處理池化層數(shù)據(jù)信息,比如進(jìn)行預(yù)處理、二值化等,刪除病毒數(shù)據(jù)中的一些明顯的噪聲特征。池化層可以將海量的病毒數(shù)據(jù)進(jìn)行壓縮,減少卷積神經(jīng)網(wǎng)絡(luò)分析時(shí)設(shè)置的參數(shù),解決卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和訓(xùn)練時(shí)容易產(chǎn)生的過度擬合問題,避免病毒識別模型陷入到一個(gè)過度擬合狀態(tài),避免無法提高病毒識別能力,還會提升病毒識別處理開銷。全連接層就是一個(gè)關(guān)鍵分類器,可以將學(xué)習(xí)到的病毒知識標(biāo)記到一個(gè)特征空間,這樣就可以提高病毒識別結(jié)果的可解釋性。卷積神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)和訓(xùn)練之后,其可以形成一個(gè)動態(tài)優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),這個(gè)結(jié)構(gòu)可以在一定時(shí)期內(nèi)保持不變,能夠?qū)崿F(xiàn)病毒特征的識別、分析,為病毒識別提供一個(gè)準(zhǔn)確的結(jié)果。
篇9
關(guān)鍵詞:邊緣檢測;邊緣;梯度算子
中圖分類號:TP391
邊緣檢測是圖像處理中最基本最經(jīng)典的技術(shù)問題之一,它對于圖像分析和圖像理解有著重要作用。因此,邊緣檢測在模式識別等高層次圖像處理領(lǐng)域有著重要的地位。然而由于圖像前期處理過程中的失誤易造成圖像的模糊和變形使得邊緣檢測很困難,這就要求研究性能更好的邊緣檢測算子。經(jīng)過多年的發(fā)展,到現(xiàn)在算法已有成百上千種。
邊緣為圖像中灰度發(fā)生急劇變化的區(qū)域邊界,兩個(gè)具有不同灰度值的相鄰區(qū)域之間總存在著邊緣,可以利用微分運(yùn)算方便地檢測到。人們提出了用圖像灰度分布的梯度來反映圖像灰度變化的微分邊緣算子,如1965年提出的Robert算子[1],在其基礎(chǔ)上改進(jìn)得到的Sobel算子、Prewitt算子和Kirsch算子等。這些算子由于計(jì)算量小和操作簡單在當(dāng)今使用較多,但易產(chǎn)生較寬的響應(yīng),故需作細(xì)化處理,影響了邊緣定位的精度。因而又產(chǎn)生了與邊緣方向無關(guān)的二階微分邊緣檢測算子,即Laplacian算子[2]。它利用圖像強(qiáng)度的二階導(dǎo)數(shù)零交叉點(diǎn)使邊緣的定位更準(zhǔn)確。
近年來隨著應(yīng)用的需要,傳統(tǒng)方法越來越難以滿足要求。針對這種情況,人們提出了許多新的邊緣檢測方法。這些新的方法利用各種新的理論工具對圖像進(jìn)行邊緣檢測,例如基于數(shù)學(xué)形態(tài)學(xué)的檢測技術(shù),借助統(tǒng)計(jì)學(xué)方法的檢測技術(shù)[4]、利用神經(jīng)網(wǎng)絡(luò)的檢測技術(shù)[5]、利用模糊理論的檢測技術(shù)[6]、利用信息論的檢測技術(shù)[7]、利用遺傳算法的檢測技術(shù)等得到了興起與發(fā)展,表現(xiàn)異?;钴S。
由于實(shí)際圖像中含有噪聲和物理和光照等原因,利用一種邊緣檢測算子不可能有效的檢測出這些邊緣,當(dāng)需要提取多空間范圍內(nèi)的變化特性時(shí),要考慮多算子的綜合應(yīng)用。因此,傳統(tǒng)的邊緣檢測算法檢測效果并不理想。
1 邊緣檢測的步驟
1.1 邊緣檢測的步驟
(1)濾波:邊緣和噪聲同屬于圖像中強(qiáng)度劇烈變化部位,因此噪聲對邊緣檢測有很大的影響,于是有必要使用濾波器來改善邊緣檢測算子的性能。
(2)增強(qiáng):增強(qiáng)邊緣的原理是確定圖像各點(diǎn)鄰域強(qiáng)度的變化值。增強(qiáng)算法可以將鄰域灰度值有顯著變化的點(diǎn)突顯出來。
(3)檢測:在圖像中,有許多點(diǎn)的梯度幅值比較大,而這些點(diǎn)并不都是邊緣,所以需要確定哪些點(diǎn)是真正的邊緣點(diǎn)。最簡單的辦法是利用梯度幅值的閾值作為判據(jù)。
(4)定位:邊緣定位即精確的確定邊緣點(diǎn)的具置。
圖像邊緣檢測的基本步驟如圖1所示:
1.2 邊緣檢測要求
對于圖像的邊緣檢測來說,一般在檢測過程中出現(xiàn)各種各樣的情況,導(dǎo)致誤差的出現(xiàn)。因此,對邊緣檢測有如下的要求:
(1)漏檢率與誤檢率較少。
(2)邊緣定位較準(zhǔn)確。
(3)對于每一個(gè)邊緣只有一個(gè)響應(yīng)。
2 經(jīng)典邊緣檢測算法
2.1 經(jīng)典邊緣檢測的基本算法
一階微分算子是通過梯度算子或一階導(dǎo)數(shù)算子估計(jì)圖像灰度變化的梯度方向,增強(qiáng)圖像中的灰度變化區(qū)域,然后將梯度值與給定的閾值進(jìn)行比較來確定具體的邊緣。
對于連續(xù)函數(shù) ,它在點(diǎn) 處的x方向,y方向和 方向的一階方向?qū)?shù)為:
它在點(diǎn) 處的梯度是一個(gè)矢量,即
梯度幅值為:
梯度方向角為:
基于上述理論人們提出了許多經(jīng)典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在實(shí)際應(yīng)用中,常常以圖像的一階差分運(yùn)算代替圖像的一階微分運(yùn)算。所有這些基于梯度的邊緣檢測算法主要有兩點(diǎn)區(qū)別:1)邊緣檢測算子的方向。2)在同一方向上近似圖像一階導(dǎo)數(shù)合成梯度算子的方式。
2.1.1 Sobel算子
Sobel是一種將方向差分運(yùn)算與局部平均相結(jié)合的邊緣檢測方法。它計(jì)算一個(gè)圖像強(qiáng)度的梯度近似值。該算子是在以(x,y)為中心的3 3鄰域上計(jì)算 的偏導(dǎo)數(shù)。為了抑制噪聲,給它的中心點(diǎn)加一個(gè)權(quán)重,則它的數(shù)字梯度近似等于下式:
梯度大小為:
它的卷積模板算子如下:
用以上模板與圖像進(jìn)行卷積運(yùn)算后,按照式9可以求出圖像的梯度幅度值g(x,y),然后選擇適當(dāng)?shù)拈撝礣,如果在(x,y)處g(x,y)>T,則此點(diǎn)為邊緣點(diǎn);否則為非邊緣點(diǎn)。
在較小的鄰域范圍內(nèi),Sobel算子比較理想,受噪聲的影響比較小。當(dāng)使用到大的鄰域時(shí),抗噪聲特性會更好,但計(jì)算量會增加,得出的邊緣較粗。因?yàn)榫植科骄?jì)算的原因,易產(chǎn)生誤檢,造成邊緣定位精度不夠高。因此,Sobel算子在精度要求不高的情況下,是一種不錯的邊緣檢測算法。Sobel算子對噪聲具有平滑作用,提供較為精確的邊緣方向信息。如果它與其他的算法相結(jié)合可能會達(dá)到更好的檢測效果。
2.1.2 Canny算子
Canny邊緣檢測方法是通過計(jì)算圖像像素點(diǎn)的梯度,根據(jù)局部極值來獲得邊緣信息的方法。1986年,Canny通過對過去一系列邊緣檢測算子的方法和應(yīng)用,進(jìn)行總結(jié)分析,用數(shù)學(xué)的形式推導(dǎo)出最優(yōu)邊緣檢測算子。Canny認(rèn)為一個(gè)良好的邊緣檢測算法應(yīng)滿足以下幾點(diǎn)要求:
(1)定位能力好。檢測出的邊緣點(diǎn)盡可能落在實(shí)際圖像邊緣的中心。
(2)優(yōu)良的檢測性能。誤檢和漏檢的概率小。
(3)單一響應(yīng)。盡可能減少虛假邊緣的響應(yīng)和多個(gè)響應(yīng)的發(fā)生,最好是單一邊緣只產(chǎn)生一個(gè)響應(yīng)。
Canny邊緣檢測算法主要步驟:
第一步:平滑。使用高斯函數(shù)對待檢測圖像進(jìn)行平滑濾波處理,得到平滑圖像。
第二步:計(jì)算平滑圖像中每個(gè)像素點(diǎn)的局部梯度幅度值和邊緣方向。
第三步:對梯度進(jìn)行非極大值抑制。在梯度幅度的集合圖像中,在邊緣強(qiáng)度的極大值附近會產(chǎn)生屋脊帶。為了細(xì)化邊緣,尋找梯度幅值圖像中極大值的點(diǎn),并將所有非極大值的像素設(shè)為零。
第四步:得到圖像邊緣信息。給定兩個(gè)閾值T1和T2,T1
Canny邊緣檢測算子的缺點(diǎn)與改進(jìn):1)高斯濾波對于某些特定的噪聲效果不是很好,還有待改進(jìn),提供性能更好的自適應(yīng)去噪方法。2)雙閥值的參數(shù)是人為設(shè)定,不能根據(jù)圖像的邊緣特征來確定的,有可能對噪聲的抑制不是很好,同時(shí)也可能丟失邊緣信息,導(dǎo)致邊緣檢測效果是很理想,即對于不同的圖像不具有自適應(yīng)性。因此,有必要根據(jù)圖像的特征自適應(yīng)確定圖像的閥值來達(dá)到理想的檢測效果。3)在多角度上計(jì)算梯度。
3 基于形態(tài)學(xué)邊緣檢測
設(shè)g(x,y)為輸入圖像,E(x,y)表示圖像的邊緣函數(shù),f(x,y)為檢測算子。形態(tài)學(xué)中的膨脹會縮小圖像的背景區(qū)域,擴(kuò)張圖像的目標(biāo)區(qū)域;而腐蝕恰恰相反,它會擴(kuò)張背景區(qū)域,縮小目標(biāo)區(qū)域。根據(jù)這樣性質(zhì),可以構(gòu)造圖像的邊緣檢測算子如下:
灰度膨脹運(yùn)算表示: (11)
同理灰度腐蝕運(yùn)算表示: (12)
那么膨脹腐蝕型邊緣檢測算子可如下表示:
由以上的操作運(yùn)算,我們知道膨脹運(yùn)算會使圖像邊緣變的模糊,腐蝕運(yùn)算會使圖像邊緣信息損失一些細(xì)節(jié)信息。為了避免上述情況,對上述算子加以修改:
邊緣算子修正為:
邊緣算子改進(jìn)以后,添加了一些原圖像邊緣信息,也可能添加了一些噪聲。
4 神經(jīng)網(wǎng)絡(luò)邊緣檢測算法
為了檢測有256灰度值的灰度圖像的邊緣,可以考慮一個(gè)類似BP神經(jīng)網(wǎng)絡(luò)[3][9]的模型,該模型由8個(gè)子BP神經(jīng)網(wǎng)絡(luò)組成,每一個(gè)子網(wǎng)絡(luò)可以檢測2值圖像的邊緣。每一個(gè)子BP神經(jīng)網(wǎng)絡(luò)對應(yīng)灰度圖像的一個(gè)位平面。每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出會根據(jù)每個(gè)位平面的權(quán)重做調(diào)整。8個(gè)位平面的權(quán)重依次為1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通過類似的模型,可以很精確的檢測出灰度圖像的邊緣。結(jié)構(gòu)如圖2所示:
5 總結(jié)
邊緣檢測是圖像處理領(lǐng)域中最基本的問題,也是圖像處理其他工作的基礎(chǔ)。如何準(zhǔn)確、快速地進(jìn)行邊緣檢測一直是圖像處理領(lǐng)域的熱點(diǎn)。一個(gè)邊緣檢測算法的好壞主要體現(xiàn)在能否做到以下兩點(diǎn):一是正確地檢測出所有邊緣并不出現(xiàn)偽邊緣;二是盡可能地抑制噪聲對圖像的影響,即去噪能力。通過上面的分析可知,前人提出的很多經(jīng)典算法,比如微分算子法,BP神經(jīng)網(wǎng)絡(luò)算法,基于形態(tài)學(xué)的檢測算法,基于關(guān)聯(lián)規(guī)則的檢測算法[8]等,對于現(xiàn)在邊緣檢測的要求而言,其效果都不是特別理想。這就需要我們尋找更好的算法,其研究更多的向多尺度、多領(lǐng)域、多方法融合的方向發(fā)展。
參考文獻(xiàn):
[1]岡薩雷斯.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2007:467-471.
[2]孫即祥.數(shù)字圖像處理[M].河北出版社,1993.
[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.
[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.
[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.
[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.
[8]洪俊田,陶劍鋒,李剛.基于灰色關(guān)聯(lián)的數(shù)字圖像去噪研究[J].武漢理工大學(xué)學(xué)報(bào),2006,2:15-17.
[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
篇10
關(guān)鍵詞:視覺注意;自頂向下;顯著性;對象信息;卷積神經(jīng)網(wǎng)
中圖分類號:TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-9081(2016)11-3217-05
0 引言
視覺注意機(jī)制的研究是探索人眼視覺感知的重要一環(huán)。在過去幾十年中,如何用計(jì)算模型模擬人眼視覺注意過程一直是核心問題。盡管取得了很大的進(jìn)步,但是快速準(zhǔn)確地在自然場景中預(yù)測人眼視覺注意區(qū)域仍然具有很高的挑戰(zhàn)性。顯著性是視覺注意的一項(xiàng)重要研究內(nèi)容,它反映了區(qū)域受關(guān)注的程度。本文的研究著眼于顯著性計(jì)算模型,更多模型對比和模型分類可以參考Borji等[1]的文章。視覺注意存在兩種機(jī)制:自底向上(Bottom-up)和自頂向下(Top-down)。過去的研究中,大多數(shù)的計(jì)算模型是基于自底向上的信息,即直接從圖像像素獲取特征。
自底向上顯著性計(jì)算模型開創(chuàng)性工作源自于文獻(xiàn)[2]的Itti模型,該模型是很多其他模型的基礎(chǔ)和對照基準(zhǔn),它通過整合多種低層次特征,如顏色、亮度、方向等,給出一個(gè)顯著度的概率分布圖。Harel等[3]在Itti模型的基礎(chǔ)上引入圖算法,通過計(jì)算節(jié)點(diǎn)間特征值相似性和空間位置距離進(jìn)行差異性度量獲取顯著圖。近年來隨著深度學(xué)習(xí)技術(shù)在目標(biāo)識別領(lǐng)域的成功應(yīng)用[4],研究者們對特征學(xué)習(xí)產(chǎn)生了更多的興趣。Borji等[5]通過稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結(jié)合局部和全局統(tǒng)計(jì)特性計(jì)算圖像塊的稀有性(rarity),稀有性反映了當(dāng)前圖像塊中心位置的顯著性。Vig等[6]通過訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)獲取層次特征,然后自動優(yōu)化特征組合。特征提取的過程可以看作是一種隱式空間映射,在映射空間中使用簡單的線性模型進(jìn)行顯著或非顯著的分類。以上學(xué)習(xí)方法獲得的特征都是一些低層次特征,對圖像中的邊緣和特定紋理結(jié)構(gòu)敏感。此外,部分研究人員希望從數(shù)學(xué)統(tǒng)計(jì)和信號處理的角度來度量顯著性。Bruce等[7]根據(jù)最大化信息采樣的原則構(gòu)建顯著性模型。Li等[8]總結(jié)了多種基于頻域的視覺注意研究工作,提出了一種基于超復(fù)數(shù)傅里葉變換(Hypercomplex Fourier Transform)的視覺注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。
以上模型均為數(shù)據(jù)驅(qū)動的顯著性模型,模擬人眼視覺注意過程中自底向上的機(jī)制。由于人眼視覺注意過程中不可避免地受到知識、任務(wù)、經(jīng)驗(yàn)、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺注意研究受到更多的關(guān)注?,F(xiàn)有模型整合的自頂向下信息可以分為三類:任務(wù)需求、場景上下文和對象特征。
Borji等[9]提出了一種構(gòu)建任務(wù)驅(qū)動的視覺注意模型的聯(lián)合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對場景主旨進(jìn)行建模,使用場景主旨引導(dǎo)視覺注意的轉(zhuǎn)移??紤]到任務(wù)需求和場景上下文建模的復(fù)雜性,研究人員將對象特征視為一種高層次的知識表示形式引入視覺注意模型中。Judd等[12]和Zhao等[13]通過將低層次特征和對象特征整合在一個(gè)學(xué)習(xí)框架下來獲得特征整合過程中每張?zhí)卣鲌D的疊加權(quán)重,但是模型使用的對象特征只有人臉、行人、車輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過程中添加了更多特征并且結(jié)合了其他顯著性模型的結(jié)果,最后用回歸、支撐向量機(jī)(Support Vector Machine, SVM)、 AdaBoost等多種機(jī)器學(xué)習(xí)算法結(jié)合眼動跟蹤數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明對象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級、對象級和語義級三個(gè)層次,并重點(diǎn)探索對象信息和語義屬性對視覺注意的作用;然而,模型中的對象級和語義級特征是手工標(biāo)定的,因而不是一種完全意義上的計(jì)算模型。
總的來看,雖然部分模型已經(jīng)使用對象特征作為自頂向下的引導(dǎo)信息,但是在對象特征的獲取和整合上仍有很大的局限性。首先,對不包含特定對象的場景適應(yīng)性較差;其次,對象特征描述困難,通常是通過特定目標(biāo)檢測方法獲取對象特征,計(jì)算效率低下;此外,對象特征的簡單整合方式不符合人眼的視覺感知機(jī)制。本文提出了一種結(jié)合深度學(xué)習(xí)獲取對象特征的視覺注意計(jì)算模型,重點(diǎn)研究了對象級特征的獲取和整合方法。算法結(jié)構(gòu)如1所示,其中像素級突出圖獲取采用現(xiàn)有視覺注意模型的方法,對象級突出圖獲取采用本文提出的基于卷積神經(jīng)網(wǎng)(Convolutional Neural Network, CNN)的特征學(xué)習(xí)和基于線性回歸的特征整合方法。實(shí)驗(yàn)結(jié)果表明,對象級特征的引入可以明顯提高顯著性預(yù)測精度,預(yù)測結(jié)果更符合人類視覺注意效果。
1 對象信息獲取
1.1 對象特征
大量實(shí)驗(yàn)證據(jù)表明對象特征引導(dǎo)視覺注意的轉(zhuǎn)移。視覺注意中引入對象特征是為了獲得圖像中對象位置等信息,目的與計(jì)算機(jī)視覺中的目標(biāo)檢測類似。因而,已有的視覺注意計(jì)算模型的對象特征通常是通過特定目標(biāo)檢測方法獲得。其中,Viola&Jones人臉檢測和Felzenszwalb車輛行人檢測是最常用的方法。文獻(xiàn)[12-14]均使用此類方法引入對象特征。由于這一類特征針對特定對象樣本進(jìn)行設(shè)計(jì)和訓(xùn)練,因而推廣能力不強(qiáng)。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入當(dāng)前對象區(qū)域的正樣本的數(shù)目;area()表示對象區(qū)域面積。li衡量當(dāng)前對象單位面積受關(guān)注的程度,對象單位面積受關(guān)注程度越高,其在對象整合過程中的權(quán)重應(yīng)越高,因而li與疊加權(quán)重成正比。
式(4)通過一個(gè)線性回歸模型對已有樣本數(shù)據(jù)進(jìn)行訓(xùn)練,獲得對象整合疊加權(quán)重W:
L=WF(4)
其中:F={F1,F(xiàn)2,…,F(xiàn)N}為訓(xùn)練樣本數(shù)據(jù)集合;L={l1,l2,…,lN}為訓(xùn)練樣本標(biāo)簽集合。
測試時(shí)根據(jù)式(5)~(6)獲得對象級突出圖:
3 顯著圖生成
視覺注意是自底向上和自頂向下兩種機(jī)制作用的結(jié)果。完全使用自頂向下的對象特征進(jìn)行顯著區(qū)域預(yù)測有一定缺陷,主要表現(xiàn)在以下幾個(gè)方面:首先,知識是對訓(xùn)練樣本數(shù)據(jù)的抽象表示,由于神經(jīng)網(wǎng)絡(luò)的規(guī)模和訓(xùn)練樣本中對象種類的限制,場景中部分對象對應(yīng)的特征沒有被抽象在網(wǎng)絡(luò)結(jié)構(gòu)中;其次,部分不具有明確語義的區(qū)域被錯誤地認(rèn)為是對象,對視覺注意形成錯誤的引導(dǎo);另外,人眼視覺注意轉(zhuǎn)移的生理學(xué)機(jī)制并不清楚,興趣區(qū)可能落在不具有對象特征區(qū)域中。因此,使用像素級特征給出低層次顯著性信息是必要的。
視覺注意模型中常用的像素級特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級特征獲取像素級突出圖Spixel。式(7)給出了整合的方法:
其中:S(i, j)為最終給出的視覺注意顯著圖;N()為歸一化操作;λ控制對象級突出圖與像素級突出圖的相對權(quán)重,通過實(shí)驗(yàn)分析可知λ=0.4時(shí)效果較好。當(dāng)圖像中不存在顯著物體或無法獲得高置信度的對象信息時(shí),圖像任意位置Sobj(i, j)=0,此時(shí)完全由像素級特征驅(qū)動的視覺注意引導(dǎo)。
4 實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)是以Visual Studio 2012為實(shí)驗(yàn)平臺,選取OSIE和MIT數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。OSIE數(shù)據(jù)集包含700張含有一個(gè)或多個(gè)明顯語義對象的圖片以及15名受試者的眼動跟蹤數(shù)據(jù),此外該數(shù)據(jù)集還提供了語義對象統(tǒng)計(jì)及人工標(biāo)注的精確對象區(qū)域。MIT數(shù)據(jù)集包含1003張自然場景圖片以及15名受試者的眼動跟蹤數(shù)據(jù)。這兩個(gè)數(shù)據(jù)集是當(dāng)前視覺注意研究領(lǐng)域中較大的數(shù)據(jù)集。為了驗(yàn)證本文方法的準(zhǔn)確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺注意方法進(jìn)行對比。
對比實(shí)驗(yàn)中使用的評價(jià)指標(biāo)為ROC(Receiver Operating Characteristic)曲線,實(shí)現(xiàn)方法與文獻(xiàn)[12,15]相同。圖6~8為實(shí)驗(yàn)對比結(jié)果,顯著區(qū)域百分比是通過對歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當(dāng)前落入顯著區(qū)域的樣本占所有樣本的比例。通過變化顯著區(qū)域百分比獲得ROC曲線。為了更直觀比較算法效果,實(shí)驗(yàn)結(jié)果圖中標(biāo)注了每種算法的AUC(Area Under Curve)值,AUC值通過計(jì)算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預(yù)測結(jié)果越準(zhǔn)確。
圖6為利用對象級突出圖作為顯著圖在OSIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。相對于RCNN算法, fasterRCNN算法使用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu)和更多對象類別的訓(xùn)練樣本,具有較高的對象位置預(yù)測準(zhǔn)確率和對象檢出率。實(shí)驗(yàn)分析可以看出,使用fasterRCNN算法生成對象級突出圖可以更好進(jìn)行顯著性預(yù)測。同時(shí),人臉特征(FACE)的引入進(jìn)一步提升了預(yù)測準(zhǔn)確性,從一個(gè)側(cè)面說明了對象性信息對視覺注意的轉(zhuǎn)移具有引導(dǎo)作用。
圖7是多種視覺注意算法在OSIE數(shù)據(jù)集上的ROC曲線,可以看出本文方法實(shí)驗(yàn)效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準(zhǔn)確率較差。圖中對象級特征曲線為使用fasterRCNN結(jié)合人臉特征生成對象級突出圖獲得,由于該方法完全使用自頂向下的對象特征,顯著性預(yù)測準(zhǔn)確率明顯弱于其他方法,因而證明了引入像素級特征必要性。圖8為MIT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,本文方法和Judd算法為最好的兩種方法,實(shí)驗(yàn)結(jié)果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對象特征,可以看出整合了對象特征的方法相對于完全自底向上模型有明顯優(yōu)勢。
圖9中給出了多種算法顯著圖的直觀對比。與其他方法強(qiáng)調(diào)對象邊緣不同,本文結(jié)合了對象信息的方法可以有效突出圖像中的完整對象區(qū)域。
5 結(jié)語
本文提出一種結(jié)合對象信息的視覺注意方法。與傳統(tǒng)的視覺注意整合對象方法相比,該方法利用卷積神經(jīng)網(wǎng)學(xué)到的對象特征,獲取圖像中對象位置等信息;然后通過一個(gè)線性回歸模型將同一幅圖像的多個(gè)對象加權(quán)整合,獲得對象級突出圖;最后,根據(jù)視覺注意的層次整合機(jī)制,將低層次特征和對象特征進(jìn)行融合形成最終的顯著圖。本文方法在不同數(shù)據(jù)集上的準(zhǔn)確率要高于現(xiàn)有模型。針對包含明顯對象的圖像,本文方法克服了部分現(xiàn)有模型由于邊緣強(qiáng)化效果導(dǎo)致的顯著區(qū)域預(yù)測不準(zhǔn)的問題。本文方法仍然存在一定局限性,未來的工作將嘗試非線性對象整合以及增大訓(xùn)練樣本數(shù)量和網(wǎng)絡(luò)規(guī)模以獲取更多種對象特征。
參考文獻(xiàn):