卷積神經(jīng)網(wǎng)絡綜述范文
時間:2024-04-03 16:11:16
導語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡綜述,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
【關鍵詞】深度學習 卷積神經(jīng)網(wǎng)絡 權值共享 下采樣 R-CNN Fast-R-CNN
1 緒論
隨著電子信息技術的快速發(fā)展,芯片的設計與生產(chǎn)進入了納米時代,計算機的計算能力與計算速度得到了空前的提高,但是人們的需求是無限的,要求計算機能更加任性化的服務于我們的生活,這也就要求計算機本身能像人一樣識別與感知周圍的環(huán)境,并對復雜的環(huán)境做出正確的判斷。而圖片信息是我們周圍環(huán)境最直觀的,最容易獲取的信息,要求計算機能對為的環(huán)境做出識別與判斷也就要求計算機能夠智能的識別圖像信息。深度學習是機器學習中的一個新的研究領域。通過深度學習的方法構建深度網(wǎng)絡來抽取目標特征進而識別周圍的環(huán)境。卷積神經(jīng)網(wǎng)絡對圖像的處理具有平移,旋轉(zhuǎn),扭曲不變的優(yōu)良特性。在處理圖像是更加快捷和便利。卷積神經(jīng)網(wǎng)絡使得計算機在感知識別周圍環(huán)境的能力有了巨大的提升,使得計算機更加智能。卷積神經(jīng)網(wǎng)絡擁有強大的特征提取能力,使得其在圖像分類識別,目標跟蹤等領域有著強大的運用。
1.1 國內(nèi)外研究現(xiàn)狀
1986年,Rumelhart和Mc Celland提出BP算法。BP算法反向傳導神經(jīng)網(wǎng)絡輸出誤差進行訓練神經(jīng)網(wǎng)絡。通過BP算法,神經(jīng)網(wǎng)絡能夠從大量訓練數(shù)據(jù)中的學習到相關統(tǒng)計信息,學習到的數(shù)據(jù)統(tǒng)計信息能夠反映關于輸入-輸出數(shù)據(jù)模型的函數(shù)映射關系。
自2006年以來,Geoffery Hinton教授提出深度信念網(wǎng)絡。從此深度學習在學術界持續(xù)升溫。深度學習不僅改變著傳統(tǒng)的機器學習方法,也影響著我們對人類感知的理解,迄今已在語音識別和圖像理解等應用領域引起了突破性的變革。各種相關的算法和模型都取得了重要的突破,使得深度學習在圖像分類,語音識別,自然語言處理等領域有廣泛的運用。
2013年百度成立百度深度學習研究院以來我國的人工智能領域取得了長足的進步。在人工智能專家吳恩達的帶領下,百度陸續(xù)推出一系列人工智能產(chǎn)品,無人駕駛技術,DuerOS語音交互計算平臺,人臉識別技術,美樂醫(yī)等優(yōu)秀產(chǎn)品。此外Imagenet圖像識別大賽中也誕生了一系列經(jīng)典的神經(jīng)網(wǎng)絡結構,VGG,F(xiàn)ast-R-CNN,SPP-net等等,可以說人工智能技術在近幾年得到了空前的發(fā)展。
2 深度學習概述
深度學習是機器學習的一個新方向,通過學習樣本數(shù)據(jù)內(nèi)在規(guī)律和深層特征深度,深度學習神經(jīng)網(wǎng)絡能夠像人一樣有分析和學的能力,尤其在文字處理,圖像識別,語音等領域更加突出。能夠自主學習一些新的東西。目前深度學習使用的典型技術是通過特征表達和分類器來進行目標識別等任務的。并在語音識別、圖像處理、機器翻譯等領域取得很多成果。
深度學習不同于以往的淺層學習,淺層學習模型值包含一個隱藏層,或者不存在隱藏層,深度學習則是由很多隱藏層組成的,上一層的輸出作為下一層的輸入,實驗對輸入信息進行分級表達。目前深度學習框架主要包含三種深度學習框架,如圖1、2、3所示。
3 卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡的結構層次比傳統(tǒng)的神經(jīng)網(wǎng)絡復雜,卷積神經(jīng)網(wǎng)絡包含大量的隱藏層,相鄰的卷積核或者下采樣核采用局部感受野全鏈接,神經(jīng)元權值共享的規(guī)則,因此卷積神經(jīng)網(wǎng)絡訓練參數(shù)的數(shù)量遠比傳統(tǒng)神經(jīng)網(wǎng)絡少,卷積神經(jīng)網(wǎng)絡在訓練和前向測試的復雜度大幅度降低,同時也減少了神經(jīng)網(wǎng)絡訓練參數(shù)過擬合的幾率。卷積神經(jīng)網(wǎng)絡主要有兩部分,分別是卷積核和下采樣核。卷積核主要對上一層的圖像進行卷積運算,提取圖像特征,下采樣核則是對上層的數(shù)據(jù)進行將為處理,減少神經(jīng)網(wǎng)絡的復雜度。
卷積神經(jīng)網(wǎng)絡中每一個神經(jīng)元的輸入與前一層的局部感受野相連,提取局部感受野的特征,比如圖像的輪廓,顏色等特征,而這些特征不僅包括傳統(tǒng)人類能理解的特征,也包括神經(jīng)網(wǎng)絡自身能夠識別的特征,卷積核全職共享,因此這些特征提取與圖像的位置無關。
圖4是經(jīng)典的LeNet5卷積神經(jīng)網(wǎng)絡架構,LeNet5架構中卷積核和下采樣核交替出現(xiàn),下采樣核及時的將卷積核生成的特征向量進行降維,減少神經(jīng)網(wǎng)絡的運算量。LeNet5算法在1962年幼Hubel等人提出,在識別手寫數(shù)字mnist中有極高的準確率。
4 R-CNN、Fast-R-CNN對比分析
卷積神經(jīng)網(wǎng)絡在對圖像進行識別具有平移,旋轉(zhuǎn),扭曲不變的優(yōu)良特性,并且能夠?qū)崿F(xiàn)高準確率識別圖像,但是在現(xiàn)實生活運用中往往需要神經(jīng)網(wǎng)絡標記出目標的相對位置,這是傳統(tǒng)卷積神經(jīng)網(wǎng)絡不具備的功能。因此在前人傳統(tǒng)卷積神經(jīng)網(wǎng)路基礎上對卷積神經(jīng)網(wǎng)絡進行改進,產(chǎn)生了具有對圖像中目標進行識別和定位的卷積神經(jīng)網(wǎng)絡R-CNN,F(xiàn)ast-R-CNN等改良算法。
4.1 R-CNN
R-CNN為Region Convoluntional Neural Network的縮寫即對圖像進行局部區(qū)域的卷積處理,其核心思想主要是利用候選區(qū)圖像對物體探測中位置信息進行精確處理和利用監(jiān)督式預訓練和區(qū)域特殊化的微調(diào)方法,代替了傳統(tǒng)的非監(jiān)督式預訓練和監(jiān)督式微調(diào)。
在CNN中,全連接層輸入是固定大小的,因此R-CNN用計算機視覺算法將每一張圖片分割成1000-2000張的候選區(qū)圖片后,要將這些候選區(qū)圖片進行變換,生成固定大小的候選圖片,在訓練提取特征時一般采用經(jīng)過預訓練的模型參數(shù)進行finetuning,榱嗽黽友盜費本,模型在也將生成的候選框以及標定的標簽作為訓練樣本進行訓練。R-CNN采用SVMs分類器對特征向量進行分類,在訓練SVMs時將候選框經(jīng)過卷積神經(jīng)網(wǎng)絡提取的特征和SVM標定結果輸入到SVMs分類器訓練分類器模型。而在測試時將圖像全部候選框經(jīng)過卷積神經(jīng)網(wǎng)絡提取的特征輸入到SVMs分類器中,得到每一類的評分結果。但是R-CNN在處理一張圖片是要處理需要對一張圖片1000-2000個候選區(qū)圖像進行前向運算,保存所有后選取圖片的特征值,要求計算硬件有大量的存儲空間,同時處理每一張圖片的時間也會增加。由于訓練集龐大,本文采用hard negative mining method方法提高存儲的利用率。
R-CNN的體現(xiàn)出了極大的優(yōu)勢,其中MAP也可以大幅度提高,但是正如本文上述,R-CNN計算的時間成本很大,達不到實時的計算效果,R-CNN在對候選區(qū)進行處理時會使得圖像失真,部分信息丟失。
4.2 Fast-R-CNN
Fast-R-CNN則是再次改進的一種基于卷積神經(jīng)網(wǎng)絡目標跟蹤定位算法。相比于R-CNN,F(xiàn)ast-R-CNN從單輸入變?yōu)殡p輸入,在全連接層后有了兩個輸出,引入了Rol層。
Fast-R-CNN在運行的時候同樣會生成大量的候選區(qū),同時將原始的圖片用卷積神經(jīng)網(wǎng)絡進行特征提取,將原始圖片提取的特征與生成的候選區(qū)坐標送入Rol層為每一個候選區(qū)生成一個固定大小的特征向量。最后將Rol生成的特征向量全連接層產(chǎn)生最終的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式,SoftMax LOSS用于計算K+1分類的損失,K為第K個目標,1為背景;Regression LOSS計算候選區(qū)的四個角的坐標。
Fast-R-CNN在MAP上有了大幅度的提升,速度也得到了提升,但是在計算候選區(qū)是仍存在瓶頸,這也是限制Fast-R-CNN速度的因素。
5 實驗測試
對于本文提出的卷積神經(jīng)網(wǎng)絡識別圖像定位圖像目標算法R-CNN,F(xiàn)ast-R-CNN,在本章給出實驗結果。實驗平臺為基于Linux系統(tǒng)的debian8下運行caffe進行訓練,采用顯卡K620進行實驗。
訓練模型初始化參數(shù)在是服從高斯隨機分布,R-CNN采用的網(wǎng)絡結構如圖7所示,F(xiàn)ast-R-CNN的網(wǎng)絡結構如圖8所示。
本次實現(xiàn)的訓練樣本為錄制實驗室視頻數(shù)據(jù),將視頻數(shù)據(jù)轉(zhuǎn)換成幀圖片,對每張圖片數(shù)據(jù)進行裁剪,裁剪后圖像大小在256*256,共有500張,再將裁剪后的圖片進行旋轉(zhuǎn),平移,扭曲,鏡像,加噪聲等處理,最后生成144萬張樣本圖片,其中136.8萬張圖片作為訓練樣本,7.2萬張作為測試樣本。
6 總結
在目標識別定位領域,卷積神經(jīng)網(wǎng)絡具有強大的圖像處理能力,對圖像的識別定位具有很高度平移,旋轉(zhuǎn),扭曲不變形的優(yōu)良性能。卷積神經(jīng)網(wǎng)絡架構R-CNN和Fast-R-CNN都有強大的圖像處理能力。Fast-R-CNN在識別準確率上比R-CNN高。R-CNN算法復雜,對一張圖片需要進行1000-2000次的卷積運算,特征重復提取。因此在訓練和前向測試時,R-CNN用的時間長,不能很好的適用于處理實時圖片數(shù)據(jù),尤其視頻數(shù)據(jù)。R-CNN在對每個候選區(qū)進行特征提取之后需要將提取的特征向量存入內(nèi)存,降低訓練測試時間的同時也需要耗費大量內(nèi)存。因此從各方面分析可知,F(xiàn)ast-R-CNN性能優(yōu)于R-CNN。
參考文獻
[1]謝寶劍.基于卷積神經(jīng)網(wǎng)絡圖像分類方法研究[D].合肥工業(yè)大學,2015.
[2]鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014(02):175-184.
[3]陳先昌.基于卷積神經(jīng)網(wǎng)絡的深度學習算法與運用研究[D].杭州:浙江工商大學,2006(04):603-617.
[4]李彥冬,郝宗波,雷航等.卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機應用,2016.
[5]Gibson.J J.The perception of the Visual World[J].Cambridge,England,1950.
[6]HORN B,SCHUNCK P.Determining optical flow[J].Artificial Intelligence, 1981,17:185-203.
[7]R.Girshick,J.Donahue,T. Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014
[8]Ross Girshick,Wicrosoft Research. Fast R-CNN,.
[9]R.Girshick.Fast R-CNN. arXiv:1504.08083,2015.
篇2
關鍵詞:卷積神經(jīng)網(wǎng)絡;人臉識別;大樣本;對抗生成網(wǎng)絡
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)在目標檢測、目標識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機視覺領域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標簽的數(shù)據(jù)作為訓練集,學習出具有百萬參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡能夠有效提取對象的本質(zhì)特征;
(2)不斷改進性能優(yōu)異的網(wǎng)絡結構,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設備(如GPU)的支持,大大提高了CNN訓練模型的效率。其中,將標簽的大量數(shù)據(jù)作為訓練集起著至關重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。
有效的特征是目標識別的關鍵,對人臉識別問題來說亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績?;趥鹘y(tǒng)特征的人臉識別受限于環(huán)境,此類特征作用在復雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數(shù)據(jù)中學習到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學習特征,無需人工設計特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動學習獲取,從而達到優(yōu)秀的識別性能。基于卷積神經(jīng)網(wǎng)絡的世界領先方法均使用了上百萬的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡需要260萬個人臉圖像樣本進行訓練[10],F(xiàn)acebook的DeepFace網(wǎng)絡需要440萬個有標簽的人臉圖像樣本訓練[11]。而Google更使用了2億樣本數(shù)據(jù)來訓練FaceNet網(wǎng)絡[12]。
1 多樣本獲取現(xiàn)狀
如引言所述,有效合理的特征是目標識別的關鍵,而CNN能從大量有標簽的數(shù)據(jù)中自動學習圖像的本質(zhì)特征。獲得圖像特征的關鍵因素是有標簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標簽方面。然而,獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標簽,耗費大量的人力物力。雖然也有一些公開免費的數(shù)據(jù)集,且收集該類數(shù)據(jù)相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學習方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學習技術提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機器學習技術自動增加樣本集已成為必要手段。
無論基于傳統(tǒng)方法的識別問題,還是基于深度學習的識別問題,大量有標簽的數(shù)據(jù)作為訓練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬有標簽的數(shù)據(jù)集擴大到了26萬 [10]。除此之外,F(xiàn)acebook獲取了440萬個有標簽的人臉進行DeepFace網(wǎng)絡訓練[11],而Google使用2億個數(shù)據(jù)訓練FaceNet網(wǎng)絡[12]。
目前獲取方法具有如下局限:
(1)現(xiàn)有方法耗時耗力,需要經(jīng)費支持。獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標簽的數(shù)據(jù)進行網(wǎng)絡訓練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫(yī)學圖像,遙感圖像,現(xiàn)實中數(shù)量本身就少,加之無法直接從網(wǎng)上獲取,因此小樣本很容易導致過擬合。
2 樣本集擴大算法研究現(xiàn)狀
2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀
對于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓練樣本,均可得到比較滿意的識別結果,但在現(xiàn)實的人臉數(shù)據(jù)庫中,人臉的數(shù)據(jù)樣本卻是有限的。文獻[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識別的準確率。
為了增加樣本數(shù)量,提高識別準確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴大數(shù)據(jù)集并提高人臉識別的正確率,Song[22]也提出相應的算法來改進人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產(chǎn)生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴大數(shù)據(jù)集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來產(chǎn)生虛擬樣本[23]。
(4)基于數(shù)學的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關實驗,其結果如圖1所示。假設數(shù)據(jù)集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數(shù),代表多個樣本的串聯(lián),即將多個樣本聯(lián)合起來得到一個類別的新樣本。
2.2 基于深度學習的多樣本生成算法研究現(xiàn)狀
大量有標簽的訓練數(shù)據(jù)是機器學習成功的關鍵,尤其對于強大的深度學習技術,大數(shù)據(jù)集能提高CNN的性能,防止過擬合[25]。為了擴充數(shù)據(jù)集,已有一些工作在不改變圖像語義的情況下進行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。
DeepID[30]采取了增大數(shù)據(jù)集手法來訓練網(wǎng)絡,只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡訓練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:
(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。
(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進行訓練,再把得到的向量串聯(lián)起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術,該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應按一定的角度進行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問題,如Shotton等通過隨機森林合成3D深度數(shù)據(jù)來估計人體姿勢,Jaderberg等使用合成數(shù)據(jù)來訓練CNN模型識別自然場景下的文字[31]。這些研究的結果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復雜,需要較多的前期工作。
近年來,借助生成對抗網(wǎng)絡(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點及其在圖像生成方面的應用,標志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網(wǎng)絡不穩(wěn)定,甚至有時該網(wǎng)絡永遠不會開始學習,生成的結果無法令人滿意。文獻[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經(jīng)網(wǎng)絡連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉(zhuǎn)換成對的圖像。文獻[35]將GAN應用于超分辨率中,該文獻提出了全新的損失函數(shù),使得 GANs 能對大幅降采樣后的圖像恢復其生動紋理和小顆粒細節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡[36],該文獻指出,用大數(shù)據(jù)集訓練出的 GANs 能學習一整套層級的特征,并具有比其他無監(jiān)督學習模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網(wǎng)絡GAN的生成器網(wǎng)絡G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區(qū)分真假;而判別器D應不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數(shù)如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓練樣本的標簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現(xiàn)實應用意義。雖然研究人員已經(jīng)對相關問題進行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質(zhì)特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設計合理有效的構造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網(wǎng)絡,研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
篇3
關鍵詞人臉識別;特征提取
1人臉識別技術概述
近年來,隨著計算機技術的迅速發(fā)展,人臉自動識別技術得到廣泛研究與開發(fā),人臉識別成為近30年里模式識別和圖像處理中最熱門的研究主題之一。人臉識別的目的是從人臉圖像中抽取人的個性化特征,并以此來識別人的身份。一個簡單的自動人臉識別系統(tǒng),包括以下4個方面的內(nèi)容:
(1)人臉檢測(Detection):即從各種不同的場景中檢測出人臉的存在并確定其位置。
(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。
(3)人臉表征(FaceRepresentation):采取某種方式表示檢測出人臉和數(shù)據(jù)庫中的已知人臉。
(4)人臉識別(Recognition):將待識別的人臉與數(shù)據(jù)庫中的已知人臉比較,得出相關信息。
2人臉識別算法的框架
人臉識別算法描述屬于典型的模式識別問題,主要有在線匹配和離線學習兩個過程組成,如圖1所示。
圖1一般人臉識別算法框架
在人臉識別中,特征的分類能力、算法復雜度和可實現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對最終分類結果有著決定性的影響。分類器所能實現(xiàn)的分辨率上限就是各類特征間最大可區(qū)分度。因此,人臉識別的實現(xiàn)需要綜合考慮特征選擇、特征提取和分類器設計。
3人臉識別的發(fā)展歷史及分類
人臉識別的研究已經(jīng)有相當長的歷史,它的發(fā)展大致可以分為四個階段:
第一階段:人類最早的研究工作至少可追朔到二十世紀五十年代在心理學方面的研究和六十年代在工程學方面的研究。
J.S.Bruner于1954年寫下了關于心理學的Theperceptionofpeople,Bledsoe在1964年就工程學寫了FacialRecognitionProjectReport,國外有許多學校在研究人臉識別技術[1],其中有從感知和心理學角度探索人類識別人臉機理的,如美國TexasatDallas大學的Abdi和Tool小組[2、3],由Stirling大學的Bruce教授和Glasgow大學的Burton教授合作領導的小組等[3];也有從視覺機理角度進行研究的,如英國的Graw小組[4、5]和荷蘭Groningen大學的Petkov小組[6]等。
第二階段:關于人臉的機器識別研究開始于二十世紀七十年代。
Allen和Parke為代表,主要研究人臉識別所需要的面部特征。研究者用計算機實現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點是識別過程全部依賴于操作人員,不是一種可以完成自動識別的系統(tǒng)。
第三階段:人機交互式識別階段。
Harmon和Lesk用幾何特征參數(shù)來表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設計了基于這一特征表示法的識別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計識別方法,用歐氏距離來表征人臉特征。但這類方法需要利用操作員的某些先驗知識,仍然擺脫不了人的干預。
第四階段:20世紀90年代以來,隨著高性能計算機的出現(xiàn),人臉識別方法有了重大突破,才進入了真正的機器自動識別階段。在用靜態(tài)圖像或視頻圖像做人臉識別的領域中,國際上形成了以下幾類主要的人臉識別方法:
1)基于幾何特征的人臉識別方法
基于幾何特征的方法是早期的人臉識別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時往往要用到人臉結構的一些先驗知識。識別所采用的幾何特征是以人臉器官的形狀和幾何關系為基礎的特征矢量,本質(zhì)上是特征矢量之間的匹配,其分量通常包括人臉指定兩點間的歐式距離、曲率、角度等。
基于幾何特征的識別方法比較簡單、容易理解,但沒有形成統(tǒng)一的特征提取標準;從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時;對較大的表情變化或姿態(tài)變化的魯棒性較差。
2)基于相關匹配的方法
基于相關匹配的方法包括模板匹配法和等強度線方法。
①模板匹配法:Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,并得出結論:基于幾何特征的人臉識別方法具有識別速度快和內(nèi)存要求小的優(yōu)點,但在識別率上模板匹配要優(yōu)于基于幾何特征的識別方法。
②等強度線法:等強度線利用灰度圖像的多級灰度值的等強度線作為特征進行兩幅人臉圖像的匹配識別。等強度曲線反映了人臉的凸凹信息。這些等強度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實形狀的等強度線。
3)基于子空間方法
常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴展到混合線性子空間和非線性子空間。
Turk等[11]采用本征臉(Eigenfaces)方法實現(xiàn)人臉識別。由于每個本征矢量的圖像形式類似于人臉,所以稱本征臉。對原始圖像和重構圖像的差分圖像再次進行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對于眼、鼻和嘴等特征分別建立一個本征子空間,并聯(lián)合本征臉子空間的方法獲得了好的識別結果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉方法的識別結果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識別效果好于本征臉方法。當每個人有多個樣本圖像時,本征空間法沒有考慮樣本類別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識別結果。Bartlett等[18]采用獨立分量分析(ICA,IndependentComponentAnalysis)的方法識別人臉,獲得了比PCA方法更好的識別效果。
4)基于統(tǒng)計的識別方法
該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。
①KL變換:將人臉圖像按行(列)展開所形成的一個高維向量看作是一種隨機向量,因此采用K-L變換獲得其正交K-L基底,對應其中較大特征值基底具有與人臉相似的形狀。國外,在用靜態(tài)圖像或視頻圖像做人臉識別的領域中,比較有影響的有MIT的Media實驗室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。
②隱馬爾可夫模型:劍橋大學的Samaria和Fallside[20]對多個樣本圖像的空間序列訓練出一個HMM模型,它的參數(shù)就是特征值;基于人臉從上到下、從左到右的結構特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識別人臉[24],如圖2(b)所示。后來集成coupledHMM和HMM通過對超狀態(tài)和各嵌入狀態(tài)采用不同的模型構成混合系統(tǒng)結構[25]。
基于HMM的人臉識別方法具有以下優(yōu)點:第一,能夠允許人臉有表情變化,較大的頭部轉(zhuǎn)動;第二,擴容性好.即增加新樣本不需要對所有的樣本進行訓練;第三,較高的識別率。
(a)(b)
圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型
5)基于神經(jīng)網(wǎng)絡的方法
Gutta等[26]提出了混合神經(jīng)網(wǎng)絡、Lawrence等[27]通過一個多級的SOM實現(xiàn)樣本的聚類,將卷積神經(jīng)網(wǎng)絡CNN用于人臉識別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡方法提取人臉圖像特征,用自相關神經(jīng)網(wǎng)絡進一步壓縮特征,最后采用一個MLP來實現(xiàn)人臉識別。Er等[30]采用PCA進行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia等[31]基于PZMI特征,并采用混合學習算法的RBF神經(jīng)網(wǎng)絡進行人臉識別。神經(jīng)網(wǎng)絡的優(yōu)勢是通過學習的過程獲得對這些規(guī)律和規(guī)則的隱性表達,它的適應性較強。
6)彈性圖匹配方法
Lades等提出采用動態(tài)鏈接結構(DLA,DynamicLinkArchitecture)[32]的方法識別人臉。它將人臉用格狀的稀疏圖如圖3所示。
圖3人臉識別的彈性匹配方法
圖3中的節(jié)點用圖像位置的Gabor小波分解得到的特征向量標記,圖的邊用連接節(jié)點的距離向量標記。Wiskott等人使用彈性圖匹配方法,準確率達到97.3%。Wiskott等[33]將人臉特征上的一些點作為基準點,構成彈性圖。采用每個基準點存儲一串具有代表性的特征矢量,減少了系統(tǒng)的存儲量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進一步消除了結構中的冗余信息和背景信息,并使用一個多層的分級結構。Grudin等[35]也采用分級結構的彈性圖,通過去除了一些冗余節(jié)點,形成稀疏的人臉描述結構。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表(x,y,I(x,y)),將人臉匹配問題轉(zhuǎn)換為曲面匹配問題,利用有限分析的方法進行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識別人臉。
7)幾種混合方法的有效性
(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。
K-L變換的核心過程是計算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當圖像有小的擾動時,奇異值的變化不大。奇異值表示了圖像的代數(shù)特征,在某種程度上,SVD特征同時擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對人臉進行識別,提高識別的準確性[37]。
(2)HMM和奇異值分解相融合的分類判別方法。
采用奇異值分解方法進行特征提取,一般是把一幅圖像(長為H)看成一個N×M的矩陣,求取其奇異值作為人臉識別的特征。在這里我們采用采樣窗對同一幅圖片進行重疊采樣(如圖4),對采樣所得到的矩陣分別求其對應的前k個最大的奇異值,分別對每一組奇異值進行矢量標準化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。
圖4采樣窗采樣
綜合上述論文中的實驗數(shù)據(jù)表明[39],如表1:
表1人臉識別算法比較
8)基于三維模型的方法
該類方法一般先在圖像上檢測出與通用模型頂點對應的特征點,然后根據(jù)特征點調(diào)節(jié)通用模型,最后通過紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結構光源和立體視覺理論,通過攝像機獲取立體圖像,根據(jù)圖像特征點之間匹配構造人臉的三維表面,如圖5所示。
圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型
Zhao[41]提出了一個新的SSFS(SymetricShape-from-Shading)理論來處理像人臉這類對稱對象的識別問題,基于SSFS理論和一個一般的三維人臉模型來解決光照變化問題,通過基于SFS的視圖合成技術解決人臉姿態(tài)問題,針對不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。
三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中,基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點的坐標,而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖,如圖7所示。
圖7三維建模的系統(tǒng)框圖
三維人臉建模、待識別人臉的姿態(tài)估計和識別匹配算法的選取是實現(xiàn)三維人臉識別的關鍵技術。隨著采用三維圖像識別人臉技術的發(fā)展,利用直線的三維圖像信息進行人臉識別已經(jīng)成為人們研究的重心。
4總結與展望
人臉自動識別技術已取得了巨大的成就,隨著科技的發(fā)展,在實際應用中仍然面臨困難,不僅要達到準確、快速的檢測并分割出人臉部分,而且要有效的變化補償、特征描述、準確的分類的效果,還需要注重和提高以下幾個方面:
(1)人臉的局部和整體信息的相互結合能有效地描述人臉的特征,基于混合模型的方法值得進一步深入研究,以便能準確描述復雜的人臉模式分布。
(2)多特征融合和多分類器融合的方法也是改善識別性能的一個手段。
(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準確的人臉識別仍較困難。為了滿足自動人臉識別技術具有實時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術的融合方法。
(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對各種變化因素采用模擬或補償?shù)姆椒ň哂休^好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統(tǒng)識別算法的基礎上改進和創(chuàng)新。
(5)表面紋理識別算法是一種最新的算法[52],有待于我們繼續(xù)學習和研究出更好的方法。
總之,人臉識別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識別效果,如何與其它技術相結合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實現(xiàn),如何實用化都是將來值得研究的。
參考文獻
[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411
[2]張翠萍,蘇光大.人臉識別技術綜述.中國圖像圖形學報,2000,5(11):885-894
[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67
[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86
[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464
[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640
[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95
[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136
[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553
[10]HaddadniaJ,AhmadiM,F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16
[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311
[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191
[13]羊牧.基于KL投影和奇異值分解相融合人臉識別方法的研究[D].四川大學.2004,5,1
[14]白冬輝.人臉識別技術的研究與應用[D].北方工業(yè)大學.2006,5
篇4
關鍵詞:PCB;圖像處理;視覺檢測
中圖分類號:TP277文獻標識碼:A文章編號:1009-3044(2012)07-1648-06
當今世界科技發(fā)展日新月異,電子產(chǎn)業(yè)的發(fā)展直接制約著國民經(jīng)濟的騰飛與否,而PCB電路板制作工藝的提高對促進電子產(chǎn)業(yè)的發(fā)展至關重要,能否有效精確地檢測PCB電路板的缺陷一直都是電子行業(yè)的研究熱點。國外的印刷電路板自動檢測技術一直領先于國內(nèi),國內(nèi)的很多廠家不得不采用昂貴的外國技術,雖然近年國內(nèi)的印刷電路板自動檢測技術發(fā)展迅速,但大都沒有取得令人非常滿意的結果。加入研究這一領域的熱潮,趕超外國的先進技技水平,打斷外國壟斷技術,對于發(fā)展國民經(jīng)濟具有十分重要的意義。
1 PCB檢測系統(tǒng)的硬件設計
1.1 PCB檢測系統(tǒng)的硬件組成框圖
雖然本文所做的工作主要是軟件方面,但對于硬件系統(tǒng)的設計也是至關重要的,它對于建立有效的計算機視覺識別檢測系統(tǒng),起著決定性作用。因此,必須在綜合考慮系統(tǒng)性價比和系統(tǒng)性能的基礎上,設計出合理的硬件系統(tǒng)[9]。PCB檢測系統(tǒng)的硬件組成框圖如圖1所示:圖1 PCB檢測系統(tǒng)硬件組成框圖
1.2系統(tǒng)的硬件組成
系統(tǒng)的硬件組成[10]主要包括:計算機主機、CCD攝像機、圖像采集卡、照明系統(tǒng)及相關的設備。
2 PCB電路板缺陷檢測識別
PCB電路板在電子工業(yè)中的應用越來越廣泛,如何降低電路板的故障率、提高電路板的質(zhì)量直接影響到整個產(chǎn)業(yè)的發(fā)展。因此,對于PCB電路板缺陷的識別技術的發(fā)展至關重要。PCB電路板的缺陷很多[16],主要有短路、斷路、劃痕、凸起、空洞、缺焊、過焊等等,由于實驗室設備限制和個人水平所限,本文主要研究的內(nèi)容是PCB電路板短路與斷路的檢測識別
近年來出現(xiàn)了很多圖像檢測算法,這些算法大致可分為三大類:有參考算法、無參考算法以及混合型算法。有參考算法分為兩大類:圖像對比法和模型對比法。無參考算法是一種不需要標準圖像的檢測算法,它是基于一定的設計規(guī)則來進行檢測的。混合型方法是將有參考算法與無參考算法混合使用,從而發(fā)揮出各自的優(yōu)點。比如,模板匹配法與數(shù)學形態(tài)學方法結合使用,或者連接表方法與數(shù)學形態(tài)學方法結合使用等。本文中短路與斷路的檢測識別采取了圖像對比法,即將經(jīng)過一定處理后的圖像進行相減,從而分析相應的結果;而對焊點缺陷的識別主要采用模板匹配法與數(shù)學形態(tài)學方法結合使用。
2.1 PCB電路板缺陷檢測識別的主要流程圖
圖2為子程序流程圖;圖3為主程序流程圖。
2.2 PCB電路板短路與斷路的檢測識別
2.2.1邊緣檢測
在對圖像進行基本的處理過后可以將圖像與背景分割開來。邊緣檢測是圖像處理和計算機視覺中的基本問題,邊緣檢測的目的是標識數(shù)字圖像中亮度變化明顯的點。圖像屬性中的顯著變化通常反映了屬性的重要事件和變化。
這些包括:深度上的不連續(xù);表面方向不連續(xù);物質(zhì)屬性變化;場景照明變化。邊緣檢測是圖像處理和計算機視覺中,尤其是特征提取中的一個研究領域。
圖像邊緣檢測大幅度地減少了數(shù)據(jù)量,并且剔除了可以認為不相關的信息,保留了圖像重要的結構屬性。有許多方法用于邊緣檢測,它們的絕大部分可以劃分為兩類[17]:基于查找一類和基于零穿越的一類?;诓檎业姆椒ㄍㄟ^尋找圖像一階導數(shù)中的最大和最小值來檢測邊界,通常是將邊界定位在梯度最大的方向。基于零穿越的方法通過尋找圖像二階導數(shù)零穿越來尋找邊界,通常是Laplacian過零點或者非線性差分表示的過零點。
1)Roberts算子
邊緣,是指周圍像素灰度有階躍變化或屋頂?shù)茸兓哪切┫袼氐募?。圖像的邊緣對應著圖像灰度的不連續(xù)性。顯然圖像的邊緣很少是從一個灰度跳到另一個灰度這樣的理想狀況。真實圖像的邊緣通常都具有有限的寬度呈現(xiàn)出陡峭的斜坡狀。邊緣的銳利程度由圖像灰度的梯度決定。梯度是一個向量,?f指出灰度變化的最快的方向和數(shù)量,如式2-1所示。
?f=(決定的。
因此最簡單的邊緣檢測算子是用圖像的垂直和水平差分來逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)
因此當我們想尋找邊緣的時候,最簡單的方法是對每一個像素計算出(2,4)的向量,然后求出他的絕對值,然后進行閥值操作就可以了。利用這種思想就得到了Roberts算子,由式2-5所示。
R(i,j)=
(式2-5)
它是一個兩個2×2模板作用的結果。
2)Sobel算子
該算法通過2個3*3的模板,對選定的二維圖像中同樣大小窗口進行卷積,通常是一個模板對一個邊緣響應大,另一個模板對水平邊緣響應大,兩個卷積值對最大值作為該點對輸出。對于圖像上的任意點(i,j)進行卷積,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)則輸出圖像公式如式2-8所示。
用sobel算子檢測階躍邊緣得到的邊緣寬度至少為兩個寬度。3)Laplacian邊緣檢測算子
Laplacian算子定義由式2-9所示。
Δ2f(x,y)=
(式2-9)它的差分形式由式2-10所示。
Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}
=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)
Laplacian算子是一種各向同性算子,在只關心邊緣的位置而不考慮其周圍的灰度象素差值時時比較合適,Laplacian算子對孤立象素的響應要比對邊緣或線的響應更要強烈,因此只適用于無噪聲圖像。
原圖像與用三種邊緣檢測算子處理后的圖像如下所示:圖6 Sobel邊緣檢測圖7 Laplacian邊緣檢測
從上面四幅圖分析比較可得出結論:用Roberts邊緣檢測得出的圖像較之其他方法更為清晰,噪點更少,圖像更為連續(xù),所以本文中采用Roberts算子來進行邊緣檢測。
2.2.2閾值分割
閾值分割法是一種基于區(qū)域的圖像分割技術,其基本原理是:通過設定不同的特征閾值,把圖像象素點分為若干類。常用的特征包括:直接來自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征。設原始圖像為f(x,y),按照一定的準則f(x,y)中找到特征值T,將圖像分割為兩個部分,分割后的圖像為:
若?。篵0=0(黑),b1=1(白),即為我們通常所說的圖像二值化。
在數(shù)字化的圖像數(shù)據(jù)中,無用的背景數(shù)據(jù)和對象物的數(shù)據(jù)經(jīng)常放在一起,同時,圖像中還含有各種噪聲,因此可以根據(jù)圖像的統(tǒng)計性質(zhì),從概率的角度來選擇合適的閾值。
1)最大方差閾值法
把待處理圖像的直方圖在某一閾值處分割為兩組,當被分割成的兩組間的方差最大時,便可以決定閾值了。
設灰度圖像f(x,y)的灰度級為0-L,灰度級I的像素為Ni,則圖中:
總象素數(shù)N=∑j=0 i=LNi(式2-11)灰度級i出現(xiàn)的概率Pi= 1-ω(K)(式2-16)則兩組間的數(shù)學期望為ω0μ0ω1μ1=μ(式2-17)兩組間的方差為ρ2(k)
ρ2(k)是K的函數(shù),計算k取從0,1,2…L時ρ2(k)的值,當多的值為最大時,K即為閾值。
2)雙峰法
根據(jù)圖像的直方圖具有背景和對象物的兩個峰,分割兩個區(qū)域的閾值由兩個峰值之間的谷所對應的灰度值決定。設灰度圖像f(x,y)的灰度級為0-L,灰度i的像素為Pi,分別計算
因為實際PCB電路板有著許多的劃痕、污點等,使用最大方差閾值法時,會在處理后的圖像上產(chǎn)生許多誤點,而影響實際結果的分析,而雙峰法能夠順利地濾除這些干擾,這個結論在分析對比以上圖像時也可得出。所以本文選用了雙峰法來進行閾值分割。
2.2.3粒子分析與圖像對比
經(jīng)過邊緣檢測和閾值分割的圖像中會存在許多瑕點,這些點會影響到最后的圖像識別與分析,有可能會增加多余的殘留圖像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能進行去除,如圖11和圖12所示。圖11原圖像圖12粒子分析
將標準PCB圖片減去缺陷缺陷PCB圖片,便可以得到缺陷板的斷路部分的圖像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到斷路部分的具體分析,如圖13示。
將缺陷PCB圖片減去標準PCB圖片,便可以得到缺陷板的短路部分的圖像,與上述相同的方法,便可以得到短路部分的具體分析,如圖14所示。
3結束語
利用LABVIEW來進行PCB電路板缺陷的識別與檢測是一項非常好的課題,它在近些年已經(jīng)得到了一定的發(fā)展,并將得到更大的進步。限于本人能力和時間,本文的研究還未涉及很深的領域,可以在以下方面加以改進:
1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的設計可以再利用其他語言如VISUAL BASIC,C++等編程語言加以輔助設計,相信可以取得更加令人滿意的結果。
2)由于實驗設備等其他因素,本文中只重點研究了PCB電路板短路與斷路的檢測識別,PCB電路板的其他缺陷還有待于進一步的分析研究、分類和總結,并設計出更好的檢測方法,以真正滿足PCB電路板檢測的需求。
3)照明設備的限制在很大程度上影響到了圖像的檢測效果,為取得PCB缺陷檢測的進一步進展,在照明設備的選擇上必須重視,并且設計出更好的圖像采集系統(tǒng)。
4)在識別與檢測手段上,可以引入更新更好的方法,而不要局限于在傳統(tǒng)的方法中分析比較,例如基于BP神經(jīng)網(wǎng)絡的識別檢測,圖像的模糊決策等將有待于進一步研究。
總之,基于LABVIEW的機器視覺檢測系統(tǒng)已經(jīng)取得了不錯的進展,高速發(fā)展的PCB制造技術和計算機技術對于PCB缺陷的檢測提出了更高的要求,同時也大大地促進了PCB缺陷檢測技術的發(fā)展。利用機器視覺檢測在未來的較長的一段時間內(nèi)將占據(jù)檢測行業(yè)的半壁江山,相信在未來會取得更大的發(fā)展。
參考文獻:
[1]程學慶,房曉溪.LabVIEW圖形化編程與實例應用[M].北京:中國鐵道出版社,2005.
[2]胡仲波.基于虛擬儀器技術的PCB視覺檢測系統(tǒng)[D].南京:南京理工大學碩士學位論文,2006.
[3]段峰,王耀南.機器視覺技術及其應用綜述[J].自動化博覽,2002,19(3).
[4]周長發(fā).精通Visual C++圖像處理編程[M].北京:電子工業(yè)出版社,2004.
[5]陳錫輝,張銀鴻.LabVIEW 8.20程序設計從入門到精通[M].北京:清華大學出版社,2007.
[6]鄭偉.圖像法檢測印刷電路板缺陷[M].西安:西安理工大學,2002.
[7] National Instruments,IMAQ User Manual Concepts[Z].1999.
[8]李強.PCB板缺陷自動檢測技術的分析研究[D].合肥:合肥工業(yè)大學,2002.
[9]傅茂名.基于形態(tài)邊緣檢測算法的一種改進[J].電子科技大學學報,2005(2).
[10]王思華.計算機視覺新技術及其在IC標記質(zhì)量檢驗系統(tǒng)設計中的應用[J].電子技術應用,2000(9).
[11]岳永哲.圖像處理技術在閱卷系統(tǒng)中的應用[D].北京:北京工業(yè)大學,2006.
[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.
[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.
[14]高育鵬,楊俊,何廣軍.基于圖像識別的自動閱卷系統(tǒng)研究[J].現(xiàn)代電子期刊,2006(22).
[15]楊青燕,彭延軍.基于灰度圖像的答題卡識別技術[J].山東科技大學學報:自然科學版,2009(3).
[16]周海濤,韓曉軍.基于數(shù)字圖像處理的答題卡識別方法研究[J].電腦知識與技術,2008(28).
[17]周萬珍,鄭廣,王建霞,等.數(shù)字圖像處理技術在客觀題閱卷中的應用[J].數(shù)學的實踐與認識,2006(8).
[18]王勝春.基于SVM的信息卡識別系統(tǒng)[D].長沙:湖南師范大學,2008.
[19]吳志明.SMT系統(tǒng)中焊點位置的檢測[D].哈爾濱:哈爾濱工業(yè)大學,2006.
[20]楊敏,王春青,鄒增大,等.表面組裝印刷電路板上焊點信息的自動獲取[J].焊接學報,2005,39(6).