卷積神經(jīng)網(wǎng)絡(luò)綜述范文

時(shí)間:2024-04-03 16:11:16

導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)綜述,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)綜述

篇1

【關(guān)鍵詞】深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 權(quán)值共享 下采樣 R-CNN Fast-R-CNN

1 緒論

隨著電子信息技術(shù)的快速發(fā)展,芯片的設(shè)計(jì)與生產(chǎn)進(jìn)入了納米時(shí)代,計(jì)算機(jī)的計(jì)算能力與計(jì)算速度得到了空前的提高,但是人們的需求是無限的,要求計(jì)算機(jī)能更加任性化的服務(wù)于我們的生活,這也就要求計(jì)算機(jī)本身能像人一樣識別與感知周圍的環(huán)境,并對復(fù)雜的環(huán)境做出正確的判斷。而圖片信息是我們周圍環(huán)境最直觀的,最容易獲取的信息,要求計(jì)算機(jī)能對為的環(huán)境做出識別與判斷也就要求計(jì)算機(jī)能夠智能的識別圖像信息。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)新的研究領(lǐng)域。通過深度學(xué)習(xí)的方法構(gòu)建深度網(wǎng)絡(luò)來抽取目標(biāo)特征進(jìn)而識別周圍的環(huán)境。卷積神經(jīng)網(wǎng)絡(luò)對圖像的處理具有平移,旋轉(zhuǎn),扭曲不變的優(yōu)良特性。在處理圖像是更加快捷和便利。卷積神經(jīng)網(wǎng)絡(luò)使得計(jì)算機(jī)在感知識別周圍環(huán)境的能力有了巨大的提升,使得計(jì)算機(jī)更加智能。卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的特征提取能力,使得其在圖像分類識別,目標(biāo)跟蹤等領(lǐng)域有著強(qiáng)大的運(yùn)用。

1.1 國內(nèi)外研究現(xiàn)狀

1986年,Rumelhart和Mc Celland提出BP算法。BP算法反向傳導(dǎo)神經(jīng)網(wǎng)絡(luò)輸出誤差進(jìn)行訓(xùn)練神經(jīng)網(wǎng)絡(luò)。通過BP算法,神經(jīng)網(wǎng)絡(luò)能夠從大量訓(xùn)練數(shù)據(jù)中的學(xué)習(xí)到相關(guān)統(tǒng)計(jì)信息,學(xué)習(xí)到的數(shù)據(jù)統(tǒng)計(jì)信息能夠反映關(guān)于輸入-輸出數(shù)據(jù)模型的函數(shù)映射關(guān)系。

自2006年以來,Geoffery Hinton教授提出深度信念網(wǎng)絡(luò)。從此深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。深度學(xué)習(xí)不僅改變著傳統(tǒng)的機(jī)器學(xué)習(xí)方法,也影響著我們對人類感知的理解,迄今已在語音識別和圖像理解等應(yīng)用領(lǐng)域引起了突破性的變革。各種相關(guān)的算法和模型都取得了重要的突破,使得深度學(xué)習(xí)在圖像分類,語音識別,自然語言處理等領(lǐng)域有廣泛的運(yùn)用。

2013年百度成立百度深度學(xué)習(xí)研究院以來我國的人工智能領(lǐng)域取得了長足的進(jìn)步。在人工智能專家吳恩達(dá)的帶領(lǐng)下,百度陸續(xù)推出一系列人工智能產(chǎn)品,無人駕駛技術(shù),DuerOS語音交互計(jì)算平臺,人臉識別技術(shù),美樂醫(yī)等優(yōu)秀產(chǎn)品。此外Imagenet圖像識別大賽中也誕生了一系列經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),VGG,F(xiàn)ast-R-CNN,SPP-net等等,可以說人工智能技術(shù)在近幾年得到了空前的發(fā)展。

2 深度學(xué)習(xí)概述

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)新方向,通過學(xué)習(xí)樣本數(shù)據(jù)內(nèi)在規(guī)律和深層特征深度,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠像人一樣有分析和學(xué)的能力,尤其在文字處理,圖像識別,語音等領(lǐng)域更加突出。能夠自主學(xué)習(xí)一些新的東西。目前深度學(xué)習(xí)使用的典型技術(shù)是通過特征表達(dá)和分類器來進(jìn)行目標(biāo)識別等任務(wù)的。并在語音識別、圖像處理、機(jī)器翻譯等領(lǐng)域取得很多成果。

深度學(xué)習(xí)不同于以往的淺層學(xué)習(xí),淺層學(xué)習(xí)模型值包含一個(gè)隱藏層,或者不存在隱藏層,深度學(xué)習(xí)則是由很多隱藏層組成的,上一層的輸出作為下一層的輸入,實(shí)驗(yàn)對輸入信息進(jìn)行分級表達(dá)。目前深度學(xué)習(xí)框架主要包含三種深度學(xué)習(xí)框架,如圖1、2、3所示。

3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)復(fù)雜,卷積神經(jīng)網(wǎng)絡(luò)包含大量的隱藏層,相鄰的卷積核或者下采樣核采用局部感受野全鏈接,神經(jīng)元權(quán)值共享的規(guī)則,因此卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)的數(shù)量遠(yuǎn)比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)少,卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和前向測試的復(fù)雜度大幅度降低,同時(shí)也減少了神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)過擬合的幾率。卷積神經(jīng)網(wǎng)絡(luò)主要有兩部分,分別是卷積核和下采樣核。卷積核主要對上一層的圖像進(jìn)行卷積運(yùn)算,提取圖像特征,下采樣核則是對上層的數(shù)據(jù)進(jìn)行將為處理,減少神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。

卷積神經(jīng)網(wǎng)絡(luò)中每一個(gè)神經(jīng)元的輸入與前一層的局部感受野相連,提取局部感受野的特征,比如圖像的輪廓,顏色等特征,而這些特征不僅包括傳統(tǒng)人類能理解的特征,也包括神經(jīng)網(wǎng)絡(luò)自身能夠識別的特征,卷積核全職共享,因此這些特征提取與圖像的位置無關(guān)。

圖4是經(jīng)典的LeNet5卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),LeNet5架構(gòu)中卷積核和下采樣核交替出現(xiàn),下采樣核及時(shí)的將卷積核生成的特征向量進(jìn)行降維,減少神經(jīng)網(wǎng)絡(luò)的運(yùn)算量。LeNet5算法在1962年幼Hubel等人提出,在識別手寫數(shù)字mnist中有極高的準(zhǔn)確率。

4 R-CNN、Fast-R-CNN對比分析

卷積神經(jīng)網(wǎng)絡(luò)在對圖像進(jìn)行識別具有平移,旋轉(zhuǎn),扭曲不變的優(yōu)良特性,并且能夠?qū)崿F(xiàn)高準(zhǔn)確率識別圖像,但是在現(xiàn)實(shí)生活運(yùn)用中往往需要神經(jīng)網(wǎng)絡(luò)標(biāo)記出目標(biāo)的相對位置,這是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不具備的功能。因此在前人傳統(tǒng)卷積神經(jīng)網(wǎng)路基礎(chǔ)上對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),產(chǎn)生了具有對圖像中目標(biāo)進(jìn)行識別和定位的卷積神經(jīng)網(wǎng)絡(luò)R-CNN,F(xiàn)ast-R-CNN等改良算法。

4.1 R-CNN

R-CNN為Region Convoluntional Neural Network的縮寫即對圖像進(jìn)行局部區(qū)域的卷積處理,其核心思想主要是利用候選區(qū)圖像對物體探測中位置信息進(jìn)行精確處理和利用監(jiān)督式預(yù)訓(xùn)練和區(qū)域特殊化的微調(diào)方法,代替了傳統(tǒng)的非監(jiān)督式預(yù)訓(xùn)練和監(jiān)督式微調(diào)。

在CNN中,全連接層輸入是固定大小的,因此R-CNN用計(jì)算機(jī)視覺算法將每一張圖片分割成1000-2000張的候選區(qū)圖片后,要將這些候選區(qū)圖片進(jìn)行變換,生成固定大小的候選圖片,在訓(xùn)練提取特征時(shí)一般采用經(jīng)過預(yù)訓(xùn)練的模型參數(shù)進(jìn)行finetuning,榱嗽黽友盜費(fèi)本,模型在也將生成的候選框以及標(biāo)定的標(biāo)簽作為訓(xùn)練樣本進(jìn)行訓(xùn)練。R-CNN采用SVMs分類器對特征向量進(jìn)行分類,在訓(xùn)練SVMs時(shí)將候選框經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的特征和SVM標(biāo)定結(jié)果輸入到SVMs分類器訓(xùn)練分類器模型。而在測試時(shí)將圖像全部候選框經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的特征輸入到SVMs分類器中,得到每一類的評分結(jié)果。但是R-CNN在處理一張圖片是要處理需要對一張圖片1000-2000個(gè)候選區(qū)圖像進(jìn)行前向運(yùn)算,保存所有后選取圖片的特征值,要求計(jì)算硬件有大量的存儲空間,同時(shí)處理每一張圖片的時(shí)間也會增加。由于訓(xùn)練集龐大,本文采用hard negative mining method方法提高存儲的利用率。

R-CNN的體現(xiàn)出了極大的優(yōu)勢,其中MAP也可以大幅度提高,但是正如本文上述,R-CNN計(jì)算的時(shí)間成本很大,達(dá)不到實(shí)時(shí)的計(jì)算效果,R-CNN在對候選區(qū)進(jìn)行處理時(shí)會使得圖像失真,部分信息丟失。

4.2 Fast-R-CNN

Fast-R-CNN則是再次改進(jìn)的一種基于卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤定位算法。相比于R-CNN,F(xiàn)ast-R-CNN從單輸入變?yōu)殡p輸入,在全連接層后有了兩個(gè)輸出,引入了Rol層。

Fast-R-CNN在運(yùn)行的時(shí)候同樣會生成大量的候選區(qū),同時(shí)將原始的圖片用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,將原始圖片提取的特征與生成的候選區(qū)坐標(biāo)送入Rol層為每一個(gè)候選區(qū)生成一個(gè)固定大小的特征向量。最后將Rol生成的特征向量全連接層產(chǎn)生最終的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式,SoftMax LOSS用于計(jì)算K+1分類的損失,K為第K個(gè)目標(biāo),1為背景;Regression LOSS計(jì)算候選區(qū)的四個(gè)角的坐標(biāo)。

Fast-R-CNN在MAP上有了大幅度的提升,速度也得到了提升,但是在計(jì)算候選區(qū)是仍存在瓶頸,這也是限制Fast-R-CNN速度的因素。

5 實(shí)驗(yàn)測試

對于本文提出的卷積神經(jīng)網(wǎng)絡(luò)識別圖像定位圖像目標(biāo)算法R-CNN,F(xiàn)ast-R-CNN,在本章給出實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)平臺為基于Linux系統(tǒng)的debian8下運(yùn)行caffe進(jìn)行訓(xùn)練,采用顯卡K620進(jìn)行實(shí)驗(yàn)。

訓(xùn)練模型初始化參數(shù)在是服從高斯隨機(jī)分布,R-CNN采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,F(xiàn)ast-R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

本次實(shí)現(xiàn)的訓(xùn)練樣本為錄制實(shí)驗(yàn)室視頻數(shù)據(jù),將視頻數(shù)據(jù)轉(zhuǎn)換成幀圖片,對每張圖片數(shù)據(jù)進(jìn)行裁剪,裁剪后圖像大小在256*256,共有500張,再將裁剪后的圖片進(jìn)行旋轉(zhuǎn),平移,扭曲,鏡像,加噪聲等處理,最后生成144萬張樣本圖片,其中136.8萬張圖片作為訓(xùn)練樣本,7.2萬張作為測試樣本。

6 總結(jié)

在目標(biāo)識別定位領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的圖像處理能力,對圖像的識別定位具有很高度平移,旋轉(zhuǎn),扭曲不變形的優(yōu)良性能。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)R-CNN和Fast-R-CNN都有強(qiáng)大的圖像處理能力。Fast-R-CNN在識別準(zhǔn)確率上比R-CNN高。R-CNN算法復(fù)雜,對一張圖片需要進(jìn)行1000-2000次的卷積運(yùn)算,特征重復(fù)提取。因此在訓(xùn)練和前向測試時(shí),R-CNN用的時(shí)間長,不能很好的適用于處理實(shí)時(shí)圖片數(shù)據(jù),尤其視頻數(shù)據(jù)。R-CNN在對每個(gè)候選區(qū)進(jìn)行特征提取之后需要將提取的特征向量存入內(nèi)存,降低訓(xùn)練測試時(shí)間的同時(shí)也需要耗費(fèi)大量內(nèi)存。因此從各方面分析可知,F(xiàn)ast-R-CNN性能優(yōu)于R-CNN。

參考文獻(xiàn)

[1]謝寶劍.基于卷積神經(jīng)網(wǎng)絡(luò)圖像分類方法研究[D].合肥工業(yè)大學(xué),2015.

[2]鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進(jìn)展[J].中國圖象圖形學(xué)報(bào),2014(02):175-184.

[3]陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與運(yùn)用研究[D].杭州:浙江工商大學(xué),2006(04):603-617.

[4]李彥冬,郝宗波,雷航等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016.

[5]Gibson.J J.The perception of the Visual World[J].Cambridge,England,1950.

[6]HORN B,SCHUNCK P.Determining optical flow[J].Artificial Intelligence, 1981,17:185-203.

[7]R.Girshick,J.Donahue,T. Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014

[8]Ross Girshick,Wicrosoft Research. Fast R-CNN,.

[9]R.Girshick.Fast R-CNN. arXiv:1504.08083,2015.

篇2

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識別;大樣本;對抗生成網(wǎng)絡(luò)

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2017)07-00-04

0 引 言

近幾年,基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在目標(biāo)檢測、目標(biāo)識別、顯著性檢測、行為識別、人臉識別和對象分割等計(jì)算機(jī)視覺領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績主要?dú)w功于以下幾點(diǎn):

(1)將大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)出具有百萬參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對象的本質(zhì)特征;

(2)不斷改進(jìn)性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;

(3)各種并行計(jì)算硬件設(shè)備(如GPU)的支持,大大提高了CNN訓(xùn)練模型的效率。其中,將標(biāo)簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。

本文以人臉識別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。

有效的特征是目標(biāo)識別的關(guān)鍵,對人臉識別問題來說亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯(cuò)的成績。基于傳統(tǒng)特征的人臉識別受限于環(huán)境,此類特征作用在復(fù)雜或者背景多變的人臉圖像時(shí),其識別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識別率驟然下降[9]。

采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征,無需人工設(shè)計(jì)特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動(dòng)學(xué)習(xí)獲取,從而達(dá)到優(yōu)秀的識別性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬個(gè)人臉圖像樣本進(jìn)行訓(xùn)練[10],F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬個(gè)有標(biāo)簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。

1 多樣本獲取現(xiàn)狀

如引言所述,有效合理的特征是目標(biāo)識別的關(guān)鍵,而CNN能從大量有標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標(biāo)簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標(biāo)簽方面。然而,獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費(fèi)大量的人力物力。雖然也有一些公開免費(fèi)的數(shù)據(jù)集,且收集該類數(shù)據(jù)相對比較容易,如CASIA-WebFace[13],有49萬個(gè)圖像,但遠(yuǎn)少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機(jī)器學(xué)習(xí)技術(shù)自動(dòng)增加樣本集已成為必要手段。

無論基于傳統(tǒng)方法的識別問題,還是基于深度學(xué)習(xí)的識別問題,大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬有標(biāo)簽的數(shù)據(jù)集擴(kuò)大到了26萬 [10]。除此之外,F(xiàn)acebook獲取了440萬個(gè)有標(biāo)簽的人臉進(jìn)行DeepFace網(wǎng)絡(luò)訓(xùn)練[11],而Google使用2億個(gè)數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。

目前獲取方法具有如下局限:

(1)現(xiàn)有方法耗時(shí)耗力,需要經(jīng)費(fèi)支持。獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費(fèi)大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標(biāo)簽的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個(gè)人隱私與財(cái)力物力等問題,對于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。

(2)收集特殊圖片困難。對于一些特殊的圖像,如醫(yī)學(xué)圖像,遙感圖像,現(xiàn)實(shí)中數(shù)量本身就少,加之無法直接從網(wǎng)上獲取,因此小樣本很容易導(dǎo)致過擬合。

2 樣本集擴(kuò)大算法研究現(xiàn)狀

2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀

對于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本,均可得到比較滿意的識別結(jié)果,但在現(xiàn)實(shí)的人臉數(shù)據(jù)庫中,人臉的數(shù)據(jù)樣本卻是有限的。文獻(xiàn)[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識別的準(zhǔn)確率。

為了增加樣本數(shù)量,提高識別準(zhǔn)確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類:

(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴(kuò)大數(shù)據(jù)集并提高人臉識別的正確率,Song[22]也提出相應(yīng)的算法來改進(jìn)人臉識別的性能;

(2)通過改變圖像的光照、姿勢和表情等來產(chǎn)生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進(jìn)行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴(kuò)大數(shù)據(jù)集;

(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來產(chǎn)生虛擬樣本[23]。

(4)基于數(shù)學(xué)的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。

圖1 借助圖像合成方法生成新樣本

除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關(guān)實(shí)驗(yàn),其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類人臉圖像,每類有ni個(gè)樣本,令表示第i類中的第j個(gè)樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:

其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數(shù),代表多個(gè)樣本的串聯(lián),即將多個(gè)樣本聯(lián)合起來得到一個(gè)類別的新樣本。

2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀

大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)成功的關(guān)鍵,尤其對于強(qiáng)大的深度學(xué)習(xí)技術(shù),大數(shù)據(jù)集能提高CNN的性能,防止過擬合[25]。為了擴(kuò)充數(shù)據(jù)集,已有一些工作在不改變圖像語義的情況下進(jìn)行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。

DeepID[30]采取了增大數(shù)據(jù)集手法來訓(xùn)練網(wǎng)絡(luò),只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:

(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。

(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進(jìn)行訓(xùn)練,再把得到的向量串聯(lián)起來,即得到最后的向量。

以上方法僅局限于相對簡單的圖像處理技術(shù),該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進(jìn)行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問題,如Shotton等通過隨機(jī)森林合成3D深度數(shù)據(jù)來估計(jì)人體姿勢,Jaderberg等使用合成數(shù)據(jù)來訓(xùn)練CNN模型識別自然場景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜,需要較多的前期工作。

近年來,借助生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學(xué)者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點(diǎn)及其在圖像生成方面的應(yīng)用,標(biāo)志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網(wǎng)絡(luò)不穩(wěn)定,甚至有時(shí)該網(wǎng)絡(luò)永遠(yuǎn)不會開始學(xué)習(xí),生成的結(jié)果無法令人滿意。文獻(xiàn)[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個(gè)被稱為 LAPGANs的模型[33],該模型用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻(xiàn)[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉(zhuǎn)換成對的圖像。文獻(xiàn)[35]將GAN應(yīng)用于超分辨率中,該文獻(xiàn)提出了全新的損失函數(shù),使得 GANs 能對大幅降采樣后的圖像恢復(fù)其生動(dòng)紋理和小顆粒細(xì)節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36],該文獻(xiàn)指出,用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級的特征,并具有比其他無監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。

基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實(shí)圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區(qū)分真假;而判別器D應(yīng)不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價(jià)值函數(shù)如下:

生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓(xùn)練樣本的標(biāo)簽分類, 生成模型G隱式定義了一個(gè)概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實(shí)分布Pdata。

圖2 GAN生成新樣本示意圖

3 結(jié) 語

綜上所述,基于原始樣本的多樣本生成算法是一個(gè)值得深入研究探索的問題,具備清晰而明確的理論意義和現(xiàn)實(shí)應(yīng)用意義。雖然研究人員已經(jīng)對相關(guān)問題進(jìn)行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認(rèn)為,基于原始樣本的多樣本生成問題需要在如下幾個(gè)方面展開深入的研究:

(1)在研究多樣本生成算法時(shí),保留原始樣本的本質(zhì)特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項(xiàng)十分有意義的工作。

(2)在合成新樣本時(shí),設(shè)計(jì)合理有效的構(gòu)造元素,使合成的新表示更接近自然亦是一個(gè)值得研究的方向。

(3)基于生成對抗網(wǎng)絡(luò),研究某一類對象的生成新樣本的核心算法是一項(xiàng)有意義的工作。

參考文獻(xiàn)

[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.

[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.

[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.

[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.

[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.

[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.

[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.

[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.

[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.

[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.

[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.

[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.

[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.

[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.

[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.

[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.

[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.

[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.

[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.

[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.

[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.

[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.

[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.

[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.

[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.

[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.

[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.

[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.

[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.

[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.

[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.

[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.

[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.

[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.

篇3

關(guān)鍵詞人臉識別;特征提取

1人臉識別技術(shù)概述

近年來,隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,人臉自動(dòng)識別技術(shù)得到廣泛研究與開發(fā),人臉識別成為近30年里模式識別和圖像處理中最熱門的研究主題之一。人臉識別的目的是從人臉圖像中抽取人的個(gè)性化特征,并以此來識別人的身份。一個(gè)簡單的自動(dòng)人臉識別系統(tǒng),包括以下4個(gè)方面的內(nèi)容:

(1)人臉檢測(Detection):即從各種不同的場景中檢測出人臉的存在并確定其位置。

(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。

(3)人臉表征(FaceRepresentation):采取某種方式表示檢測出人臉和數(shù)據(jù)庫中的已知人臉。

(4)人臉識別(Recognition):將待識別的人臉與數(shù)據(jù)庫中的已知人臉比較,得出相關(guān)信息。

2人臉識別算法的框架

人臉識別算法描述屬于典型的模式識別問題,主要有在線匹配和離線學(xué)習(xí)兩個(gè)過程組成,如圖1所示。

圖1一般人臉識別算法框架

在人臉識別中,特征的分類能力、算法復(fù)雜度和可實(shí)現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對最終分類結(jié)果有著決定性的影響。分類器所能實(shí)現(xiàn)的分辨率上限就是各類特征間最大可區(qū)分度。因此,人臉識別的實(shí)現(xiàn)需要綜合考慮特征選擇、特征提取和分類器設(shè)計(jì)。

3人臉識別的發(fā)展歷史及分類

人臉識別的研究已經(jīng)有相當(dāng)長的歷史,它的發(fā)展大致可以分為四個(gè)階段:

第一階段:人類最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。

J.S.Bruner于1954年寫下了關(guān)于心理學(xué)的Theperceptionofpeople,Bledsoe在1964年就工程學(xué)寫了FacialRecognitionProjectReport,國外有許多學(xué)校在研究人臉識別技術(shù)[1],其中有從感知和心理學(xué)角度探索人類識別人臉機(jī)理的,如美國TexasatDallas大學(xué)的Abdi和Tool小組[2、3],由Stirling大學(xué)的Bruce教授和Glasgow大學(xué)的Burton教授合作領(lǐng)導(dǎo)的小組等[3];也有從視覺機(jī)理角度進(jìn)行研究的,如英國的Graw小組[4、5]和荷蘭Groningen大學(xué)的Petkov小組[6]等。

第二階段:關(guān)于人臉的機(jī)器識別研究開始于二十世紀(jì)七十年代。

Allen和Parke為代表,主要研究人臉識別所需要的面部特征。研究者用計(jì)算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識別過程全部依賴于操作人員,不是一種可以完成自動(dòng)識別的系統(tǒng)。

第三階段:人機(jī)交互式識別階段。

Harmon和Lesk用幾何特征參數(shù)來表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設(shè)計(jì)了基于這一特征表示法的識別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計(jì)識別方法,用歐氏距離來表征人臉特征。但這類方法需要利用操作員的某些先驗(yàn)知識,仍然擺脫不了人的干預(yù)。

第四階段:20世紀(jì)90年代以來,隨著高性能計(jì)算機(jī)的出現(xiàn),人臉識別方法有了重大突破,才進(jìn)入了真正的機(jī)器自動(dòng)識別階段。在用靜態(tài)圖像或視頻圖像做人臉識別的領(lǐng)域中,國際上形成了以下幾類主要的人臉識別方法:

1)基于幾何特征的人臉識別方法

基于幾何特征的方法是早期的人臉識別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時(shí)往往要用到人臉結(jié)構(gòu)的一些先驗(yàn)知識。識別所采用的幾何特征是以人臉器官的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,本質(zhì)上是特征矢量之間的匹配,其分量通常包括人臉指定兩點(diǎn)間的歐式距離、曲率、角度等。

基于幾何特征的識別方法比較簡單、容易理解,但沒有形成統(tǒng)一的特征提取標(biāo)準(zhǔn);從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時(shí);對較大的表情變化或姿態(tài)變化的魯棒性較差。

2)基于相關(guān)匹配的方法

基于相關(guān)匹配的方法包括模板匹配法和等強(qiáng)度線方法。

①模板匹配法:Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,并得出結(jié)論:基于幾何特征的人臉識別方法具有識別速度快和內(nèi)存要求小的優(yōu)點(diǎn),但在識別率上模板匹配要優(yōu)于基于幾何特征的識別方法。

②等強(qiáng)度線法:等強(qiáng)度線利用灰度圖像的多級灰度值的等強(qiáng)度線作為特征進(jìn)行兩幅人臉圖像的匹配識別。等強(qiáng)度曲線反映了人臉的凸凹信息。這些等強(qiáng)度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實(shí)形狀的等強(qiáng)度線。

3)基于子空間方法

常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨(dú)立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴(kuò)展到混合線性子空間和非線性子空間。

Turk等[11]采用本征臉(Eigenfaces)方法實(shí)現(xiàn)人臉識別。由于每個(gè)本征矢量的圖像形式類似于人臉,所以稱本征臉。對原始圖像和重構(gòu)圖像的差分圖像再次進(jìn)行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對于眼、鼻和嘴等特征分別建立一個(gè)本征子空間,并聯(lián)合本征臉子空間的方法獲得了好的識別結(jié)果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉方法的識別結(jié)果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識別效果好于本征臉方法。當(dāng)每個(gè)人有多個(gè)樣本圖像時(shí),本征空間法沒有考慮樣本類別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識別結(jié)果。Bartlett等[18]采用獨(dú)立分量分析(ICA,IndependentComponentAnalysis)的方法識別人臉,獲得了比PCA方法更好的識別效果。

4)基于統(tǒng)計(jì)的識別方法

該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。

①KL變換:將人臉圖像按行(列)展開所形成的一個(gè)高維向量看作是一種隨機(jī)向量,因此采用K-L變換獲得其正交K-L基底,對應(yīng)其中較大特征值基底具有與人臉相似的形狀。國外,在用靜態(tài)圖像或視頻圖像做人臉識別的領(lǐng)域中,比較有影響的有MIT的Media實(shí)驗(yàn)室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。

②隱馬爾可夫模型:劍橋大學(xué)的Samaria和Fallside[20]對多個(gè)樣本圖像的空間序列訓(xùn)練出一個(gè)HMM模型,它的參數(shù)就是特征值;基于人臉從上到下、從左到右的結(jié)構(gòu)特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識別人臉[24],如圖2(b)所示。后來集成coupledHMM和HMM通過對超狀態(tài)和各嵌入狀態(tài)采用不同的模型構(gòu)成混合系統(tǒng)結(jié)構(gòu)[25]。

基于HMM的人臉識別方法具有以下優(yōu)點(diǎn):第一,能夠允許人臉有表情變化,較大的頭部轉(zhuǎn)動(dòng);第二,擴(kuò)容性好.即增加新樣本不需要對所有的樣本進(jìn)行訓(xùn)練;第三,較高的識別率。

(a)(b)

圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型

5)基于神經(jīng)網(wǎng)絡(luò)的方法

Gutta等[26]提出了混合神經(jīng)網(wǎng)絡(luò)、Lawrence等[27]通過一個(gè)多級的SOM實(shí)現(xiàn)樣本的聚類,將卷積神經(jīng)網(wǎng)絡(luò)CNN用于人臉識別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡(luò)方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進(jìn)一步壓縮特征,最后采用一個(gè)MLP來實(shí)現(xiàn)人臉識別。Er等[30]采用PCA進(jìn)行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進(jìn)行人臉識別。Haddadnia等[31]基于PZMI特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識別。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢是通過學(xué)習(xí)的過程獲得對這些規(guī)律和規(guī)則的隱性表達(dá),它的適應(yīng)性較強(qiáng)。

6)彈性圖匹配方法

Lades等提出采用動(dòng)態(tài)鏈接結(jié)構(gòu)(DLA,DynamicLinkArchitecture)[32]的方法識別人臉。它將人臉用格狀的稀疏圖如圖3所示。

圖3人臉識別的彈性匹配方法

圖3中的節(jié)點(diǎn)用圖像位置的Gabor小波分解得到的特征向量標(biāo)記,圖的邊用連接節(jié)點(diǎn)的距離向量標(biāo)記。Wiskott等人使用彈性圖匹配方法,準(zhǔn)確率達(dá)到97.3%。Wiskott等[33]將人臉特征上的一些點(diǎn)作為基準(zhǔn)點(diǎn),構(gòu)成彈性圖。采用每個(gè)基準(zhǔn)點(diǎn)存儲一串具有代表性的特征矢量,減少了系統(tǒng)的存儲量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進(jìn)一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個(gè)多層的分級結(jié)構(gòu)。Grudin等[35]也采用分級結(jié)構(gòu)的彈性圖,通過去除了一些冗余節(jié)點(diǎn),形成稀疏的人臉描述結(jié)構(gòu)。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表(x,y,I(x,y)),將人臉匹配問題轉(zhuǎn)換為曲面匹配問題,利用有限分析的方法進(jìn)行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識別人臉。

7)幾種混合方法的有效性

(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。

K-L變換的核心過程是計(jì)算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當(dāng)圖像有小的擾動(dòng)時(shí),奇異值的變化不大。奇異值表示了圖像的代數(shù)特征,在某種程度上,SVD特征同時(shí)擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對人臉進(jìn)行識別,提高識別的準(zhǔn)確性[37]。

(2)HMM和奇異值分解相融合的分類判別方法。

采用奇異值分解方法進(jìn)行特征提取,一般是把一幅圖像(長為H)看成一個(gè)N×M的矩陣,求取其奇異值作為人臉識別的特征。在這里我們采用采樣窗對同一幅圖片進(jìn)行重疊采樣(如圖4),對采樣所得到的矩陣分別求其對應(yīng)的前k個(gè)最大的奇異值,分別對每一組奇異值進(jìn)行矢量標(biāo)準(zhǔn)化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。

圖4采樣窗采樣

綜合上述論文中的實(shí)驗(yàn)數(shù)據(jù)表明[39],如表1:

表1人臉識別算法比較

8)基于三維模型的方法

該類方法一般先在圖像上檢測出與通用模型頂點(diǎn)對應(yīng)的特征點(diǎn),然后根據(jù)特征點(diǎn)調(diào)節(jié)通用模型,最后通過紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結(jié)構(gòu)光源和立體視覺理論,通過攝像機(jī)獲取立體圖像,根據(jù)圖像特征點(diǎn)之間匹配構(gòu)造人臉的三維表面,如圖5所示。

圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型

Zhao[41]提出了一個(gè)新的SSFS(SymetricShape-from-Shading)理論來處理像人臉這類對稱對象的識別問題,基于SSFS理論和一個(gè)一般的三維人臉模型來解決光照變化問題,通過基于SFS的視圖合成技術(shù)解決人臉姿態(tài)問題,針對不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。

三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中,基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點(diǎn)的坐標(biāo),而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖,如圖7所示。

圖7三維建模的系統(tǒng)框圖

三維人臉建模、待識別人臉的姿態(tài)估計(jì)和識別匹配算法的選取是實(shí)現(xiàn)三維人臉識別的關(guān)鍵技術(shù)。隨著采用三維圖像識別人臉技術(shù)的發(fā)展,利用直線的三維圖像信息進(jìn)行人臉識別已經(jīng)成為人們研究的重心。

4總結(jié)與展望

人臉自動(dòng)識別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實(shí)際應(yīng)用中仍然面臨困難,不僅要達(dá)到準(zhǔn)確、快速的檢測并分割出人臉部分,而且要有效的變化補(bǔ)償、特征描述、準(zhǔn)確的分類的效果,還需要注重和提高以下幾個(gè)方面:

(1)人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進(jìn)一步深入研究,以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。

(2)多特征融合和多分類器融合的方法也是改善識別性能的一個(gè)手段。

(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準(zhǔn)確的人臉識別仍較困難。為了滿足自動(dòng)人臉識別技術(shù)具有實(shí)時(shí)要求,在必要時(shí)需要研究人臉與指紋、虹膜、語音等識別技術(shù)的融合方法。

(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對各種變化因素采用模擬或補(bǔ)償?shù)姆椒ň哂休^好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統(tǒng)識別算法的基礎(chǔ)上改進(jìn)和創(chuàng)新。

(5)表面紋理識別算法是一種最新的算法[52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。

總之,人臉識別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識別效果,如何與其它技術(shù)相結(jié)合,如何提高識別率和識別速度、減少計(jì)算量、提高魯棒性,如何采用嵌入式及硬件實(shí)現(xiàn),如何實(shí)用化都是將來值得研究的。

參考文獻(xiàn)

[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411

[2]張翠萍,蘇光大.人臉識別技術(shù)綜述.中國圖像圖形學(xué)報(bào),2000,5(11):885-894

[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67

[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86

[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464

[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640

[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95

[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136

[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553

[10]HaddadniaJ,AhmadiM,F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16

[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311

[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191

[13]羊牧.基于KL投影和奇異值分解相融合人臉識別方法的研究[D].四川大學(xué).2004,5,1

[14]白冬輝.人臉識別技術(shù)的研究與應(yīng)用[D].北方工業(yè)大學(xué).2006,5

篇4

關(guān)鍵詞:PCB;圖像處理;視覺檢測

中圖分類號:TP277文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)07-1648-06

當(dāng)今世界科技發(fā)展日新月異,電子產(chǎn)業(yè)的發(fā)展直接制約著國民經(jīng)濟(jì)的騰飛與否,而PCB電路板制作工藝的提高對促進(jìn)電子產(chǎn)業(yè)的發(fā)展至關(guān)重要,能否有效精確地檢測PCB電路板的缺陷一直都是電子行業(yè)的研究熱點(diǎn)。國外的印刷電路板自動(dòng)檢測技術(shù)一直領(lǐng)先于國內(nèi),國內(nèi)的很多廠家不得不采用昂貴的外國技術(shù),雖然近年國內(nèi)的印刷電路板自動(dòng)檢測技術(shù)發(fā)展迅速,但大都沒有取得令人非常滿意的結(jié)果。加入研究這一領(lǐng)域的熱潮,趕超外國的先進(jìn)技技水平,打斷外國壟斷技術(shù),對于發(fā)展國民經(jīng)濟(jì)具有十分重要的意義。

1 PCB檢測系統(tǒng)的硬件設(shè)計(jì)

1.1 PCB檢測系統(tǒng)的硬件組成框圖

雖然本文所做的工作主要是軟件方面,但對于硬件系統(tǒng)的設(shè)計(jì)也是至關(guān)重要的,它對于建立有效的計(jì)算機(jī)視覺識別檢測系統(tǒng),起著決定性作用。因此,必須在綜合考慮系統(tǒng)性價(jià)比和系統(tǒng)性能的基礎(chǔ)上,設(shè)計(jì)出合理的硬件系統(tǒng)[9]。PCB檢測系統(tǒng)的硬件組成框圖如圖1所示:圖1 PCB檢測系統(tǒng)硬件組成框圖

1.2系統(tǒng)的硬件組成

系統(tǒng)的硬件組成[10]主要包括:計(jì)算機(jī)主機(jī)、CCD攝像機(jī)、圖像采集卡、照明系統(tǒng)及相關(guān)的設(shè)備。

2 PCB電路板缺陷檢測識別

PCB電路板在電子工業(yè)中的應(yīng)用越來越廣泛,如何降低電路板的故障率、提高電路板的質(zhì)量直接影響到整個(gè)產(chǎn)業(yè)的發(fā)展。因此,對于PCB電路板缺陷的識別技術(shù)的發(fā)展至關(guān)重要。PCB電路板的缺陷很多[16],主要有短路、斷路、劃痕、凸起、空洞、缺焊、過焊等等,由于實(shí)驗(yàn)室設(shè)備限制和個(gè)人水平所限,本文主要研究的內(nèi)容是PCB電路板短路與斷路的檢測識別

近年來出現(xiàn)了很多圖像檢測算法,這些算法大致可分為三大類:有參考算法、無參考算法以及混合型算法。有參考算法分為兩大類:圖像對比法和模型對比法。無參考算法是一種不需要標(biāo)準(zhǔn)圖像的檢測算法,它是基于一定的設(shè)計(jì)規(guī)則來進(jìn)行檢測的。混合型方法是將有參考算法與無參考算法混合使用,從而發(fā)揮出各自的優(yōu)點(diǎn)。比如,模板匹配法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用,或者連接表方法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用等。本文中短路與斷路的檢測識別采取了圖像對比法,即將經(jīng)過一定處理后的圖像進(jìn)行相減,從而分析相應(yīng)的結(jié)果;而對焊點(diǎn)缺陷的識別主要采用模板匹配法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用。

2.1 PCB電路板缺陷檢測識別的主要流程圖

圖2為子程序流程圖;圖3為主程序流程圖。

2.2 PCB電路板短路與斷路的檢測識別

2.2.1邊緣檢測

在對圖像進(jìn)行基本的處理過后可以將圖像與背景分割開來。邊緣檢測是圖像處理和計(jì)算機(jī)視覺中的基本問題,邊緣檢測的目的是標(biāo)識數(shù)字圖像中亮度變化明顯的點(diǎn)。圖像屬性中的顯著變化通常反映了屬性的重要事件和變化。

這些包括:深度上的不連續(xù);表面方向不連續(xù);物質(zhì)屬性變化;場景照明變化。邊緣檢測是圖像處理和計(jì)算機(jī)視覺中,尤其是特征提取中的一個(gè)研究領(lǐng)域。

圖像邊緣檢測大幅度地減少了數(shù)據(jù)量,并且剔除了可以認(rèn)為不相關(guān)的信息,保留了圖像重要的結(jié)構(gòu)屬性。有許多方法用于邊緣檢測,它們的絕大部分可以劃分為兩類[17]:基于查找一類和基于零穿越的一類。基于查找的方法通過尋找圖像一階導(dǎo)數(shù)中的最大和最小值來檢測邊界,通常是將邊界定位在梯度最大的方向?;诹愦┰降姆椒ㄍㄟ^尋找圖像二階導(dǎo)數(shù)零穿越來尋找邊界,通常是Laplacian過零點(diǎn)或者非線性差分表示的過零點(diǎn)。

1)Roberts算子

邊緣,是指周圍像素灰度有階躍變化或屋頂?shù)茸兓哪切┫袼氐募?。圖像的邊緣對應(yīng)著圖像灰度的不連續(xù)性。顯然圖像的邊緣很少是從一個(gè)灰度跳到另一個(gè)灰度這樣的理想狀況。真實(shí)圖像的邊緣通常都具有有限的寬度呈現(xiàn)出陡峭的斜坡狀。邊緣的銳利程度由圖像灰度的梯度決定。梯度是一個(gè)向量,?f指出灰度變化的最快的方向和數(shù)量,如式2-1所示。

?f=(決定的。

因此最簡單的邊緣檢測算子是用圖像的垂直和水平差分來逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)

因此當(dāng)我們想尋找邊緣的時(shí)候,最簡單的方法是對每一個(gè)像素計(jì)算出(2,4)的向量,然后求出他的絕對值,然后進(jìn)行閥值操作就可以了。利用這種思想就得到了Roberts算子,由式2-5所示。

R(i,j)=

(式2-5)

它是一個(gè)兩個(gè)2×2模板作用的結(jié)果。

2)Sobel算子

該算法通過2個(gè)3*3的模板,對選定的二維圖像中同樣大小窗口進(jìn)行卷積,通常是一個(gè)模板對一個(gè)邊緣響應(yīng)大,另一個(gè)模板對水平邊緣響應(yīng)大,兩個(gè)卷積值對最大值作為該點(diǎn)對輸出。對于圖像上的任意點(diǎn)(i,j)進(jìn)行卷積,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)則輸出圖像公式如式2-8所示。

用sobel算子檢測階躍邊緣得到的邊緣寬度至少為兩個(gè)寬度。3)Laplacian邊緣檢測算子

Laplacian算子定義由式2-9所示。

Δ2f(x,y)=

(式2-9)它的差分形式由式2-10所示。

Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}

=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)

Laplacian算子是一種各向同性算子,在只關(guān)心邊緣的位置而不考慮其周圍的灰度象素差值時(shí)時(shí)比較合適,Laplacian算子對孤立象素的響應(yīng)要比對邊緣或線的響應(yīng)更要強(qiáng)烈,因此只適用于無噪聲圖像。

原圖像與用三種邊緣檢測算子處理后的圖像如下所示:圖6 Sobel邊緣檢測圖7 Laplacian邊緣檢測

從上面四幅圖分析比較可得出結(jié)論:用Roberts邊緣檢測得出的圖像較之其他方法更為清晰,噪點(diǎn)更少,圖像更為連續(xù),所以本文中采用Roberts算子來進(jìn)行邊緣檢測。

2.2.2閾值分割

閾值分割法是一種基于區(qū)域的圖像分割技術(shù),其基本原理是:通過設(shè)定不同的特征閾值,把圖像象素點(diǎn)分為若干類。常用的特征包括:直接來自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征。設(shè)原始圖像為f(x,y),按照一定的準(zhǔn)則f(x,y)中找到特征值T,將圖像分割為兩個(gè)部分,分割后的圖像為:

若?。篵0=0(黑),b1=1(白),即為我們通常所說的圖像二值化。

在數(shù)字化的圖像數(shù)據(jù)中,無用的背景數(shù)據(jù)和對象物的數(shù)據(jù)經(jīng)常放在一起,同時(shí),圖像中還含有各種噪聲,因此可以根據(jù)圖像的統(tǒng)計(jì)性質(zhì),從概率的角度來選擇合適的閾值。

1)最大方差閾值法

把待處理圖像的直方圖在某一閾值處分割為兩組,當(dāng)被分割成的兩組間的方差最大時(shí),便可以決定閾值了。

設(shè)灰度圖像f(x,y)的灰度級為0-L,灰度級I的像素為Ni,則圖中:

總象素?cái)?shù)N=∑j=0 i=LNi(式2-11)灰度級i出現(xiàn)的概率Pi= 1-ω(K)(式2-16)則兩組間的數(shù)學(xué)期望為ω0μ0ω1μ1=μ(式2-17)兩組間的方差為ρ2(k)

ρ2(k)是K的函數(shù),計(jì)算k取從0,1,2…L時(shí)ρ2(k)的值,當(dāng)多的值為最大時(shí),K即為閾值。

2)雙峰法

根據(jù)圖像的直方圖具有背景和對象物的兩個(gè)峰,分割兩個(gè)區(qū)域的閾值由兩個(gè)峰值之間的谷所對應(yīng)的灰度值決定。設(shè)灰度圖像f(x,y)的灰度級為0-L,灰度i的像素為Pi,分別計(jì)算

因?yàn)閷?shí)際PCB電路板有著許多的劃痕、污點(diǎn)等,使用最大方差閾值法時(shí),會在處理后的圖像上產(chǎn)生許多誤點(diǎn),而影響實(shí)際結(jié)果的分析,而雙峰法能夠順利地濾除這些干擾,這個(gè)結(jié)論在分析對比以上圖像時(shí)也可得出。所以本文選用了雙峰法來進(jìn)行閾值分割。

2.2.3粒子分析與圖像對比

經(jīng)過邊緣檢測和閾值分割的圖像中會存在許多瑕點(diǎn),這些點(diǎn)會影響到最后的圖像識別與分析,有可能會增加多余的殘留圖像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能進(jìn)行去除,如圖11和圖12所示。圖11原圖像圖12粒子分析

將標(biāo)準(zhǔn)PCB圖片減去缺陷缺陷PCB圖片,便可以得到缺陷板的斷路部分的圖像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到斷路部分的具體分析,如圖13示。

將缺陷PCB圖片減去標(biāo)準(zhǔn)PCB圖片,便可以得到缺陷板的短路部分的圖像,與上述相同的方法,便可以得到短路部分的具體分析,如圖14所示。

3結(jié)束語

利用LABVIEW來進(jìn)行PCB電路板缺陷的識別與檢測是一項(xiàng)非常好的課題,它在近些年已經(jīng)得到了一定的發(fā)展,并將得到更大的進(jìn)步。限于本人能力和時(shí)間,本文的研究還未涉及很深的領(lǐng)域,可以在以下方面加以改進(jìn):

1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的設(shè)計(jì)可以再利用其他語言如VISUAL BASIC,C++等編程語言加以輔助設(shè)計(jì),相信可以取得更加令人滿意的結(jié)果。

2)由于實(shí)驗(yàn)設(shè)備等其他因素,本文中只重點(diǎn)研究了PCB電路板短路與斷路的檢測識別,PCB電路板的其他缺陷還有待于進(jìn)一步的分析研究、分類和總結(jié),并設(shè)計(jì)出更好的檢測方法,以真正滿足PCB電路板檢測的需求。

3)照明設(shè)備的限制在很大程度上影響到了圖像的檢測效果,為取得PCB缺陷檢測的進(jìn)一步進(jìn)展,在照明設(shè)備的選擇上必須重視,并且設(shè)計(jì)出更好的圖像采集系統(tǒng)。

4)在識別與檢測手段上,可以引入更新更好的方法,而不要局限于在傳統(tǒng)的方法中分析比較,例如基于BP神經(jīng)網(wǎng)絡(luò)的識別檢測,圖像的模糊決策等將有待于進(jìn)一步研究。

總之,基于LABVIEW的機(jī)器視覺檢測系統(tǒng)已經(jīng)取得了不錯(cuò)的進(jìn)展,高速發(fā)展的PCB制造技術(shù)和計(jì)算機(jī)技術(shù)對于PCB缺陷的檢測提出了更高的要求,同時(shí)也大大地促進(jìn)了PCB缺陷檢測技術(shù)的發(fā)展。利用機(jī)器視覺檢測在未來的較長的一段時(shí)間內(nèi)將占據(jù)檢測行業(yè)的半壁江山,相信在未來會取得更大的發(fā)展。

參考文獻(xiàn):

[1]程學(xué)慶,房曉溪.LabVIEW圖形化編程與實(shí)例應(yīng)用[M].北京:中國鐵道出版社,2005.

[2]胡仲波.基于虛擬儀器技術(shù)的PCB視覺檢測系統(tǒng)[D].南京:南京理工大學(xué)碩士學(xué)位論文,2006.

[3]段峰,王耀南.機(jī)器視覺技術(shù)及其應(yīng)用綜述[J].自動(dòng)化博覽,2002,19(3).

[4]周長發(fā).精通Visual C++圖像處理編程[M].北京:電子工業(yè)出版社,2004.

[5]陳錫輝,張銀鴻.LabVIEW 8.20程序設(shè)計(jì)從入門到精通[M].北京:清華大學(xué)出版社,2007.

[6]鄭偉.圖像法檢測印刷電路板缺陷[M].西安:西安理工大學(xué),2002.

[7] National Instruments,IMAQ User Manual Concepts[Z].1999.

[8]李強(qiáng).PCB板缺陷自動(dòng)檢測技術(shù)的分析研究[D].合肥:合肥工業(yè)大學(xué),2002.

[9]傅茂名.基于形態(tài)邊緣檢測算法的一種改進(jìn)[J].電子科技大學(xué)學(xué)報(bào),2005(2).

[10]王思華.計(jì)算機(jī)視覺新技術(shù)及其在IC標(biāo)記質(zhì)量檢驗(yàn)系統(tǒng)設(shè)計(jì)中的應(yīng)用[J].電子技術(shù)應(yīng)用,2000(9).

[11]岳永哲.圖像處理技術(shù)在閱卷系統(tǒng)中的應(yīng)用[D].北京:北京工業(yè)大學(xué),2006.

[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.

[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.

[14]高育鵬,楊俊,何廣軍.基于圖像識別的自動(dòng)閱卷系統(tǒng)研究[J].現(xiàn)代電子期刊,2006(22).

[15]楊青燕,彭延軍.基于灰度圖像的答題卡識別技術(shù)[J].山東科技大學(xué)學(xué)報(bào):自然科學(xué)版,2009(3).

[16]周海濤,韓曉軍.基于數(shù)字圖像處理的答題卡識別方法研究[J].電腦知識與技術(shù),2008(28).

[17]周萬珍,鄭廣,王建霞,等.數(shù)字圖像處理技術(shù)在客觀題閱卷中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2006(8).

[18]王勝春.基于SVM的信息卡識別系統(tǒng)[D].長沙:湖南師范大學(xué),2008.

[19]吳志明.SMT系統(tǒng)中焊點(diǎn)位置的檢測[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

[20]楊敏,王春青,鄒增大,等.表面組裝印刷電路板上焊點(diǎn)信息的自動(dòng)獲取[J].焊接學(xué)報(bào),2005,39(6).