国模Av一区二区无码,亚洲高清无码2020,校园春色激情五月天

導(dǎo)語(yǔ)：如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)綜述，這就需要搜集整理更多的資料和文獻(xiàn)，歡迎閱讀由公文云整理的十篇范文，供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)綜述

篇1

【關(guān)鍵詞】深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 權(quán)值共享下采樣 R-CNN Fast-R-CNN

1 緒論

隨著電子信息技術(shù)的快速發(fā)展，芯片的設(shè)計(jì)與生產(chǎn)進(jìn)入了納米時(shí)代，計(jì)算機(jī)的計(jì)算能力與計(jì)算速度得到了空前的提高，但是人們的需求是無(wú)限的，要求計(jì)算機(jī)能更加任性化的服務(wù)于我們的生活，這也就要求計(jì)算機(jī)本身能像人一樣識(shí)別與感知周圍的環(huán)境，并對(duì)復(fù)雜的環(huán)境做出正確的判斷。而圖片信息是我們周圍環(huán)境最直觀的，最容易獲取的信息，要求計(jì)算機(jī)能對(duì)為的環(huán)境做出識(shí)別與判斷也就要求計(jì)算機(jī)能夠智能的識(shí)別圖像信息。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)新的研究領(lǐng)域。通過(guò)深度學(xué)習(xí)的方法構(gòu)建深度網(wǎng)絡(luò)來(lái)抽取目標(biāo)特征進(jìn)而識(shí)別周圍的環(huán)境。卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的處理具有平移，旋轉(zhuǎn)，扭曲不變的優(yōu)良特性。在處理圖像是更加快捷和便利。卷積神經(jīng)網(wǎng)絡(luò)使得計(jì)算機(jī)在感知識(shí)別周圍環(huán)境的能力有了巨大的提升，使得計(jì)算機(jī)更加智能。卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的特征提取能力，使得其在圖像分類識(shí)別，目標(biāo)跟蹤等領(lǐng)域有著強(qiáng)大的運(yùn)用。

1.1 國(guó)內(nèi)外研究現(xiàn)狀

1986年，Rumelhart和Mc Celland提出BP算法。BP算法反向傳導(dǎo)神經(jīng)網(wǎng)絡(luò)輸出誤差進(jìn)行訓(xùn)練神經(jīng)網(wǎng)絡(luò)。通過(guò)BP算法，神經(jīng)網(wǎng)絡(luò)能夠從大量訓(xùn)練數(shù)據(jù)中的學(xué)習(xí)到相關(guān)統(tǒng)計(jì)信息，學(xué)習(xí)到的數(shù)據(jù)統(tǒng)計(jì)信息能夠反映關(guān)于輸入-輸出數(shù)據(jù)模型的函數(shù)映射關(guān)系。

自2006年以來(lái)，Geoffery Hinton教授提出深度信念網(wǎng)絡(luò)。從此深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。深度學(xué)習(xí)不僅改變著傳統(tǒng)的機(jī)器學(xué)習(xí)方法，也影響著我們對(duì)人類感知的理解，迄今已在語(yǔ)音識(shí)別和圖像理解等應(yīng)用領(lǐng)域引起了突破性的變革。各種相關(guān)的算法和模型都取得了重要的突破，使得深度學(xué)習(xí)在圖像分類，語(yǔ)音識(shí)別，自然語(yǔ)言處理等領(lǐng)域有廣泛的運(yùn)用。

2013年百度成立百度深度學(xué)習(xí)研究院以來(lái)我國(guó)的人工智能領(lǐng)域取得了長(zhǎng)足的進(jìn)步。在人工智能專家吳恩達(dá)的帶領(lǐng)下，百度陸續(xù)推出一系列人工智能產(chǎn)品，無(wú)人駕駛技術(shù)，DuerOS語(yǔ)音交互計(jì)算平臺(tái)，人臉識(shí)別技術(shù)，美樂(lè)醫(yī)等優(yōu)秀產(chǎn)品。此外Imagenet圖像識(shí)別大賽中也誕生了一系列經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，VGG，F(xiàn)ast-R-CNN，SPP-net等等，可以說(shuō)人工智能技術(shù)在近幾年得到了空前的發(fā)展。

2 深度學(xué)習(xí)概述

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)新方向，通過(guò)學(xué)習(xí)樣本數(shù)據(jù)內(nèi)在規(guī)律和深層特征深度，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠像人一樣有分析和學(xué)的能力，尤其在文字處理，圖像識(shí)別，語(yǔ)音等領(lǐng)域更加突出。能夠自主學(xué)習(xí)一些新的東西。目前深度學(xué)習(xí)使用的典型技術(shù)是通過(guò)特征表達(dá)和分類器來(lái)進(jìn)行目標(biāo)識(shí)別等任務(wù)的。并在語(yǔ)音識(shí)別、圖像處理、機(jī)器翻譯等領(lǐng)域取得很多成果。

深度學(xué)習(xí)不同于以往的淺層學(xué)習(xí)，淺層學(xué)習(xí)模型值包含一個(gè)隱藏層，或者不存在隱藏層，深度學(xué)習(xí)則是由很多隱藏層組成的，上一層的輸出作為下一層的輸入，實(shí)驗(yàn)對(duì)輸入信息進(jìn)行分級(jí)表達(dá)。目前深度學(xué)習(xí)框架主要包含三種深度學(xué)習(xí)框架，如圖1、2、3所示。

3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)復(fù)雜，卷積神經(jīng)網(wǎng)絡(luò)包含大量的隱藏層，相鄰的卷積核或者下采樣核采用局部感受野全鏈接，神經(jīng)元權(quán)值共享的規(guī)則，因此卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)的數(shù)量遠(yuǎn)比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)少，卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和前向測(cè)試的復(fù)雜度大幅度降低，同時(shí)也減少了神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)過(guò)擬合的幾率。卷積神經(jīng)網(wǎng)絡(luò)主要有兩部分，分別是卷積核和下采樣核。卷積核主要對(duì)上一層的圖像進(jìn)行卷積運(yùn)算，提取圖像特征，下采樣核則是對(duì)上層的數(shù)據(jù)進(jìn)行將為處理，減少神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。

卷積神經(jīng)網(wǎng)絡(luò)中每一個(gè)神經(jīng)元的輸入與前一層的局部感受野相連，提取局部感受野的特征，比如圖像的輪廓，顏色等特征，而這些特征不僅包括傳統(tǒng)人類能理解的特征，也包括神經(jīng)網(wǎng)絡(luò)自身能夠識(shí)別的特征，卷積核全職共享，因此這些特征提取與圖像的位置無(wú)關(guān)。

圖4是經(jīng)典的LeNet5卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，LeNet5架構(gòu)中卷積核和下采樣核交替出現(xiàn)，下采樣核及時(shí)的將卷積核生成的特征向量進(jìn)行降維，減少神經(jīng)網(wǎng)絡(luò)的運(yùn)算量。LeNet5算法在1962年幼Hubel等人提出，在識(shí)別手寫數(shù)字mnist中有極高的準(zhǔn)確率。

4 R-CNN、Fast-R-CNN對(duì)比分析

卷積神經(jīng)網(wǎng)絡(luò)在對(duì)圖像進(jìn)行識(shí)別具有平移，旋轉(zhuǎn)，扭曲不變的優(yōu)良特性，并且能夠?qū)崿F(xiàn)高準(zhǔn)確率識(shí)別圖像，但是在現(xiàn)實(shí)生活運(yùn)用中往往需要神經(jīng)網(wǎng)絡(luò)標(biāo)記出目標(biāo)的相對(duì)位置，這是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不具備的功能。因此在前人傳統(tǒng)卷積神經(jīng)網(wǎng)路基礎(chǔ)上對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)，產(chǎn)生了具有對(duì)圖像中目標(biāo)進(jìn)行識(shí)別和定位的卷積神經(jīng)網(wǎng)絡(luò)R-CNN，F(xiàn)ast-R-CNN等改良算法。

4.1 R-CNN

R-CNN為Region Convoluntional Neural Network的縮寫即對(duì)圖像進(jìn)行局部區(qū)域的卷積處理，其核心思想主要是利用候選區(qū)圖像對(duì)物體探測(cè)中位置信息進(jìn)行精確處理和利用監(jiān)督式預(yù)訓(xùn)練和區(qū)域特殊化的微調(diào)方法，代替了傳統(tǒng)的非監(jiān)督式預(yù)訓(xùn)練和監(jiān)督式微調(diào)。

在CNN中，全連接層輸入是固定大小的，因此R-CNN用計(jì)算機(jī)視覺(jué)算法將每一張圖片分割成1000-2000張的候選區(qū)圖片后，要將這些候選區(qū)圖片進(jìn)行變換，生成固定大小的候選圖片，在訓(xùn)練提取特征時(shí)一般采用經(jīng)過(guò)預(yù)訓(xùn)練的模型參數(shù)進(jìn)行finetuning，榱嗽黽友盜費(fèi)本，模型在也將生成的候選框以及標(biāo)定的標(biāo)簽作為訓(xùn)練樣本進(jìn)行訓(xùn)練。R-CNN采用SVMs分類器對(duì)特征向量進(jìn)行分類，在訓(xùn)練SVMs時(shí)將候選框經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取的特征和SVM標(biāo)定結(jié)果輸入到SVMs分類器訓(xùn)練分類器模型。而在測(cè)試時(shí)將圖像全部候選框經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取的特征輸入到SVMs分類器中，得到每一類的評(píng)分結(jié)果。但是R-CNN在處理一張圖片是要處理需要對(duì)一張圖片1000-2000個(gè)候選區(qū)圖像進(jìn)行前向運(yùn)算，保存所有后選取圖片的特征值，要求計(jì)算硬件有大量的存儲(chǔ)空間，同時(shí)處理每一張圖片的時(shí)間也會(huì)增加。由于訓(xùn)練集龐大，本文采用hard negative mining method方法提高存儲(chǔ)的利用率。

R-CNN的體現(xiàn)出了極大的優(yōu)勢(shì)，其中MAP也可以大幅度提高，但是正如本文上述，R-CNN計(jì)算的時(shí)間成本很大，達(dá)不到實(shí)時(shí)的計(jì)算效果，R-CNN在對(duì)候選區(qū)進(jìn)行處理時(shí)會(huì)使得圖像失真，部分信息丟失。

4.2 Fast-R-CNN

Fast-R-CNN則是再次改進(jìn)的一種基于卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤定位算法。相比于R-CNN，F(xiàn)ast-R-CNN從單輸入變?yōu)殡p輸入，在全連接層后有了兩個(gè)輸出，引入了Rol層。

Fast-R-CNN在運(yùn)行的時(shí)候同樣會(huì)生成大量的候選區(qū)，同時(shí)將原始的圖片用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，將原始圖片提取的特征與生成的候選區(qū)坐標(biāo)送入Rol層為每一個(gè)候選區(qū)生成一個(gè)固定大小的特征向量。最后將Rol生成的特征向量全連接層產(chǎn)生最終的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式，SoftMax LOSS用于計(jì)算K+1分類的損失，K為第K個(gè)目標(biāo)，1為背景；Regression LOSS計(jì)算候選區(qū)的四個(gè)角的坐標(biāo)。

Fast-R-CNN在MAP上有了大幅度的提升，速度也得到了提升，但是在計(jì)算候選區(qū)是仍存在瓶頸，這也是限制Fast-R-CNN速度的因素。

5 實(shí)驗(yàn)測(cè)試

對(duì)于本文提出的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖像定位圖像目標(biāo)算法R-CNN，F(xiàn)ast-R-CNN，在本章給出實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)平臺(tái)為基于Linux系統(tǒng)的debian8下運(yùn)行caffe進(jìn)行訓(xùn)練，采用顯卡K620進(jìn)行實(shí)驗(yàn)。

訓(xùn)練模型初始化參數(shù)在是服從高斯隨機(jī)分布，R-CNN采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示，F(xiàn)ast-R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

本次實(shí)現(xiàn)的訓(xùn)練樣本為錄制實(shí)驗(yàn)室視頻數(shù)據(jù)，將視頻數(shù)據(jù)轉(zhuǎn)換成幀圖片，對(duì)每張圖片數(shù)據(jù)進(jìn)行裁剪，裁剪后圖像大小在256*256，共有500張，再將裁剪后的圖片進(jìn)行旋轉(zhuǎn)，平移，扭曲，鏡像，加噪聲等處理，最后生成144萬(wàn)張樣本圖片，其中136.8萬(wàn)張圖片作為訓(xùn)練樣本，7.2萬(wàn)張作為測(cè)試樣本。

6 總結(jié)

在目標(biāo)識(shí)別定位領(lǐng)域，卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的圖像處理能力，對(duì)圖像的識(shí)別定位具有很高度平移，旋轉(zhuǎn)，扭曲不變形的優(yōu)良性能。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)R-CNN和Fast-R-CNN都有強(qiáng)大的圖像處理能力。Fast-R-CNN在識(shí)別準(zhǔn)確率上比R-CNN高。R-CNN算法復(fù)雜，對(duì)一張圖片需要進(jìn)行1000-2000次的卷積運(yùn)算，特征重復(fù)提取。因此在訓(xùn)練和前向測(cè)試時(shí)，R-CNN用的時(shí)間長(zhǎng)，不能很好的適用于處理實(shí)時(shí)圖片數(shù)據(jù)，尤其視頻數(shù)據(jù)。R-CNN在對(duì)每個(gè)候選區(qū)進(jìn)行特征提取之后需要將提取的特征向量存入內(nèi)存，降低訓(xùn)練測(cè)試時(shí)間的同時(shí)也需要耗費(fèi)大量?jī)?nèi)存。因此從各方面分析可知，F(xiàn)ast-R-CNN性能優(yōu)于R-CNN。

參考文獻(xiàn)

[1]謝寶劍.基于卷積神經(jīng)網(wǎng)絡(luò)圖像分類方法研究[D].合肥工業(yè)大學(xué)，2015.

[2]鄭胤，陳權(quán)崎，章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào)，2014（02）：175-184.

[3]陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與運(yùn)用研究[D].杭州：浙江工商大學(xué)，2006（04）：603-617.

[4]李彥冬，郝宗波，雷航等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用，2016.

[5]Gibson.J J.The perception of the Visual World[J].Cambridge，England，1950.

[6]HORN B，SCHUNCK P.Determining optical flow[J].Artificial Intelligence， 1981，17：185-203.

[7]R.Girshick，J.Donahue，T. Darrell，and J.Malik，“Rich feature hierarchies for accurate object detection and semantic segmentation，”in CVPR，2014

[8]Ross Girshick，Wicrosoft Research. Fast R-CNN，.

[9]R.Girshick.Fast R-CNN. arXiv：1504.08083，2015.

篇2

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)；人臉識(shí)別；大樣本；對(duì)抗生成網(wǎng)絡(luò)

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2095-1302（2017）07-00-04

0 引言

近幾年，基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）在目標(biāo)檢測(cè)、目標(biāo)識(shí)別、顯著性檢測(cè)、行為識(shí)別、人臉識(shí)別和對(duì)象分割等計(jì)算機(jī)視覺(jué)領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績(jī)主要?dú)w功于以下幾點(diǎn)：

（1）將大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集，學(xué)習(xí)出具有百萬(wàn)參數(shù)的模型，從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對(duì)象的本質(zhì)特征；

（2）不斷改進(jìn)性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu)，如Very Deep VGG Network[1]，Google Inception Network[2]和Deep Residual Networks[3]等；

（3）各種并行計(jì)算硬件設(shè)備（如GPU）的支持，大大提高了CNN訓(xùn)練模型的效率。其中，將標(biāo)簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。

本文以人臉識(shí)別為例，討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。

有效的特征是目標(biāo)識(shí)別的關(guān)鍵，對(duì)人臉識(shí)別問(wèn)題來(lái)說(shuō)亦如此。傳統(tǒng)的主成分分析（Principal Component Analysis，PCA）[4，5]，線性區(qū)分分析（Linear Discriminant Analysis， LDA）[6]和局部二值模式化（Local Binary Pattern，LBP）[7，8]等取得了不錯(cuò)的成績(jī)?；趥鹘y(tǒng)特征的人臉識(shí)別受限于環(huán)境，此類特征作用在復(fù)雜或者背景多變的人臉圖像時(shí)，其識(shí)別性能往往大幅下降，如在LFW數(shù)據(jù)集上其識(shí)別率驟然下降[9]。

采用CNN作為特征提取模型，主要考慮到該模型的所有處理層，包括像素級(jí)別的輸入層，均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征，無(wú)需人工設(shè)計(jì)特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動(dòng)學(xué)習(xí)獲取，從而達(dá)到優(yōu)秀的識(shí)別性能?；诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬(wàn)的數(shù)據(jù)，其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬(wàn)個(gè)人臉圖像樣本進(jìn)行訓(xùn)練[10]，F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬(wàn)個(gè)有標(biāo)簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來(lái)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。

1 多樣本獲取現(xiàn)狀

如引言所述，有效合理的特征是目標(biāo)識(shí)別的關(guān)鍵，而CNN能從大量有標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標(biāo)簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標(biāo)簽方面。然而，獲取百萬(wàn)級(jí)的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理，然后給數(shù)據(jù)添加標(biāo)簽，耗費(fèi)大量的人力物力。雖然也有一些公開免費(fèi)的數(shù)據(jù)集，且收集該類數(shù)據(jù)相對(duì)比較容易，如CASIA-WebFace[13]，有49萬(wàn)個(gè)圖像，但遠(yuǎn)少于Facebook和Google的數(shù)據(jù)集。在這種情況下，缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用，成為阻礙提高檢測(cè)率和識(shí)別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外，已有研究證明[14-19]，基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢(shì)下，通過(guò)圖像處理與機(jī)器學(xué)習(xí)技術(shù)自動(dòng)增加樣本集已成為必要手段。

無(wú)論基于傳統(tǒng)方法的識(shí)別問(wèn)題，還是基于深度學(xué)習(xí)的識(shí)別問(wèn)題，大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足，算法往往過(guò)擬合，無(wú)法提高算法的性能。為了獲得更多樣本，一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù)，例如在IMDb上，已經(jīng)把9萬(wàn)有標(biāo)簽的數(shù)據(jù)集擴(kuò)大到了26萬(wàn) [10]。除此之外，F(xiàn)acebook獲取了440萬(wàn)個(gè)有標(biāo)簽的人臉進(jìn)行DeepFace網(wǎng)絡(luò)訓(xùn)練[11]，而Google使用2億個(gè)數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。

目前獲取方法具有如下局限：

（1）現(xiàn)有方法耗時(shí)耗力，需要經(jīng)費(fèi)支持。獲取百萬(wàn)級(jí)的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理，然后給數(shù)據(jù)添加標(biāo)簽，耗費(fèi)大量的人力物力。這種情況下，只有像Facebook和Google這樣的大公司會(huì)收集大量有標(biāo)簽的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個(gè)人隱私與財(cái)力物力等問(wèn)題，對(duì)于一般的小公司或科研院所而言，收集數(shù)據(jù)普遍難度較大。

（2）收集特殊圖片困難。對(duì)于一些特殊的圖像，如醫(yī)學(xué)圖像，遙感圖像，現(xiàn)實(shí)中數(shù)量本身就少，加之無(wú)法直接從網(wǎng)上獲取，因此小樣本很容易導(dǎo)致過(guò)擬合。

2 樣本集擴(kuò)大算法研究現(xiàn)狀

2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀

對(duì)于傳統(tǒng)的樣本生成算法，如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本，均可得到比較滿意的識(shí)別結(jié)果，但在現(xiàn)實(shí)的人臉數(shù)據(jù)庫(kù)中，人臉的數(shù)據(jù)樣本卻是有限的。文獻(xiàn)[20]表明，增加圖像樣本的數(shù)量可以較大幅度提高識(shí)別的準(zhǔn)確率。

為了增加樣本數(shù)量，提高識(shí)別準(zhǔn)確率，科研工作者已做了大量工作。其中，借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類：

（1）通過(guò)人臉圖像的對(duì)稱性來(lái)得到原始樣本的虛擬樣本，如Xu[14，15]和Liu等[21]提出借助原始圖像的“對(duì)稱臉”和“鏡像臉”產(chǎn)生虛擬樣本，從而擴(kuò)大數(shù)據(jù)集并提高人臉識(shí)別的正確率，Song[22]也提出相應(yīng)的算法來(lái)改進(jìn)人臉識(shí)別的性能；

（2）通過(guò)改變圖像的光照、姿勢(shì)和表情等來(lái)產(chǎn)生虛擬樣本，例如Boom等用一種稱為VIG的方法對(duì)未知光照情況進(jìn)行建模[16]，Abdolali[17]和Ho[18]等提出了類似的算法擴(kuò)大數(shù)據(jù)集；

（3）基于人臉圖像自身的特征生成虛擬樣本，Ryu等根據(jù)原始樣本的分布來(lái)產(chǎn)生虛擬樣本[19]，Liu等也根據(jù)圖像本身特性來(lái)產(chǎn)生虛擬樣本[23]。

（4）基于數(shù)學(xué)的多樣本產(chǎn)生方法，如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。

圖1 借助圖像合成方法生成新樣本

除了借助圖像處理方法獲得原始樣本的新樣本外，還可以利用圖像合成算法獲取多樣本，本研究做了相關(guān)實(shí)驗(yàn)，其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類人臉圖像，每類有ni個(gè)樣本，令表示第i類中的第j個(gè)樣本，這里i=1，2，…，c，j=1，2，…，ni，h和w分別代表樣本xij的高和寬（均為像素值）。用X=[X1，X2，…，Xc]代表所有樣本，則Xi=[xi1，xi2，…，xini]，i=1，2，…，c代表第i類樣本。則有：

其中， P（Xi）代表所生成的第i類新樣本， f（g）表示圖像處理函數(shù)，代表多個(gè)樣本的串聯(lián)，即將多個(gè)樣本聯(lián)合起來(lái)得到一個(gè)類別的新樣本。

2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀

大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)成功的關(guān)鍵，尤其對(duì)于強(qiáng)大的深度學(xué)習(xí)技術(shù)，大數(shù)據(jù)集能提高CNN的性能，防止過(guò)擬合[25]。為了擴(kuò)充數(shù)據(jù)集，已有一些工作在不改變圖像語(yǔ)義的情況下進(jìn)行，如水平鏡像[26]、不同尺度的剪裁[27，28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。

DeepID[30]采取了增大數(shù)據(jù)集手法來(lái)訓(xùn)練網(wǎng)絡(luò)，只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分，該研究采用兩種方法增大數(shù)據(jù)集：

（1）選擇采集好的數(shù)據(jù)，即映入CelebFaces數(shù)據(jù)集。

（2）將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分，然后分別進(jìn)行訓(xùn)練，再把得到的向量串聯(lián)起來(lái)，即得到最后的向量。

以上方法僅局限于相對(duì)簡(jiǎn)單的圖像處理技術(shù)，該類方法生成的多樣本具有一定的局限性。比如，真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進(jìn)行3D旋轉(zhuǎn)，而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問(wèn)題，如Shotton等通過(guò)隨機(jī)森林合成3D深度數(shù)據(jù)來(lái)估計(jì)人體姿勢(shì)，Jaderberg等使用合成數(shù)據(jù)來(lái)訓(xùn)練CNN模型識(shí)別自然場(chǎng)景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁，旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜，需要較多的前期工作。

近年來(lái)，借助生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Networks，GANs）來(lái)生成原始樣本的方法吸引了很多學(xué)者。2014年6月，Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32]，文中詳盡介紹了GANs的原理、優(yōu)點(diǎn)及其在圖像生成方面的應(yīng)用，標(biāo)志著GANs的誕生。早期的GANs模型存在許多問(wèn)題，如GANs網(wǎng)絡(luò)不穩(wěn)定，甚至有時(shí)該網(wǎng)絡(luò)永遠(yuǎn)不會(huì)開始學(xué)習(xí)，生成的結(jié)果無(wú)法令人滿意。文獻(xiàn)[32]中生成器生成的圖片十分模糊，針對(duì)此問(wèn)題，Denton等提出一個(gè)被稱為 LAPGANs的模型[33]，該模型用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像，這些新圖像的清晰度不斷提高，最終得到高分辨率圖像。GANs除了基于圖像生成圖像外，還可以通過(guò)文字生成圖像，如文獻(xiàn)[34]搭起了文本到圖像的橋梁，通過(guò)GANs將文本直接轉(zhuǎn)換成對(duì)的圖像。文獻(xiàn)[35]將GAN應(yīng)用于超分辨率中，該文獻(xiàn)提出了全新的損失函數(shù)，使得 GANs 能對(duì)大幅降采樣后的圖像恢復(fù)其生動(dòng)紋理和小顆粒細(xì)節(jié)。另外，Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36]，該文獻(xiàn)指出，用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級(jí)的特征，并具有比其他無(wú)監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。

基于GAN生成樣本的過(guò)程如圖2所示。首先將同類別的原始圖像輸入到生成對(duì)抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中，生成“假冒”圖像G1和G2，接著借助判別器D來(lái)判斷輸入的圖像是真實(shí)圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像，力爭(zhēng)判別器D難以區(qū)分真假；而判別器D應(yīng)不斷提高自身性能，有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價(jià)值函數(shù)如下：

生成器G最小化log（1-D（G（z））），判別器D最大化logD（x），使得最大概率按照訓(xùn)練樣本的標(biāo)簽分類，生成模型G隱式定義了一個(gè)概率分布Pg，希望Pg 收斂到數(shù)據(jù)真實(shí)分布Pdata。

圖2 GAN生成新樣本示意圖

3 結(jié) 語(yǔ)

綜上所述，基于原始樣本的多樣本生成算法是一個(gè)值得深入研究探索的問(wèn)題，具備清晰而明確的理論意義和現(xiàn)實(shí)應(yīng)用意義。雖然研究人員已經(jīng)對(duì)相關(guān)問(wèn)題進(jìn)行了一些研究，取得了一系列成果，但是多樣本的產(chǎn)生方法缺乏全面、深入的理解，尚未出現(xiàn)具有里程碑意義的研究成果。具體而言，本文認(rèn)為，基于原始樣本的多樣本生成問(wèn)題需要在如下幾個(gè)方面展開深入的研究：

（1）在研究多樣本生成算法時(shí)，保留原始樣本的本質(zhì)特征，如在人臉識(shí)別中，拋棄不必要信息（光照、表情和姿勢(shì)）的影響是一項(xiàng)十分有意義的工作。

（2）在合成新樣本時(shí)，設(shè)計(jì)合理有效的構(gòu)造元素，使合成的新表示更接近自然亦是一個(gè)值得研究的方向。

（3）基于生成對(duì)抗網(wǎng)絡(luò)，研究某一類對(duì)象的生成新樣本的核心算法是一項(xiàng)有意義的工作。

參考文獻(xiàn)

[1] K Simonyan， A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science， 2014.

[2] C Szegedy，W Lin，Y Jia， et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015.

[3] K He，X Zhang，S Ren，et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2016.

[4] Turk， Matthew， Pentland， et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience， 2014，3（1）： 71-86.

[5] A Pentland.Looking at People： Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence， 2000，22（1）： 107-119.

[6] C Liu， H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society， 2000，9（1）： 132-137.

[7] T Ojala，M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2002，24（7）： 404-420.

[8] T Ahonen， A Hadid， M Pietikainen.Face Description with Local Binary Patterns： Application to Face Recognition[J]. European Conference on Computer Vision， 2004，28（12）： 469-481.

[9] GB Huang， M Mattar， T Berg，et al. Labeled faces in the wild： A database for studying face recognition in unconstrained environments[Z].Month，2008.

[10] OM Parkhi， A Vedaldi， A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference， 2015.

[11] Y Taigman，M Yang， Marc， et al. DeepFace： Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition，2014.

[12] F Schroff，D Kalenichenko，J Philbin.FaceNet： A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition，2015.

[13] D Yi，Z Lei， S Liao， et al.Learning face representation from scratch[Z]. Computer Science， 2014.

[14] Y Xu， X Zhu， Z Li， et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition， 2013，46（4）： 1151-1158.

[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing， 2014，31（7）： 191-199.

[16] BJ Boom， LJ Spreeuwers， RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition， 2011，44（9）： 1980-1989.

[17] F Abdolali，S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing，2011.

[18] HT Ho，R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society， 2013，22（4）： 1573.

[19] Y.-S.， Ryu.，S.-Y.， O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters， 2012，23（7）： 833-841.

[20] A Wagner，J Wright， A Ganesh，et al.Toward a Practical Face Recognition System： Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2012，34（2）： 372-386.

[21] Z Liu，X Song，Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging， 2015，24（2）： 23013.

[22] YJ Song，YG Kim，UD Chang，et al. Face recognition robust to left/right shadows； facial symmetry[J]. Pattern Recognition， 2006，39（8）： 1542-1545.

[23] Z Liu， X Song， Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications， 2015，26（8）： 2013-2026.

[24] G Zhang，W Zou，X Zhang，et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing， 2017，62： 150-156.

[25] K Chatfield，K Simonyan，A V edaldi，et al. Return of the devil in the details： Delving deep into convolutional nets[Z]. Computer science， 2014.

[26] H Yang， I Patras.Mirror， mirror on the wall， tell me， is the error small？ [J]. Der Chirurg； Zeitschrift für alle Gebiete der，2015，69（12）：235-240.

[27] A Krizhevsky， I Sutskever， GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems， 2012，25（2）： 1097-1105.

[28] G Levi，T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops，2015.

[29] S Xie， Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision，2015.

[30] Y Sun， X Wang， X Tang.Deep Learning Face Representation from Predicting 10，000 Classes[C]. in Computer Vision and Pattern Recognition，2014.

[31] M Jaderberg， K Simonyan，A Vedaldi，et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv， 2014.

[32] I Goodfellow，J Pougetabadie， M Mirza， et al. Generative adversarial nets[Z]. in Advances in neural information processing systems， 2014.

[33] E Denton，S Chintala，A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science，2015.

[34] S Reed，Z Akata， X Yan，et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning，2016.

篇3

關(guān)鍵詞人臉識(shí)別；特征提取

1人臉識(shí)別技術(shù)概述

近年來(lái)，隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展，人臉自動(dòng)識(shí)別技術(shù)得到廣泛研究與開發(fā)，人臉識(shí)別成為近30年里模式識(shí)別和圖像處理中最熱門的研究主題之一。人臉識(shí)別的目的是從人臉圖像中抽取人的個(gè)性化特征，并以此來(lái)識(shí)別人的身份。一個(gè)簡(jiǎn)單的自動(dòng)人臉識(shí)別系統(tǒng)，包括以下4個(gè)方面的內(nèi)容：

(1)人臉檢測(cè)(Detection)：即從各種不同的場(chǎng)景中檢測(cè)出人臉的存在并確定其位置。

(2)人臉的規(guī)范化(Normalization)：校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。

(3)人臉表征(FaceRepresentation)：采取某種方式表示檢測(cè)出人臉和數(shù)據(jù)庫(kù)中的已知人臉。

(4)人臉識(shí)別(Recognition)：將待識(shí)別的人臉與數(shù)據(jù)庫(kù)中的已知人臉比較，得出相關(guān)信息。

2人臉識(shí)別算法的框架

人臉識(shí)別算法描述屬于典型的模式識(shí)別問(wèn)題，主要有在線匹配和離線學(xué)習(xí)兩個(gè)過(guò)程組成，如圖1所示。

圖1一般人臉識(shí)別算法框架

在人臉識(shí)別中，特征的分類能力、算法復(fù)雜度和可實(shí)現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對(duì)最終分類結(jié)果有著決定性的影響。分類器所能實(shí)現(xiàn)的分辨率上限就是各類特征間最大可區(qū)分度。因此，人臉識(shí)別的實(shí)現(xiàn)需要綜合考慮特征選擇、特征提取和分類器設(shè)計(jì)。

3人臉識(shí)別的發(fā)展歷史及分類

人臉識(shí)別的研究已經(jīng)有相當(dāng)長(zhǎng)的歷史，它的發(fā)展大致可以分為四個(gè)階段：

第一階段：人類最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。

J.S.Bruner于1954年寫下了關(guān)于心理學(xué)的Theperceptionofpeople，Bledsoe在1964年就工程學(xué)寫了FacialRecognitionProjectReport，國(guó)外有許多學(xué)校在研究人臉識(shí)別技術(shù)[1]，其中有從感知和心理學(xué)角度探索人類識(shí)別人臉機(jī)理的，如美國(guó)TexasatDallas大學(xué)的Abdi和Tool小組[2、3]，由Stirling大學(xué)的Bruce教授和Glasgow大學(xué)的Burton教授合作領(lǐng)導(dǎo)的小組等[3]；也有從視覺(jué)機(jī)理角度進(jìn)行研究的，如英國(guó)的Graw小組[4、5]和荷蘭Groningen大學(xué)的Petkov小組[6]等。

第二階段：關(guān)于人臉的機(jī)器識(shí)別研究開始于二十世紀(jì)七十年代。

Allen和Parke為代表，主要研究人臉識(shí)別所需要的面部特征。研究者用計(jì)算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識(shí)別過(guò)程全部依賴于操作人員，不是一種可以完成自動(dòng)識(shí)別的系統(tǒng)。

第三階段：人機(jī)交互式識(shí)別階段。

Harmon和Lesk用幾何特征參數(shù)來(lái)表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征，并設(shè)計(jì)了基于這一特征表示法的識(shí)別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計(jì)識(shí)別方法，用歐氏距離來(lái)表征人臉特征。但這類方法需要利用操作員的某些先驗(yàn)知識(shí)，仍然擺脫不了人的干預(yù)。

第四階段：20世紀(jì)90年代以來(lái)，隨著高性能計(jì)算機(jī)的出現(xiàn)，人臉識(shí)別方法有了重大突破，才進(jìn)入了真正的機(jī)器自動(dòng)識(shí)別階段。在用靜態(tài)圖像或視頻圖像做人臉識(shí)別的領(lǐng)域中，國(guó)際上形成了以下幾類主要的人臉識(shí)別方法：

1）基于幾何特征的人臉識(shí)別方法

基于幾何特征的方法是早期的人臉識(shí)別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時(shí)往往要用到人臉結(jié)構(gòu)的一些先驗(yàn)知識(shí)。識(shí)別所采用的幾何特征是以人臉器官的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量，本質(zhì)上是特征矢量之間的匹配，其分量通常包括人臉指定兩點(diǎn)間的歐式距離、曲率、角度等。

基于幾何特征的識(shí)別方法比較簡(jiǎn)單、容易理解，但沒(méi)有形成統(tǒng)一的特征提取標(biāo)準(zhǔn)；從圖像中抽取穩(wěn)定的特征較困難，特別是特征受到遮擋時(shí)；對(duì)較大的表情變化或姿態(tài)變化的魯棒性較差。

2）基于相關(guān)匹配的方法

基于相關(guān)匹配的方法包括模板匹配法和等強(qiáng)度線方法。

①模板匹配法：Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識(shí)別方法和基于模板匹配的人臉識(shí)別方法，并得出結(jié)論：基于幾何特征的人臉識(shí)別方法具有識(shí)別速度快和內(nèi)存要求小的優(yōu)點(diǎn)，但在識(shí)別率上模板匹配要優(yōu)于基于幾何特征的識(shí)別方法。

②等強(qiáng)度線法：等強(qiáng)度線利用灰度圖像的多級(jí)灰度值的等強(qiáng)度線作為特征進(jìn)行兩幅人臉圖像的匹配識(shí)別。等強(qiáng)度曲線反映了人臉的凸凹信息。這些等強(qiáng)度線法必須在背景與頭發(fā)均為黑色，表面光照均勻的前提下才能求出符合人臉真實(shí)形狀的等強(qiáng)度線。

3）基于子空間方法

常用的線性子空間方法有：本征子空間、區(qū)別子空間、獨(dú)立分量子空間等。此外，還有局部特征分析法、因子分析法等。這些方法也分別被擴(kuò)展到混合線性子空間和非線性子空間。

Turk等[11]采用本征臉(Eigenfaces)方法實(shí)現(xiàn)人臉識(shí)別。由于每個(gè)本征矢量的圖像形式類似于人臉，所以稱本征臉。對(duì)原始圖像和重構(gòu)圖像的差分圖像再次進(jìn)行K-L變換，得到二階本征空間，又稱二階本征臉[12]。Pentland等[13]提出對(duì)于眼、鼻和嘴等特征分別建立一個(gè)本征子空間，并聯(lián)合本征臉子空間的方法獲得了好的識(shí)別結(jié)果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉?lè)椒ǖ淖R(shí)別結(jié)果。Albert等[15]提出了TPCA(TopologicalPCA)方法，識(shí)別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識(shí)別效果好于本征臉?lè)椒?。?dāng)每個(gè)人有多個(gè)樣本圖像時(shí)，本征空間法沒(méi)有考慮樣本類別間的信息，因此，基于線性區(qū)別分析(LDALinearDiscriminantAnalysis)，Belhumeur等[17]提出了Fisherfaces方法，獲得了較好的識(shí)別結(jié)果。Bartlett等[18]采用獨(dú)立分量分析(ICA，IndependentComponentAnalysis)的方法識(shí)別人臉，獲得了比PCA方法更好的識(shí)別效果。

4）基于統(tǒng)計(jì)的識(shí)別方法

該類方法包括有：KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。

①KL變換：將人臉圖像按行(列)展開所形成的一個(gè)高維向量看作是一種隨機(jī)向量，因此采用K-L變換獲得其正交K-L基底，對(duì)應(yīng)其中較大特征值基底具有與人臉相似的形狀。國(guó)外，在用靜態(tài)圖像或視頻圖像做人臉識(shí)別的領(lǐng)域中，比較有影響的有MIT的Media實(shí)驗(yàn)室的Pentland小組，他們主要是用基于KL變換的本征空間的特征提取法，名為“本征臉(Eigenface)[19]。

②隱馬爾可夫模型：劍橋大學(xué)的Samaria和Fallside[20]對(duì)多個(gè)樣本圖像的空間序列訓(xùn)練出一個(gè)HMM模型，它的參數(shù)就是特征值；基于人臉從上到下、從左到右的結(jié)構(gòu)特征；Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識(shí)別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識(shí)別效果，如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識(shí)別DCT壓縮的JPEG圖像中的人臉圖像；Nefian等采用嵌入式HMM識(shí)別人臉[24]，如圖2(b)所示。后來(lái)集成coupledHMM和HMM通過(guò)對(duì)超狀態(tài)和各嵌入狀態(tài)采用不同的模型構(gòu)成混合系統(tǒng)結(jié)構(gòu)[25]。

基于HMM的人臉識(shí)別方法具有以下優(yōu)點(diǎn)：第一，能夠允許人臉有表情變化，較大的頭部轉(zhuǎn)動(dòng)；第二，擴(kuò)容性好.即增加新樣本不需要對(duì)所有的樣本進(jìn)行訓(xùn)練；第三，較高的識(shí)別率。

(a)(b)

圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型

5）基于神經(jīng)網(wǎng)絡(luò)的方法

Gutta等[26]提出了混合神經(jīng)網(wǎng)絡(luò)、Lawrence等[27]通過(guò)一個(gè)多級(jí)的SOM實(shí)現(xiàn)樣本的聚類，將卷積神經(jīng)網(wǎng)絡(luò)CNN用于人臉識(shí)別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡(luò)方法提取人臉圖像特征，用自相關(guān)神經(jīng)網(wǎng)絡(luò)進(jìn)一步壓縮特征，最后采用一個(gè)MLP來(lái)實(shí)現(xiàn)人臉識(shí)別。Er等[30]采用PCA進(jìn)行維數(shù)壓縮，再用LDA抽取特征，然后基于RBF進(jìn)行人臉識(shí)別。Haddadnia等[31]基于PZMI特征，并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)是通過(guò)學(xué)習(xí)的過(guò)程獲得對(duì)這些規(guī)律和規(guī)則的隱性表達(dá)，它的適應(yīng)性較強(qiáng)。

6）彈性圖匹配方法

Lades等提出采用動(dòng)態(tài)鏈接結(jié)構(gòu)(DLA，DynamicLinkArchitecture)[32]的方法識(shí)別人臉。它將人臉用格狀的稀疏圖如圖3所示。

圖3人臉識(shí)別的彈性匹配方法

圖3中的節(jié)點(diǎn)用圖像位置的Gabor小波分解得到的特征向量標(biāo)記，圖的邊用連接節(jié)點(diǎn)的距離向量標(biāo)記。Wiskott等人使用彈性圖匹配方法，準(zhǔn)確率達(dá)到97.3%。Wiskott等[33]將人臉特征上的一些點(diǎn)作為基準(zhǔn)點(diǎn)，構(gòu)成彈性圖。采用每個(gè)基準(zhǔn)點(diǎn)存儲(chǔ)一串具有代表性的特征矢量，減少了系統(tǒng)的存儲(chǔ)量。Wurtz等[34]只使用人臉I(yè)CI部的特征，進(jìn)一步消除了結(jié)構(gòu)中的冗余信息和背景信息，并使用一個(gè)多層的分級(jí)結(jié)構(gòu)。Grudin等[35]也采用分級(jí)結(jié)構(gòu)的彈性圖，通過(guò)去除了一些冗余節(jié)點(diǎn)，形成稀疏的人臉描述結(jié)構(gòu)。另一種方法是，Nastar等[36]提出將人臉圖像I(x，y)表示為可變形的3D網(wǎng)格表(x，y，I(x，y))，將人臉匹配問(wèn)題轉(zhuǎn)換為曲面匹配問(wèn)題，利用有限分析的方法進(jìn)行曲面變形，根據(jù)兩幅圖像之間變形匹配的程度識(shí)別人臉。

7）幾種混合方法的有效性

(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。

K-L變換的核心過(guò)程是計(jì)算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性，當(dāng)圖像有小的擾動(dòng)時(shí)，奇異值的變化不大。奇異值表示了圖像的代數(shù)特征，在某種程度上，SVD特征同時(shí)擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對(duì)人臉進(jìn)行識(shí)別，提高識(shí)別的準(zhǔn)確性[37]。

(2)HMM和奇異值分解相融合的分類判別方法。

采用奇異值分解方法進(jìn)行特征提取，一般是把一幅圖像(長(zhǎng)為H)看成一個(gè)N×M的矩陣，求取其奇異值作為人臉識(shí)別的特征。在這里我們采用采樣窗對(duì)同一幅圖片進(jìn)行重疊采樣(如圖4)，對(duì)采樣所得到的矩陣分別求其對(duì)應(yīng)的前k個(gè)最大的奇異值，分別對(duì)每一組奇異值進(jìn)行矢量標(biāo)準(zhǔn)化和矢量重新排序，把這些處理后的奇異值按采樣順序組成一組向量，這組向量是惟一的[38]。

圖4采樣窗采樣

綜合上述論文中的實(shí)驗(yàn)數(shù)據(jù)表明[39]，如表1：

表1人臉識(shí)別算法比較

8）基于三維模型的方法

該類方法一般先在圖像上檢測(cè)出與通用模型頂點(diǎn)對(duì)應(yīng)的特征點(diǎn)，然后根據(jù)特征點(diǎn)調(diào)節(jié)通用模型，最后通過(guò)紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結(jié)構(gòu)光源和立體視覺(jué)理論，通過(guò)攝像機(jī)獲取立體圖像，根據(jù)圖像特征點(diǎn)之間匹配構(gòu)造人臉的三維表面，如圖5所示。

圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型

Zhao[41]提出了一個(gè)新的SSFS(SymetricShape-from-Shading)理論來(lái)處理像人臉這類對(duì)稱對(duì)象的識(shí)別問(wèn)題，基于SSFS理論和一個(gè)一般的三維人臉模型來(lái)解決光照變化問(wèn)題，通過(guò)基于SFS的視圖合成技術(shù)解決人臉姿態(tài)問(wèn)題，針對(duì)不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。

三維圖像有三種建模方法：基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中，基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于：后者在人臉姿態(tài)每變化一次后，需要重新搜索特征點(diǎn)的坐標(biāo)，而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖，如圖7所示。

圖7三維建模的系統(tǒng)框圖

三維人臉建模、待識(shí)別人臉的姿態(tài)估計(jì)和識(shí)別匹配算法的選取是實(shí)現(xiàn)三維人臉識(shí)別的關(guān)鍵技術(shù)。隨著采用三維圖像識(shí)別人臉技術(shù)的發(fā)展，利用直線的三維圖像信息進(jìn)行人臉識(shí)別已經(jīng)成為人們研究的重心。

4總結(jié)與展望

人臉自動(dòng)識(shí)別技術(shù)已取得了巨大的成就，隨著科技的發(fā)展，在實(shí)際應(yīng)用中仍然面臨困難，不僅要達(dá)到準(zhǔn)確、快速的檢測(cè)并分割出人臉部分，而且要有效的變化補(bǔ)償、特征描述、準(zhǔn)確的分類的效果，還需要注重和提高以下幾個(gè)方面：

(1)人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征，基于混合模型的方法值得進(jìn)一步深入研究，以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。

(2)多特征融合和多分類器融合的方法也是改善識(shí)別性能的一個(gè)手段。

(3)由于人臉為非剛體性，人臉之間的相似性以及各種變化因素的影響，準(zhǔn)確的人臉識(shí)別仍較困難。為了滿足自動(dòng)人臉識(shí)別技術(shù)具有實(shí)時(shí)要求，在必要時(shí)需要研究人臉與指紋、虹膜、語(yǔ)音等識(shí)別技術(shù)的融合方法。

(4)3D形變模型可以處理多種變化因素，具有很好的發(fā)展前景。已有研究也表明，對(duì)各種變化因素采用模擬或補(bǔ)償?shù)姆椒ň哂休^好的效果。三維人臉識(shí)別算法的選取還處于探索階段，需要在原有傳統(tǒng)識(shí)別算法的基礎(chǔ)上改進(jìn)和創(chuàng)新。

(5)表面紋理識(shí)別算法是一種最新的算法[52]，有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。

總之，人臉識(shí)別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識(shí)別效果，如何與其它技術(shù)相結(jié)合，如何提高識(shí)別率和識(shí)別速度、減少計(jì)算量、提高魯棒性，如何采用嵌入式及硬件實(shí)現(xiàn)，如何實(shí)用化都是將來(lái)值得研究的。

參考文獻(xiàn)

[1]O''''TooleAJ，AbdiH，DeffenbacherKA，etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America，1993，10：405～411

[2]張翠萍，蘇光大.人臉識(shí)別技術(shù)綜述.中國(guó)圖像圖形學(xué)報(bào)，2000，5(11)：885-894

[3]A.Samal，P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions：asurvey[J].PatternRecognition，1992，25(1)：65-67

[4]TurkM，PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience，1991，3(1)：71～86

[5]BartlettMS，MovellanJR，SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork，2002，13(6)：1450-1464

[6]ManjunathBS，ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog，1996，29(4)：627-640

[7]ChengY.LiuK，YangJ，etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc，Intell.RobotsandComputerVisionX：AlgorithmsandTechn.1991，1606：85-95

[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002，2：133-136

[9]GuttaS，WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition，1997，30(4)：539-553

[10]HaddadniaJ，AhmadiM，F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002，1：11-16

[11]M.Lades，J.C.Vorbruggen，J.Buhmann，ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer，1993，42(3)：300-311

[12]NastarC，MoghaddamBA.FlexibleImages：MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding，1997，65(2)：179-191

[13]羊牧.基于KL投影和奇異值分解相融合人臉識(shí)別方法的研究[D].四川大學(xué).2004，5，1

[14]白冬輝.人臉識(shí)別技術(shù)的研究與應(yīng)用[D].北方工業(yè)大學(xué).2006，5

篇4

關(guān)鍵詞：PCB；圖像處理；視覺(jué)檢測(cè)

中圖分類號(hào)：TP277文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1009-3044(2012)07-1648-06

當(dāng)今世界科技發(fā)展日新月異，電子產(chǎn)業(yè)的發(fā)展直接制約著國(guó)民經(jīng)濟(jì)的騰飛與否，而PCB電路板制作工藝的提高對(duì)促進(jìn)電子產(chǎn)業(yè)的發(fā)展至關(guān)重要，能否有效精確地檢測(cè)PCB電路板的缺陷一直都是電子行業(yè)的研究熱點(diǎn)。國(guó)外的印刷電路板自動(dòng)檢測(cè)技術(shù)一直領(lǐng)先于國(guó)內(nèi)，國(guó)內(nèi)的很多廠家不得不采用昂貴的外國(guó)技術(shù)，雖然近年國(guó)內(nèi)的印刷電路板自動(dòng)檢測(cè)技術(shù)發(fā)展迅速，但大都沒(méi)有取得令人非常滿意的結(jié)果。加入研究這一領(lǐng)域的熱潮，趕超外國(guó)的先進(jìn)技技水平，打斷外國(guó)壟斷技術(shù)，對(duì)于發(fā)展國(guó)民經(jīng)濟(jì)具有十分重要的意義。

1 PCB檢測(cè)系統(tǒng)的硬件設(shè)計(jì)

1.1 PCB檢測(cè)系統(tǒng)的硬件組成框圖

雖然本文所做的工作主要是軟件方面，但對(duì)于硬件系統(tǒng)的設(shè)計(jì)也是至關(guān)重要的，它對(duì)于建立有效的計(jì)算機(jī)視覺(jué)識(shí)別檢測(cè)系統(tǒng)，起著決定性作用。因此，必須在綜合考慮系統(tǒng)性價(jià)比和系統(tǒng)性能的基礎(chǔ)上，設(shè)計(jì)出合理的硬件系統(tǒng)[9]。PCB檢測(cè)系統(tǒng)的硬件組成框圖如圖1所示：圖1 PCB檢測(cè)系統(tǒng)硬件組成框圖

1.2系統(tǒng)的硬件組成

系統(tǒng)的硬件組成[10]主要包括：計(jì)算機(jī)主機(jī)、CCD攝像機(jī)、圖像采集卡、照明系統(tǒng)及相關(guān)的設(shè)備。

2 PCB電路板缺陷檢測(cè)識(shí)別

PCB電路板在電子工業(yè)中的應(yīng)用越來(lái)越廣泛，如何降低電路板的故障率、提高電路板的質(zhì)量直接影響到整個(gè)產(chǎn)業(yè)的發(fā)展。因此，對(duì)于PCB電路板缺陷的識(shí)別技術(shù)的發(fā)展至關(guān)重要。PCB電路板的缺陷很多[16]，主要有短路、斷路、劃痕、凸起、空洞、缺焊、過(guò)焊等等，由于實(shí)驗(yàn)室設(shè)備限制和個(gè)人水平所限，本文主要研究的內(nèi)容是PCB電路板短路與斷路的檢測(cè)識(shí)別

近年來(lái)出現(xiàn)了很多圖像檢測(cè)算法,這些算法大致可分為三大類：有參考算法、無(wú)參考算法以及混合型算法。有參考算法分為兩大類：圖像對(duì)比法和模型對(duì)比法。無(wú)參考算法是一種不需要標(biāo)準(zhǔn)圖像的檢測(cè)算法，它是基于一定的設(shè)計(jì)規(guī)則來(lái)進(jìn)行檢測(cè)的?；旌闲头椒ㄊ菍⒂袇⒖妓惴ㄅc無(wú)參考算法混合使用，從而發(fā)揮出各自的優(yōu)點(diǎn)。比如，模板匹配法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用，或者連接表方法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用等。本文中短路與斷路的檢測(cè)識(shí)別采取了圖像對(duì)比法，即將經(jīng)過(guò)一定處理后的圖像進(jìn)行相減，從而分析相應(yīng)的結(jié)果；而對(duì)焊點(diǎn)缺陷的識(shí)別主要采用模板匹配法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用。

2.1 PCB電路板缺陷檢測(cè)識(shí)別的主要流程圖

圖2為子程序流程圖；圖3為主程序流程圖。

2.2 PCB電路板短路與斷路的檢測(cè)識(shí)別

2.2.1邊緣檢測(cè)

在對(duì)圖像進(jìn)行基本的處理過(guò)后可以將圖像與背景分割開來(lái)。邊緣檢測(cè)是圖像處理和計(jì)算機(jī)視覺(jué)中的基本問(wèn)題，邊緣檢測(cè)的目的是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn)。圖像屬性中的顯著變化通常反映了屬性的重要事件和變化。

這些包括：深度上的不連續(xù)；表面方向不連續(xù)；物質(zhì)屬性變化；場(chǎng)景照明變化。邊緣檢測(cè)是圖像處理和計(jì)算機(jī)視覺(jué)中，尤其是特征提取中的一個(gè)研究領(lǐng)域。

圖像邊緣檢測(cè)大幅度地減少了數(shù)據(jù)量，并且剔除了可以認(rèn)為不相關(guān)的信息，保留了圖像重要的結(jié)構(gòu)屬性。有許多方法用于邊緣檢測(cè)，它們的絕大部分可以劃分為兩類[17]：基于查找一類和基于零穿越的一類?；诓檎业姆椒ㄍㄟ^(guò)尋找圖像一階導(dǎo)數(shù)中的最大和最小值來(lái)檢測(cè)邊界，通常是將邊界定位在梯度最大的方向?；诹愦┰降姆椒ㄍㄟ^(guò)尋找圖像二階導(dǎo)數(shù)零穿越來(lái)尋找邊界，通常是Laplacian過(guò)零點(diǎn)或者非線性差分表示的過(guò)零點(diǎn)。

1）Roberts算子

邊緣，是指周圍像素灰度有階躍變化或屋頂?shù)茸兓哪切┫袼氐募?。圖像的邊緣對(duì)應(yīng)著圖像灰度的不連續(xù)性。顯然圖像的邊緣很少是從一個(gè)灰度跳到另一個(gè)灰度這樣的理想狀況。真實(shí)圖像的邊緣通常都具有有限的寬度呈現(xiàn)出陡峭的斜坡狀。邊緣的銳利程度由圖像灰度的梯度決定。梯度是一個(gè)向量，?f指出灰度變化的最快的方向和數(shù)量，如式2-1所示。

?f=(決定的。

因此最簡(jiǎn)單的邊緣檢測(cè)算子是用圖像的垂直和水平差分來(lái)逼近梯度算子，式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))（式2-4）

因此當(dāng)我們想尋找邊緣的時(shí)候，最簡(jiǎn)單的方法是對(duì)每一個(gè)像素計(jì)算出（2，4）的向量,然后求出他的絕對(duì)值，然后進(jìn)行閥值操作就可以了。利用這種思想就得到了Roberts算子，由式2-5所示。

R(i,j)=

（式2-5）

它是一個(gè)兩個(gè)2×2模板作用的結(jié)果。

2）Sobel算子

該算法通過(guò)2個(gè)3*3的模板，對(duì)選定的二維圖像中同樣大小窗口進(jìn)行卷積，通常是一個(gè)模板對(duì)一個(gè)邊緣響應(yīng)大，另一個(gè)模板對(duì)水平邊緣響應(yīng)大，兩個(gè)卷積值對(duì)最大值作為該點(diǎn)對(duì)輸出。對(duì)于圖像上的任意點(diǎn)（i，j）進(jìn)行卷積，可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)]（式2-6）Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)]（式2-7）則輸出圖像公式如式2-8所示。

用sobel算子檢測(cè)階躍邊緣得到的邊緣寬度至少為兩個(gè)寬度。3）Laplacian邊緣檢測(cè)算子

Laplacian算子定義由式2-9所示。

Δ2f(x,y)=

（式2-9）它的差分形式由式2-10所示。

Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}

=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)（式2-10）

Laplacian算子是一種各向同性算子，在只關(guān)心邊緣的位置而不考慮其周圍的灰度象素差值時(shí)時(shí)比較合適，Laplacian算子對(duì)孤立象素的響應(yīng)要比對(duì)邊緣或線的響應(yīng)更要強(qiáng)烈，因此只適用于無(wú)噪聲圖像。

原圖像與用三種邊緣檢測(cè)算子處理后的圖像如下所示：圖6 Sobel邊緣檢測(cè)圖7 Laplacian邊緣檢測(cè)

從上面四幅圖分析比較可得出結(jié)論：用Roberts邊緣檢測(cè)得出的圖像較之其他方法更為清晰，噪點(diǎn)更少，圖像更為連續(xù)，所以本文中采用Roberts算子來(lái)進(jìn)行邊緣檢測(cè)。

2.2.2閾值分割

閾值分割法是一種基于區(qū)域的圖像分割技術(shù)，其基本原理是：通過(guò)設(shè)定不同的特征閾值，把圖像象素點(diǎn)分為若干類。常用的特征包括：直接來(lái)自原始圖像的灰度或彩色特征；由原始灰度或彩色值變換得到的特征。設(shè)原始圖像為f(x，y)，按照一定的準(zhǔn)則f(x，y)中找到特征值T，將圖像分割為兩個(gè)部分，分割后的圖像為：

若?。篵0=0(黑)，b1=1(白)，即為我們通常所說(shuō)的圖像二值化。

在數(shù)字化的圖像數(shù)據(jù)中，無(wú)用的背景數(shù)據(jù)和對(duì)象物的數(shù)據(jù)經(jīng)常放在一起，同時(shí)，圖像中還含有各種噪聲，因此可以根據(jù)圖像的統(tǒng)計(jì)性質(zhì)，從概率的角度來(lái)選擇合適的閾值。

1）最大方差閾值法

把待處理圖像的直方圖在某一閾值處分割為兩組，當(dāng)被分割成的兩組間的方差最大時(shí)，便可以決定閾值了。

設(shè)灰度圖像f（x，y）的灰度級(jí)為0-L，灰度級(jí)I的像素為Ni，則圖中：

總象素?cái)?shù)N=∑j=0 i=LNi（式2-11）灰度級(jí)i出現(xiàn)的概率Pi= 1-ω(K)（式2-16）則兩組間的數(shù)學(xué)期望為ω0μ0ω1μ1=μ（式2-17）兩組間的方差為ρ2(k)

ρ2(k)是K的函數(shù)，計(jì)算k取從0,1,2…L時(shí)ρ2(k)的值，當(dāng)多的值為最大時(shí)，K即為閾值。

2）雙峰法

根據(jù)圖像的直方圖具有背景和對(duì)象物的兩個(gè)峰，分割兩個(gè)區(qū)域的閾值由兩個(gè)峰值之間的谷所對(duì)應(yīng)的灰度值決定。設(shè)灰度圖像f（x，y）的灰度級(jí)為0-L，灰度i的像素為Pi，分別計(jì)算

因?yàn)閷?shí)際PCB電路板有著許多的劃痕、污點(diǎn)等，使用最大方差閾值法時(shí)，會(huì)在處理后的圖像上產(chǎn)生許多誤點(diǎn)，而影響實(shí)際結(jié)果的分析，而雙峰法能夠順利地濾除這些干擾，這個(gè)結(jié)論在分析對(duì)比以上圖像時(shí)也可得出。所以本文選用了雙峰法來(lái)進(jìn)行閾值分割。

2.2.3粒子分析與圖像對(duì)比

經(jīng)過(guò)邊緣檢測(cè)和閾值分割的圖像中會(huì)存在許多瑕點(diǎn)，這些點(diǎn)會(huì)影響到最后的圖像識(shí)別與分析，有可能會(huì)增加多余的殘留圖像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能進(jìn)行去除，如圖11和圖12所示。圖11原圖像圖12粒子分析

將標(biāo)準(zhǔn)PCB圖片減去缺陷缺陷PCB圖片，便可以得到缺陷板的斷路部分的圖像，再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到斷路部分的具體分析，如圖13示。

將缺陷PCB圖片減去標(biāo)準(zhǔn)PCB圖片，便可以得到缺陷板的短路部分的圖像，與上述相同的方法，便可以得到短路部分的具體分析，如圖14所示。

3結(jié)束語(yǔ)

利用LABVIEW來(lái)進(jìn)行PCB電路板缺陷的識(shí)別與檢測(cè)是一項(xiàng)非常好的課題，它在近些年已經(jīng)得到了一定的發(fā)展，并將得到更大的進(jìn)步。限于本人能力和時(shí)間，本文的研究還未涉及很深的領(lǐng)域，可以在以下方面加以改進(jìn)：

1）本文中只利用到NI公司的LABVIEW和IMAQ VISION，更好的設(shè)計(jì)可以再利用其他語(yǔ)言如VISUAL BASIC,C++等編程語(yǔ)言加以輔助設(shè)計(jì)，相信可以取得更加令人滿意的結(jié)果。

2）由于實(shí)驗(yàn)設(shè)備等其他因素，本文中只重點(diǎn)研究了PCB電路板短路與斷路的檢測(cè)識(shí)別，PCB電路板的其他缺陷還有待于進(jìn)一步的分析研究、分類和總結(jié)，并設(shè)計(jì)出更好的檢測(cè)方法，以真正滿足PCB電路板檢測(cè)的需求。

3）照明設(shè)備的限制在很大程度上影響到了圖像的檢測(cè)效果，為取得PCB缺陷檢測(cè)的進(jìn)一步進(jìn)展，在照明設(shè)備的選擇上必須重視，并且設(shè)計(jì)出更好的圖像采集系統(tǒng)。

4）在識(shí)別與檢測(cè)手段上，可以引入更新更好的方法，而不要局限于在傳統(tǒng)的方法中分析比較，例如基于BP神經(jīng)網(wǎng)絡(luò)的識(shí)別檢測(cè)，圖像的模糊決策等將有待于進(jìn)一步研究。

總之，基于LABVIEW的機(jī)器視覺(jué)檢測(cè)系統(tǒng)已經(jīng)取得了不錯(cuò)的進(jìn)展，高速發(fā)展的PCB制造技術(shù)和計(jì)算機(jī)技術(shù)對(duì)于PCB缺陷的檢測(cè)提出了更高的要求，同時(shí)也大大地促進(jìn)了PCB缺陷檢測(cè)技術(shù)的發(fā)展。利用機(jī)器視覺(jué)檢測(cè)在未來(lái)的較長(zhǎng)的一段時(shí)間內(nèi)將占據(jù)檢測(cè)行業(yè)的半壁江山，相信在未來(lái)會(huì)取得更大的發(fā)展。

參考文獻(xiàn)：

[1]程學(xué)慶,房曉溪.LabVIEW圖形化編程與實(shí)例應(yīng)用[M].北京:中國(guó)鐵道出版社,2005.

[2]胡仲波.基于虛擬儀器技術(shù)的PCB視覺(jué)檢測(cè)系統(tǒng)[D].南京:南京理工大學(xué)碩士學(xué)位論文,2006.

[3]段峰,王耀南.機(jī)器視覺(jué)技術(shù)及其應(yīng)用綜述[J].自動(dòng)化博覽,2002,19(3).

[4]周長(zhǎng)發(fā).精通Visual C++圖像處理編程[M].北京:電子工業(yè)出版社,2004.

[5]陳錫輝,張銀鴻.LabVIEW 8.20程序設(shè)計(jì)從入門到精通[M].北京:清華大學(xué)出版社,2007.

[6]鄭偉.圖像法檢測(cè)印刷電路板缺陷[M].西安:西安理工大學(xué),2002.

[7] National Instruments,IMAQ User Manual Concepts[Z].1999.

[8]李強(qiáng).PCB板缺陷自動(dòng)檢測(cè)技術(shù)的分析研究[D].合肥:合肥工業(yè)大學(xué),2002.

[9]傅茂名.基于形態(tài)邊緣檢測(cè)算法的一種改進(jìn)[J].電子科技大學(xué)學(xué)報(bào),2005(2).

[10]王思華.計(jì)算機(jī)視覺(jué)新技術(shù)及其在IC標(biāo)記質(zhì)量檢驗(yàn)系統(tǒng)設(shè)計(jì)中的應(yīng)用[J].電子技術(shù)應(yīng)用,2000(9).

[11]岳永哲.圖像處理技術(shù)在閱卷系統(tǒng)中的應(yīng)用[D].北京:北京工業(yè)大學(xué),2006.

[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.

[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.

[14]高育鵬,楊俊,何廣軍.基于圖像識(shí)別的自動(dòng)閱卷系統(tǒng)研究[J].現(xiàn)代電子期刊,2006(22).

[15]楊青燕,彭延軍.基于灰度圖像的答題卡識(shí)別技術(shù)[J].山東科技大學(xué)學(xué)報(bào):自然科學(xué)版,2009(3).

[16]周海濤,韓曉軍.基于數(shù)字圖像處理的答題卡識(shí)別方法研究[J].電腦知識(shí)與技術(shù),2008(28).

[17]周萬(wàn)珍,鄭廣,王建霞,等.數(shù)字圖像處理技術(shù)在客觀題閱卷中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2006(8).

[18]王勝春.基于SVM的信息卡識(shí)別系統(tǒng)[D].長(zhǎng)沙:湖南師范大學(xué),2008.

[19]吳志明.SMT系統(tǒng)中焊點(diǎn)位置的檢測(cè)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

[20]楊敏,王春青,鄒增大,等.表面組裝印刷電路板上焊點(diǎn)信息的自動(dòng)獲取[J].焊接學(xué)報(bào),2005,39(6).

卷積神經(jīng)網(wǎng)絡(luò)綜述范文

篇1

篇2

篇3

篇4

熱門標(biāo)簽

相關(guān)文章

精品范文