卷積神經(jīng)網(wǎng)絡的深度范文

時間:2024-04-17 18:09:30

導語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡的深度,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

篇1

關鍵詞:卷積神經(jīng)網(wǎng)絡;自動編碼器;非監(jiān)督訓練;多尺度分塊;目標識別

中圖分類號:TP391.41文獻標志碼:A英文標題

0引言

對圖像中目標的精確和魯棒識別是模式識別及人工智能領域的核心內容,在道路監(jiān)控、戰(zhàn)場偵察、精確打擊等領域中有著重要的作用和廣泛的前景。近年來,隨著深度神經(jīng)網(wǎng)絡成為機器學習新的熱點,基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學術界和工業(yè)界所重視。

Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數(shù)據(jù)集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數(shù)據(jù)集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監(jiān)督的訓練方式,需要大量標簽數(shù)據(jù)對網(wǎng)絡權重進行調整,當數(shù)據(jù)量較小時會導致模型前幾層網(wǎng)絡無法得到充分訓練,故只能針對含標簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監(jiān)督的預訓練。文獻[3]采用稀疏編碼提取訓練圖像的基函數(shù)作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應用于CNN的預訓練階段,利用ICA訓練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應用于預訓練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預訓練算法仍是十分困難的問題。

除了預訓練外,影響CNN識別率和魯棒性的關鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結果有很大影響,并給出了單層條件下相對最優(yōu)的濾波器尺寸。下采樣層主要負責對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經(jīng)過2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡輸出的激活值仍能重構出與原始輸入看似相同的圖案。然而下采樣間隔過小會導致不變性喪失,過大則會損失大量細節(jié)信息,兩者均會導致識別率的下降。

針對以上問題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經(jīng)網(wǎng)絡的濾波器進行非監(jiān)督預訓練,通過最小化重構誤差獲得待識別圖像的隱層表示,進而學習得到含有訓練數(shù)據(jù)統(tǒng)計特性的濾波器集合,預訓練效果相比ICA更好。其次提出多尺度分塊的方法構建卷積神經(jīng)網(wǎng)絡,為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設計相應尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經(jīng)典算法在通用圖像識別任務中的識別率和魯棒性差異,從而驗證算法的有效性。

4仿真實驗及分析

本文使用STL10公開數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機圖像數(shù)據(jù)集進行測試實驗,將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因為其含有不包含標簽的訓練集,可用于本文的非監(jiān)督預訓練算法,且圖像中包含更多類內變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數(shù)據(jù)則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓練樣本,其余作為測試樣本。本文的實驗環(huán)境為CPU2.8GHz、內存3GB的計算機,實現(xiàn)算法的軟件為Matlab(2011a)。

4.1算法識別率對比測試

MSCNN的各通路尺寸參數(shù)設置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預訓練得到。編碼器設定為3層,稀疏參數(shù)ρ設定為0.05,訓練周期為400。卷積神經(jīng)網(wǎng)絡的下采樣方式采用最大下采樣(max pooling)。

按照上述參數(shù)設置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓練周期均為50。傳統(tǒng)CNN參數(shù)設定與通路1參數(shù)設定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結果如表1所示。

從表1可看出,加入LCN的CNN較未加入的CNN對兩種數(shù)據(jù)集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數(shù)設置與CNN相同,但在相同訓練周期下識別率較加入LCN的CNN又有一定提高,說明了非監(jiān)督預訓練對識別率提高的有效性。對于STL10數(shù)據(jù)集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。

從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。

4.2算法魯棒性實驗

為驗證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類別的圖像對其進行平移、尺度、旋轉變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結果如圖6~7所示。

圖6中虛線表示傳統(tǒng)CNN算法得到的結果,實線則表示MSCNN得到的結果,從圖6可看出:無論是面對平移、尺度還是旋轉變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。

從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監(jiān)督的預訓練方式,訓練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。

另外,本文算法采用了多通路多尺度分塊的方法,必然會使網(wǎng)絡參數(shù)增加,從而會使訓練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統(tǒng)的CNN并沒有太大變化。

5結語

本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡的基礎上通過非監(jiān)督預訓練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡前幾層無法得到有效訓練的問題。針對傳統(tǒng)神經(jīng)網(wǎng)絡對于復雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節(jié)信息,有效提升了識別率和魯棒性。與經(jīng)典算法的對比實驗結果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉變換具有較強的魯棒性。

參考文獻:

[1]

ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.

[2]

DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.

[3]

KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.

[4]

KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.

[5]

COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.

[6]

ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.

[7]

BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.

[8]

HAYKIN S.神經(jīng)網(wǎng)絡與機器學習[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.

[10]

LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[11]

DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.

[12]

GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.

[13]

JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.

[14]

BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.

Background

This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).

ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.

篇2

【關鍵詞】深度神經(jīng)網(wǎng)絡 序列到序列網(wǎng)絡 卷積網(wǎng)絡 對抗式生成網(wǎng)路

1 深度神經(jīng)網(wǎng)絡起源

人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetworks,ANN)研究是人工智能領域的一個重要分支,在對生物神經(jīng)網(wǎng)絡結構及其機制研究的基礎上,構建類似的人工神經(jīng)網(wǎng)絡,使得機器能直接從大量訓練數(shù)據(jù)中學習規(guī)律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個人工神經(jīng)網(wǎng)絡數(shù)學模型,19世紀80年代末期反向傳播(Back Propagation)算法的發(fā)明更是帶來了ANN的學習熱潮,但由于理論分析難度較大,訓練方法及技巧尚不成熟,計算機運算能力還不夠強大,這個時期ANN結構較為簡單,大部分都可等價為單隱層神經(jīng)網(wǎng)絡,主要是進行淺層學習(Shallow Learning)研究。

2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預訓練(layerwise greedy pretraining),顯著提高了MNIST手寫數(shù)字識別的準確率,開創(chuàng)了深度學習的新方向;隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結構,在圖像和文本降維實驗上明顯優(yōu)于傳統(tǒng)算法,證明了深度學習的正確性。以這兩篇論文為開端,整個學術界掀起了對深度學習的研究熱潮,由于更多的網(wǎng)絡層數(shù)和參數(shù)個數(shù),能夠提取更多的數(shù)據(jù)特征,獲取更好的學習效果,ANN模型的層數(shù)和規(guī)模相比之前都有了很大的提升,被稱之為深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)。

2 深度神經(jīng)網(wǎng)絡的現(xiàn)代應用

2010年以來,隨著理論不斷創(chuàng)新和運算能力的增長,DNN被應用到許多領域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語音識別的錯誤率降低了20%~30%;2012年在ImageNet圖像識別挑戰(zhàn)賽(ILSVRC2012)中DNN更是將識別錯誤率從26%降到了15%;2016年3月DeepMind團隊研發(fā)的圍棋軟件AlphaGO以4:1的巨大優(yōu)勢戰(zhàn)勝了世界圍棋冠軍李世石,2017年1月初AlphaGO的升級版Master以60:0的戰(zhàn)績擊敗了數(shù)十位中日韓圍棋高手。當前對DNN的研究主要集中在以下領域:

2.1 語音識別領域

微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學習專家Geoffery Hinton合作,并于2011年宣布推出基于DNN的識別系統(tǒng),徹底改變了語音識別的原有技術框架;2012年11月,百度上線了第一款基于DNN的語音搜索系統(tǒng),成為最早采用DNN技術進行商業(yè)語音服務的公司之一;2016年微軟使用循環(huán)神經(jīng)網(wǎng)絡語言模型(Recurrent Neural Network based Language Modeling,RNN-LM)將switchboard的詞識別錯誤率降低到了6.3%。

2.2 圖像識別領域

早在1989年,YannLeCun和他的同事們就提出了卷積神經(jīng)網(wǎng)絡(Convolution Neural Networks,CNN)結構。在之后的很長一段時間里,CNN雖然在諸如手寫數(shù)字問題上取得過世界最好的成功率,但一直沒有被廣泛應用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯誤率從26%降到15%,業(yè)界才重新認識到CNN在圖像識別領域上的巨大潛力;2012年谷歌宣布基于CNN使得電腦直接從一千萬張圖片中自發(fā)學會貓臉識別;2013年DNN被成功應用于一般圖片的識別和理解;2016年DeepMind團隊基于CNN研發(fā)了圍棋AI,并取得了巨大成功。

2.3 自然語言處理領域

2003年YoshuaBengio等人提出單詞嵌入(word embedding)方法將單詞映射到一個矢量空間,然后用ANN來表示N-Gram模型;2014年10月NEC美國研究院將DNN用于自然語言處理(Natural language processing,NLP)的研究工作,其研究員Ronan Collobert和Jason Weston從2008年開始采用單詞嵌入技術和多層一維卷積的結構,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP問題;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)網(wǎng)絡模型,突破了傳統(tǒng)網(wǎng)絡的定長輸入向量問題,開創(chuàng)了語言翻譯領域的新方向;2016年谷歌宣布推出基于DNN的翻譯系統(tǒng)GNMT(Google Neural Machine Translation),大幅提高了翻譯的精確度與流暢度。

3 深度神經(jīng)網(wǎng)絡常見結構

DNN能夠在各領域取得巨大成功,與其模型結構是密不可分的,現(xiàn)代DNN大都可歸納為三種基本結構:序列到序列網(wǎng)絡、卷積網(wǎng)絡、對抗式生成網(wǎng)絡,或由這三種基本網(wǎng)絡結構相互組合而成。

3.1 序列到序列網(wǎng)絡

序列到序列網(wǎng)絡的最顯著特征在于,它的輸入張量和輸出張量長度都是動態(tài)的,可視為一串不定長序列,相比傳統(tǒng)結構極大地擴展了模型的適應范圍,能夠對序列轉換問題直接建模,并以端到端的方式訓練模型。典型應用領域有:自動翻譯機(將一種語言的單詞序列轉換為另一種語言的單詞序列),語音識別(將聲波采樣序列轉換為文本單詞序列),自動編程機研究(將自然語言序列轉換為語法樹結構),此類問題的特點在于:

(1)輸入和輸出數(shù)據(jù)都是序列(如連續(xù)值語音信號/特征、離散值的字符);

(2)輸入和輸出序列長度都不固定;

(3)輸入輸出序列長度沒有對應關系。

其典型如圖1所示。

網(wǎng)絡由編碼器(encoder)網(wǎng)絡和解碼器網(wǎng)絡(decoder)兩部分連接構成:

3.1.1 編碼器網(wǎng)絡

編碼器網(wǎng)絡通常是一個遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN),網(wǎng)絡節(jié)點一般使用長短期記憶模型(Long Short Term Memory,LSTM)實現(xiàn),序列中里第t個張量xt的輸出yt依賴于之前的輸出序列(y0、y1…yt-1),輸入序列(x0、x1、x2…)那爸梁笠來問淙臚絡,整個序列處理完后得到最終的輸出Y以及各層的隱藏狀態(tài)H。

3.1.2 解碼器網(wǎng)絡

解碼器網(wǎng)絡是一個與編碼器網(wǎng)絡結構相同的RNN網(wǎng)絡,以解碼器的最終輸出(Y,H)為初始輸入,使用固定的開始標記S及目標序列G當作輸入數(shù)據(jù)進行學習,目標是使得在X輸入下Y和G盡量接近,即損失度函數(shù)f(X)取得最小值。

解碼器網(wǎng)絡屬于典型的監(jiān)督學習結構,可以用BP算法進行訓練,而編碼器網(wǎng)絡的輸出傳遞給了解碼器網(wǎng)絡,因此也能同時進行訓練。網(wǎng)絡模型學習完畢后,將序列X輸入編碼器,并將起始標記S輸入解碼器,網(wǎng)絡就會給出正確的對應序列。

3.2 卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡將傳統(tǒng)圖像處理的卷積運算和DNN相結合,屬于前饋神經(jīng)網(wǎng)絡,是在生物視覺皮層的研究基礎上發(fā)展而來的,在大型圖像處理上有出色表現(xiàn)。CNN一般由多個結構相似的單元組成,每個單元包含卷積層(convolution layer)和池化層(poolinglayer),通常網(wǎng)絡末端還連接全聯(lián)通層(fully-connected layer,F(xiàn)C)及Softmax分類器。這種結構使得CNN非常適合處理二維結構數(shù)據(jù),相比其它DNN在圖像處理領域上具有天然優(yōu)勢,CNN的另一優(yōu)勢還在于,由于卷積層共享參數(shù)的特點,使得它所需的參數(shù)數(shù)量大為減少,提高了訓練速度。其典型結構如圖2所示:

3.2.1 卷積層(Convolutional layer)

卷積層由若干卷積核構成,每個卷積核在整個圖像的所有通道上同時做卷積運算,卷積核的參數(shù)通過BP算法從訓練數(shù)據(jù)中自動獲取。卷積核是對生物視覺神經(jīng)元的建模,在圖像局部區(qū)域進行的卷積運算實質上是提取了輸入數(shù)據(jù)的特征,越深層的卷積層所能提取到的特征也越復雜。例如前幾個卷積層可能提取到一些邊緣、梯度、線條、角度等低級特征,后續(xù)的卷積層則能認識圓、三角形、長方形等稍微復雜的幾何概念,末尾的卷積層則能識別到輪子、旗幟、足球等現(xiàn)實物體。

3.2.2 池化層(Poolinglayer)

池化層是卷積網(wǎng)絡的另一重要部分,用于縮減卷積層提取的特征圖的尺寸,它實質上是某種形式的下采樣:將圖像劃分為若干矩形區(qū)塊,在每個區(qū)塊上運算池化函數(shù)得到輸出。有許多不同形式的池化函數(shù),常用的有“最大池化”(maxpooling,取區(qū)塊中數(shù)據(jù)的最大值)和“平均池化”(averagepooling,取區(qū)塊中數(shù)據(jù)的平均值)。池化層帶來的好處在于:

(1)減小了數(shù)據(jù)尺寸,降低參數(shù)的數(shù)量和計算量;

(2)模糊了各“像素”相對位置關系,泛化了網(wǎng)絡識別模式。

但由于池化層過快減少了數(shù)據(jù)的大小,導致,目前文獻中的趨勢是在池化運算時使用較小的區(qū)塊,甚至不再使用池化層。

3.3 生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)

生成式對抗網(wǎng)絡最初由Goodfellow等人在NIPS2014年提出,是當前深度學習研究的重要課題之一。它的目的是收集大量真實世界中的數(shù)據(jù)(例如圖像、聲音、文本等),從中學習數(shù)據(jù)的分布模式,然后產(chǎn)生盡可能逼真的內容。GAN在圖像去噪,修復,超分辨率,結構化預測,強化學習中等任務中非常有效;另一重要應用則是能夠在訓練集數(shù)據(jù)過少的情況下,生成模擬數(shù)據(jù)來協(xié)助神經(jīng)網(wǎng)絡完成訓練。

3.3.1 模型結構

GAN網(wǎng)絡典型結構如圖3所示,一般由兩部分組成,即生成器網(wǎng)絡(Generator)和識別器網(wǎng)絡(Discriminator):

(1)生成器網(wǎng)絡的目標是模擬真實數(shù)據(jù)的分布模式,使用隨機噪聲生成盡量逼真的數(shù)據(jù)。

(2)識別器的目標是學習真實數(shù)據(jù)的有效特征,從而判別生成數(shù)據(jù)和真實數(shù)據(jù)的差異度。

3.3.2 訓練方法

GAN采用無監(jiān)督學習進行訓練,輸入向量z一般由先驗概率概率pz(z)生成,通過生成器網(wǎng)絡產(chǎn)生數(shù)據(jù)G(z)。來自訓練集的真實數(shù)據(jù)的分布為pdata (x),GAN網(wǎng)絡的實質是學習該特征分布,因此生成的數(shù)據(jù)G(z)必然也存在對應的分布pg (z),而識別器網(wǎng)絡則給出數(shù)據(jù)來自于真實數(shù)據(jù)的概率D(x)以及D(G(z) )。整個訓練過程的實質就是生成器網(wǎng)絡和識別器網(wǎng)絡的博弈過程,即找到

4 深度神經(jīng)網(wǎng)絡研究展望

DNN雖然在各大領域都取得了重大的成功,甚至宣告了“智能時代”的來臨,但是與人類大腦相比,DNN在許多方面仍有顯著差距:

4.1 識別對抗樣本的挑戰(zhàn)

對抗樣本是指在數(shù)據(jù)集中添加微小的擾動所形成的數(shù)據(jù),這些數(shù)據(jù)能使網(wǎng)絡以極高的置信度做出錯誤的判別。在網(wǎng)絡實際使用過程中會帶來非常大的問題,比如病毒制造者可能刻意構造樣本來繞過基于DNN的安全檢查網(wǎng)絡。部分研究指出問題的根因可能在于DNN本身的高度非線性,微小的擾動可能在輸出時產(chǎn)生巨大的差異。

4.2 構造統(tǒng)一模型的挑戰(zhàn)

DNN雖然在很多領域都取得了巨大的成功,但無論是序列到序列網(wǎng)絡、卷積網(wǎng)絡、還是對抗式生成網(wǎng)絡都只適應于特定領域,與此相對的則是,人類只用一個大腦就能完成語音、文本、圖像等各類任務,如何構建類似的統(tǒng)一模型,對整個領域都是極大的挑戰(zhàn)。

4.3 提高訓練效率的挑戰(zhàn)

DNN的成功依賴于大量訓練數(shù)據(jù),據(jù)統(tǒng)計要使得網(wǎng)絡學會某一特征,平均需要50000例以上的樣本,相比而言人類只需要少量的指導即可學會復雜問題,這說明我們的模型和訓練方法都還有極大的提高空間。

參考文獻

[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.

[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.

[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.

[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F(xiàn),2011 [C].

[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F(xiàn),2014 [C].

[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.

[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.

[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.

[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.

[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.

[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.

[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.

[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.

作者撾

篇3

P鍵詞:深度學習;文本分類;多類型池化

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)35-0187-03

1 引言

為了進行分類,我們建立句子模型來分析和表示句子的語義內容。句子模型問題的關鍵在于一定程度上的自然語言理解。很多類型的任務需要采用句子模型,包括情感分析、語義檢測、對話分析、機器翻譯等。既然單獨的句子很少或基本不被采用,所以我們必須采用特征的方式來表述一個句子,而特征依賴于單詞和詞組。句子模型的核心是特征方程,特征方程定義了依據(jù)單詞和詞組提取特征的過程。求最大值的池化操作是一種非線性的二次抽樣方法,它返回集合元素中的最大值。

各種類型的模型已經(jīng)被提出?;诔煞謽嫵傻姆椒ū粦糜谙蛄勘硎?,通過統(tǒng)計同時單詞同時出現(xiàn)的概率來獲取更長的詞組。在有些情況下,通過對詞向量進行代數(shù)操作生成句子層面的向量,從而構成成分。在另外一些情況下,特征方程和特定的句法或者單詞類型相關。

一種核心模型是建立在神經(jīng)網(wǎng)絡的基礎上。這種模型包含了單詞包或者詞組包的模型、更結構化的遞歸神經(jīng)網(wǎng)絡、延遲的基于卷積操作的神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡模型有很多優(yōu)點。通過訓練可以獲得通用的詞向量來預測一段上下文中單詞是否會出現(xiàn)。通過有監(jiān)督的訓練,神經(jīng)網(wǎng)絡能夠根據(jù)具體的任務進行良好的調節(jié)。除了作為強大的分類器,神經(jīng)網(wǎng)絡模型還能夠被用來生成句子[6]。

我們定義了一種卷積神經(jīng)網(wǎng)絡結構并將它應用到句子語義模型中。這個網(wǎng)絡可以處理長度不同的句子。網(wǎng)絡中的一維卷積層和多類型動態(tài)池化層是相互交錯的。多類型動態(tài)池化是一種對求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化體現(xiàn)在兩個方面。第一,多類型池化操作對一個線性的值序列進行操作,返回序列中的多個數(shù)值而不是單個最大的數(shù)值。第二,池化參數(shù)k可以被動態(tài)的選擇,通過網(wǎng)絡的其他參數(shù)來動態(tài)調整k的值。

卷積層的一維卷積窗口對句子特征矩陣的每一行進行卷積操作。相同的n-gram的卷積窗口在句子的每個位置進行卷積操作,這樣可以根據(jù)位置獨立地提取特征。一個卷積層后面是一個多類型動態(tài)池化層和一個非線性的特征映射表。和卷積神經(jīng)網(wǎng)絡在圖像識別中的使用一樣,為豐富第一層的表述,通過不同的卷積窗口應用到句子上計算出多重特征映射表。后續(xù)的層也通過下一層的卷積窗口的卷積操作計算出多重特征映射表。最終的結構我們叫它多類型池化的卷積神經(jīng)網(wǎng)絡。

在輸入句子上的多層的卷積和動態(tài)池化操作產(chǎn)生一張結構化的特征圖。高層的卷積窗口可以獲取非連續(xù)的相距較遠的詞組的句法和語義關系。特征圖會引導出一種層級結構,某種程度上類似于句法解析樹。這種結構不僅僅是和句法相關,它是神經(jīng)網(wǎng)絡內部所有的。

我們將此網(wǎng)絡在四種場景下進行了嘗試。前兩組實驗是電影評論的情感預測[2],此網(wǎng)絡在二分和多種類別的分類實驗中的表現(xiàn)都優(yōu)于其他方法。第三組實驗在TREC數(shù)據(jù)集(Li and Roth, 2002)上的6類問題的分類問題。此網(wǎng)絡的正確率和目前最好的方法的正確率持平。第四組實驗是推特的情感預測,此網(wǎng)絡將160萬條微博根據(jù)表情符號自動打標來進行訓練。在手工打標的測試數(shù)據(jù)集上,此網(wǎng)絡將預測錯誤率降低了25%。

本文的概要如下。第二段主要闡述MCNN的背景知識,包括核心概念和相關的神將網(wǎng)絡句子模型。第三章定義了相關的操作符和網(wǎng)絡的層。第四章闡述生成的特征圖的處理和網(wǎng)絡的其他特點。第五章討論實驗和回顧特征學習探測器。

2 背景

MCNN的每一層的卷積操作之后都伴隨一個池化操作。我們先回顧一下相關的神經(jīng)網(wǎng)絡句子模型。然后我們來闡述一維的卷積操作和經(jīng)典的延遲的神經(jīng)網(wǎng)絡(TDNN)[3]。在加了一個最大池化層到網(wǎng)絡后,TDNN也是一種句子模型[5]。

2.1 相關的神經(jīng)網(wǎng)絡句子模型

已經(jīng)有很多的神經(jīng)網(wǎng)絡句子模型被描述過了。 一種比較通用基本的模型是神經(jīng)網(wǎng)絡詞包模型(NBoW)。其中包含了一個映射層將單詞、詞組等映射到更高的維度;然后會有一個比如求和之類的操作。結果向量通過一個或多個全連接層來進行分類。

有以外部的解析樹為基礎的遞歸神經(jīng)網(wǎng)絡,還有在此基礎上更進一步的RNN網(wǎng)絡。

最后一種是以卷積操作和TDNN結構為基礎的神經(jīng)網(wǎng)絡句子模型。相關的概念是動態(tài)卷積神經(jīng)網(wǎng)絡的基礎,我們接下來介紹的就是它。

2.2 卷積

一維卷積操作便是將權重向量[m∈Rm]和輸入向量[s∈Rs]進行操作。向量m是卷積操作的過濾器。具體來說,我們將s作為輸入句子,[si∈R]是與句子中第i個單詞相關聯(lián)的單獨的特征值。一維卷積操作背后的思想是通過向量m和句子中的每個m-gram的點積來獲得另一個序列c:

[ci=mTsi-m+1:i (1)]

根據(jù)下標i的范圍的不同,等式1產(chǎn)生兩種不同類型的卷積。窄類型的卷積中s >= m并且會生成序列[c∈Rs-m+1],下標i的范圍從m到s。寬類型的卷積對m和s的大小沒有限制,生成的序列[c∈Rs+m-1],下標i的范圍從1到s+m-1。超出下標范圍的si窄(i < 1或者i > s)置為0。窄類型的卷積結果是寬類型的卷積結果的子序列。

寬類型的卷積相比于窄類型的卷積有一些優(yōu)點。寬類型的卷積可以確保所有的權重應用到整個句子,包括句子收尾的單詞。當m被設為一個相對較大的值時,如8或者10,這一點尤其重要。另外,寬類型的卷積可以確保過濾器m應用于輸入句子s始終會生成一個有效的非空結果集c,與m的寬度和s句子的長度無關。接下來我們來闡述TDNN的卷積層。

4 驗與結果分析

我們對此網(wǎng)絡進行了4組不同的實驗。

4.1 電影評論的情感預測

前兩組實驗是關于電影評論的情感預測的,數(shù)據(jù)集是Stanford Sentiment Treebank.實驗輸出的結果在一個實驗中是分為2類,在另一種試驗中分為5類:消極、略微消極、中性、略微積極、積極。而實驗總的詞匯量為15448。

表示的是電影評論數(shù)據(jù)集情感預測準確率。NB和BINB分別表示一元和二元樸素貝葉斯分類器。SVM是一元和二元特征的支撐向量機。在三種神經(jīng)網(wǎng)絡模型里――Max-TDNN、NBoW和DCNN――模型中的詞向量是隨機初始化的;它們的維度d被設為48。Max-TDNN在第一層中濾波窗口的大小為6。卷積層后面緊跟一個非線性化層、最大池化層和softmax分類層。NBoW會將詞向量相加,并對詞向量進行非線性化操作,最后用softmax進行分類。2類分類的MCNN的參數(shù)如下,卷積層之后折疊層、動態(tài)多類型池化層、非線性化層。濾波窗口的大小分別7和5。最頂層動態(tài)多類型池化層的k的值為4。網(wǎng)絡的最頂層是softmax層。5類分類的MCNN有相同的結構,但是濾波窗口的大小分別為10和7,k的值為5。

我們可以看到MCNN的分類效果遠超其他算法。NBoW的分類效果和非神經(jīng)網(wǎng)絡算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因為過度池化的原因,丟棄了句子太多重要的特征。除了RecNN需要依賴外部的解析樹來生成結構化特征,其他模型都不需要依賴外部資源。

4.2 問題分類

問題分類在問答系統(tǒng)中應用非常廣泛,一個問題可能屬于一個或者多個問題類別。所用的數(shù)據(jù)集是TREC數(shù)據(jù)集,TREC數(shù)據(jù)集包含6種不同類別的問題,比如一個問題是否關于地點、人或者數(shù)字信息。訓練集包含5452個打標的問題和500個測試集。

4.3 Twitter情感預測

在我們最后的實驗里,我們用tweets的大數(shù)據(jù)集進行訓練,我們根據(jù)tweet中出現(xiàn)的表情符號自動地給文本進行打標簽,積極的或是消極的。整個數(shù)據(jù)集包含160萬條根據(jù)表情符號打標的tweet以及400條手工標注的測試集。整個數(shù)據(jù)集包含76643個單詞。MCNN的結構和4.1節(jié)中結構相同。隨機初始化詞向量且維度d設為60。

我們發(fā)現(xiàn)MCNN的分類效果和其他非神經(jīng)網(wǎng)絡的算法相比有極大的提高。MCNN和NBoW在分類效果上的差別顯示了MCNN有極強的特征提取能力。

5 結語

在本文中我們闡述了一種動態(tài)的卷積神經(jīng)網(wǎng)絡,它使用動態(tài)的多類型池化操作作為非線性化取樣函數(shù)。此網(wǎng)絡在問題分類和情感預測方面取得了很好的效果,并且不依賴于外部特征如解析樹或其他外部資源。

參考文獻

[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.

[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.

[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.

[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

篇4

【關鍵詞】圖像識別;數(shù)學建模;分類算法;深度學習

引言

隨著微電子技術及計算機技術的蓬勃發(fā)展,圖像識別應運而生,圖像識別是研究用計算機代替人們自動地去處理大量的物理信息,從而代替人的腦力勞動。隨著計算機處理能力的不斷強大,圖像識別從最早的文字識別、數(shù)字識別逐漸發(fā)展到人臉識別、物體識別、場景識別、精細目標識別等,所采用的技術也從最早的模板匹配、線性分類到廣泛使用的深層神經(jīng)網(wǎng)絡與支持向量機分類等方法。

1.圖像識別中的數(shù)學問題建模

1.1飛行器降落圖像智能識別建模

在復雜地形環(huán)境下,飛行器進行下降過程,需要采集圖像并且判斷是否符合降落要求。在對飛行器進行最終落地點的選擇時,如果降落點復雜程度較高,采集的圖像中將會產(chǎn)生大量的訓練樣本數(shù)目,圖像配準過程中,極大地增加了運算量,造成最佳降落點選擇的準確率降低。提出了利用圖像智能識別進行最佳降落點的建模。利用偽Zemike矩能夠對降落點的圖像形狀進行準確的描述,利用Procrustes形狀分析法提取最佳降落點的特征,利用Rank的融合決策法最終實現(xiàn)最佳降落點選擇的目的。

1.2人臉面部表情圖像識別的隱馬爾科夫建模

人有喜怒哀樂,目前有一種利用隱馬爾科夫模型的建模方法,可以實現(xiàn)對人臉表情中的情感進行識別。具體的是:首先,采用子窗口對人臉面部表情圖像進行采樣,然后利用離散余弦變換提取所需要的特征向量,通過對人臉面部圖像進行隱馬爾科夫建模,使用獲得的特征向量作為觀測向量對人臉面部圖像的隱馬爾科夫模型進行訓練,再使用訓練后的隱馬爾科夫模型對JAFFE人臉圖像測試集中地人臉表情圖像進行情感識別。

2.典型的圖像識別算法

2.1 基于Gabor變換和極限學習機的貝類圖像種類識別

對貝類圖像進行Gabor變換,提取其圖像特征,確定了圖像特征維數(shù);采用2DPCA方法,對變換后的特征進行降維,并利用極限學習機(ELM)進行貝類圖像的分類識別。與BP神經(jīng)網(wǎng)絡和支持向量機(SVM)實驗對比發(fā)現(xiàn),極限學習機分類器用于貝類識別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點對高維圖像識別精確度高,但算法的復雜度和設計一個精確的分類器都顯得難以把握。因此該類圖像識別算法很難普遍推廣使用,識別對象必須是貝類圖像。

2.2 利用公開的全極化SAR數(shù)據(jù),研究基于SAR圖像的檢測、極化分解和識別算法

首先根據(jù)四個線極化通道合成偽彩色圖像,從而對場景進行初步認知。利用一維距離像分析全極化各通道的信噪比強度,通過對目標進行Pauli分解得到目標的奇次散射分量和偶次散射分量,從而完成對海雜波、建筑物和艦船的相干分量的研究。其特點過程簡單易掌握,但識別對象有限。

2.3 基于SVM的離線圖像目標分類算法

基于SVM的離線圖像目標分類算法,先對訓練集預處理,然后將處理后的圖像進行梯度直方圖提取最后對圖像目標的分離器進行檢測,但是這種圖像識別算法只是有效,實用性不強。

3.深度學習在圖像識別的應用

3.1 Deep learning的原理

深度學習是一種模擬人腦的思考方式,通過建立類似人腦的神經(jīng)網(wǎng)絡,實現(xiàn)對數(shù)據(jù)的分析,即按照人類的思維做出先關解釋,形成方便人們理解的圖像、文字或者聲音。深度學習的重點是對模型的運用,模型中需要的參數(shù)是通過對大量數(shù)據(jù)的學習和分析中得到的。

深度學習有兩種類型:有監(jiān)督學習和無監(jiān)督學習。學習模型根據(jù)學習框架的類型來確定。比如,卷積神經(jīng)網(wǎng)絡就是一種深度的監(jiān)督學習下的機器學習模型,而深度置信網(wǎng)就是一種無監(jiān)督學習下的機器學習模型。

3.2 深度學習的典型應用

深度學習是如今計算機領域中的一個奪人眼球的技術。而在深度學習的模型中研究熱度最高的是卷積神經(jīng)網(wǎng)絡,它是一種能夠實現(xiàn)大量圖像識別任務的技術。卷積神經(jīng)網(wǎng)絡的核心思想是局部感受野、權值共享以及時間或空間亞采集。通常卷及神經(jīng)網(wǎng)絡使用最后一層全連接隱層的值作為對輸入樣本所提出的特征,通過外部數(shù)據(jù)進行的有監(jiān)督學習,從而可以保證所得的特征具有較好的對類內變化的不變性。

3.2.1基于深度學習特征的人臉識別方法。

卷積神經(jīng)網(wǎng)絡在人臉識別領域取得了較大突破,為了更加有效的解決復雜類內變化條件下的小樣本人臉識別問題,使用深度學習的方法來提取特征,與基于稀疏表示的方法結合起來,實驗證明了深度學習所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對類內變化的不變性。

3.2.2基于深度學習的盲文識別方法。

目前盲文識別系統(tǒng)存在識別率不高、圖片預處理較為復雜等問題。針對這些問題,利用深度模型堆疊去噪編碼器自動、全面學習樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學習的特征作為神經(jīng)網(wǎng)絡的輸入,更大程度地避免了傳統(tǒng)神經(jīng)網(wǎng)絡由于隨機選取初值而導致結果陷入局部極值的問題。

3.2.3基于深度學習的手繪草圖識別。

目前的手繪草圖識別方法存在費時費力,較依賴于手工特征提取等問題?;谏疃葘W習的手繪草圖識別方法根據(jù)手繪草圖時缺失顏色、紋理信息等特點,使用大尺寸的首層卷積核獲得更多的空間結構信息,利用訓練淺層模型獲得的模型參數(shù)來初始化深度模型對應層的模型參數(shù),以加快收斂,減少訓練時長,加入不改變特征大小的卷基層來加深網(wǎng)絡深度等方法實現(xiàn)減小錯誤率。

4.結論

圖像識別是當代人工智能的熱門研究方向,其應用領域也是超乎人類想象的,相信通過技術的不斷創(chuàng)新,圖像識別技術會給人們的生活帶來智能化、個性化、全面化的服務。

參考文獻:

[1]穆靜,陳芳,王長元.人臉面部表情圖像的隱馬爾科夫建模及情感識別[J].西安:西安工業(yè)大學學報,2015(09).

[2]楊靖堯,里紅杰,陶學恒.基于Gabor變換和極限學習機的貝類圖像種類識別[J].大連工業(yè)大學學報,2013(04).

[3]馬曉,張番棟,封舉富.基于深度學習特征的稀疏表示的人臉識別方法[J].智能系統(tǒng)學報,2016(11).

篇5

黑科技?神經(jīng)網(wǎng)絡是個什么鬼

說到神經(jīng)網(wǎng)絡,很多朋友都會認為這是一個高大上的概念。從生物學角度來說,人類復雜的神經(jīng)系統(tǒng)是由數(shù)目繁多的神經(jīng)元組合而成,它們互相聯(lián)結形成神經(jīng)網(wǎng)絡,經(jīng)過對信息的分析和綜合,再通過運動神經(jīng)發(fā)出控制信息,從而實現(xiàn)各種精密活動,如識別各種物體、學習各種知識、完成各種邏輯判斷等。

隨著人工智能技術的發(fā)展,科學家開發(fā)出人工神經(jīng)網(wǎng)絡,它的構成原理和功能特點等方面更加接近人腦。它不是按給定的程序一步一步地執(zhí)行運算,而是能夠自身適應環(huán)境、總結規(guī)律、完成某種運算、識別或過程控制。比如多倫多大學的Krizhevsky等人構造了一個超大型卷積神經(jīng)網(wǎng)絡,有9層,共65萬個神經(jīng)。第一層神經(jīng)元只能識別顏色和簡單紋理,但是第五層的一些神經(jīng)元可以識別出花、圓形屋頂、鍵盤、烏、黑眼圈等更為抽象豐富的物體(圖1)。因此神經(jīng)網(wǎng)絡實際上是基于人工智能技術而形成的一種和人類神經(jīng)網(wǎng)絡相似的網(wǎng)絡系統(tǒng)。

媲美Photoshop 神經(jīng)網(wǎng)絡磨皮技術背后

如上所述,現(xiàn)在神經(jīng)網(wǎng)絡技術發(fā)展已經(jīng)非常迅猛,而且運用在各個領域。神經(jīng)網(wǎng)絡磨皮則是指該技術在照片識別和美化方面的運用。那么它是怎樣實現(xiàn)對照片的美化?在Photoshop中磨皮操作是用戶先選中人臉區(qū)域,然后再使用Photoshop內置的方法實現(xiàn)磨皮。神經(jīng)網(wǎng)絡磨皮原理類似,只不過這些操作是自動完成的。

首先是對照片人臉識別。要實現(xiàn)對照片的美容就必須先精確識別人臉,由于人臉有五官這個顯著特征,因此神經(jīng)網(wǎng)絡磨皮技術只要通過機器對一定數(shù)量的人臉照片進行識別、讀取,然后就可以精確識別人臉。它的原理和常見的人臉識別技術類似(圖2)。

其次則是美化。在完成人臉識別后就需要對美化操作進行機器學習,以磨皮為例。因為人臉的每個年齡階段皮膚性質是不同的,為了達到更真實的磨皮效果,神經(jīng)網(wǎng)絡磨皮是實現(xiàn)用戶“回到”幼年或者“穿越”到老年臉部皮膚的效果。研究人員將年齡段分類為0~18歲、19~29歲、30~39歲、40~49歲、50~59歲和60歲以上這幾個階段(圖3)。

然后準備兩個深度學習機器同時工作。兩個機器一個用來生成人臉,一個用來鑒別人臉。而且兩個機器會通過分析人臉圖像,提前學習到各年齡段人臉大概是什么樣子的。在每個年齡分組里,研究人員讓機器學習超過5000張標記過年齡的人臉圖像。通過大量的照片學習后,機器就可以學會每個年齡分組內的標簽,它可以準確知道每個人不同年齡階段的臉部特征。這樣無論你是要磨皮為年輕時的皮膚光滑、圓潤狀態(tài),還是要變?yōu)?0歲以后皺褶、粗糙的皮膚,神經(jīng)磨皮都可以輕松幫助你實現(xiàn)。

當然學習有個通病,就是在合成過程中,機器可能會喪失掉圖片原有的識別資料(1D)。為了解決這個問題,上述介紹中的人臉鑒別機器就發(fā)揮功效了。它通過查看這個照片的識別資料是不是唯一的,如果不是的話照片則會被拒絕輸出。研究人員讓機器合成10000張從數(shù)據(jù)庫中抽取出來的人像,這些照片之前從未用來訓練機器。然后他們用開發(fā)的軟件程序來檢測訓練前后的兩張照片是否為同一個人,測試結果顯示有80%經(jīng)訓練的照片都被認為和原照片是同一個人(而作為對比,用其他方法加工照片,平均測試結果只有50%)。舉個簡單例子,如果40歲的用戶將自己磨皮為20歲的樣子,如果軟件程序來檢測訓練前后的兩張照片為同一個人,那么就輸出磨皮效果,從而讓用戶可以輕松磨皮到20歲的狀態(tài)。這樣經(jīng)過訓練的神經(jīng)磨皮算法可以很真實地實現(xiàn)人臉的磨皮。

神經(jīng)網(wǎng)絡 不H僅是磨皮

篇6

關鍵詞:人臉識別技術;病毒管控;人工智能;神經(jīng)網(wǎng)絡

互聯(lián)網(wǎng)在今天的社會中發(fā)揮著舉足輕重的作用。如今社會,隨著許多人工智能技術、網(wǎng)絡技術、云計算等互聯(lián)網(wǎng)技術不斷發(fā)展,像人臉識別等技術的應用越來越廣泛,在控制病毒傳播途徑等場合發(fā)揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術方法,能夠及時發(fā)現(xiàn)和控制公共場所的安全隱患因素,避免對社會經(jīng)濟、居民生活造成破壞,。但目前的人臉識別等技術還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。

1人臉識別技術研究意義

人臉識別技術是一種生物特征識別技術,最早產(chǎn)生于上世紀60年代,基于生理學、圖像處理、人機交互及認知學等方面的一種識別技術。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術,人臉識別雖然存在人臉識別單一性低,且區(qū)分度難度高、易受環(huán)境影響等不足。但是人臉識別技術擁有速度快、大范圍群體識別及非接觸、遠距離可識別等優(yōu)勢,都是其他生物識別識別技術所不具備的,而在傳播性強、感染風險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術引入信息管理系統(tǒng),綜合集成視頻監(jiān)控、圖像處理、深度學習和大數(shù)據(jù)等技術,結合非接觸測溫、定位等技術,助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發(fā)展進程??勺鳛榧訌姽矆鏊娜藛T的體溫實時監(jiān)測、地址信息定位的監(jiān)控管理,規(guī)范公共場所針對病毒傳播的預防行為。

2人臉識別技術

2.1人臉檢測技術

人臉檢測是自動人臉識別系統(tǒng)中的一個關鍵環(huán)節(jié)。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設人臉位置靜止或者容易獲取。人臉檢測分為前深度學習時期,AdaBoost框架時期以及深度學習時期。前深度學習時期,人們將傳統(tǒng)的計算機視覺算法運用于人臉檢測,使用了模板匹配技術,依賴于人工提取特征,然后用這些人工特征訓練一個檢測器;后來技術發(fā)展,在2001年Viola和Jones設計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯(lián)的AdaBoost分類器構造檢測器,檢測速度較之前的方法有2個數(shù)量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標檢測框架的基礎,使用級聯(lián)AdaBoost分類器進行目標檢測的思想是:用多個AdaBoost分類器合作實現(xiàn)對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標是人臉還是非人臉。Adaboost框架技術的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數(shù)數(shù)量較少。在深度學習時期,開始將卷積神經(jīng)網(wǎng)絡應用于人臉檢測領域。研究方向有兩種:一是將適用于多任務的目標檢測網(wǎng)絡應用于人臉檢測中;另一種是研究特定的的人臉檢測網(wǎng)絡。人臉檢測技術具有特殊唯一性和穩(wěn)定性,在現(xiàn)今社會對于構建居民身份識別系統(tǒng),病毒傳播防控系統(tǒng),以及計算機視覺交互模型的構建具有廣泛的應用。人臉檢測技術不僅作為人臉識別的首要步驟,也在許多其他領域發(fā)揮巨大影響,如人臉關鍵點提取、人臉追蹤、基于內容的檢索、數(shù)字視頻處理、視頻檢測、安防監(jiān)控、人證比對、社交等領域都有重要的應用價值。數(shù)碼相機、手機等移動端上的設備已經(jīng)大量使用人臉檢測技術實現(xiàn)成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術定位人臉。評價一個人臉檢測算法好壞的指標是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。

2.2人臉識別技術

目前主要流行的人臉識別技術包括幾何特征識別,模型識別,特征臉識別和基于深度學習/神經(jīng)網(wǎng)絡的的人臉識別技術等。人臉特征識別主要通過對人臉面部結構特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關系該方法比較簡單,反應速度快,并且具有魯棒性強等優(yōu)點,但是在實際環(huán)境下使用容易受檢測的環(huán)境的變化、人臉部表情變化等影響,精度通常不高,細節(jié)處理上不夠完善。模型識別技術主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(PCA技術),從數(shù)學上來講,特征臉就是人臉的圖像集協(xié)方差矩陣的特征向量。該技術能有效的顯示人臉信息,效率較高?;谏疃葘W習的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學習人臉樣本數(shù)據(jù)的內在規(guī)律和表示層次??梢圆捎萌缛龑忧梆丅P神經(jīng)網(wǎng)絡。BP神經(jīng)網(wǎng)絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡,是應用最廣泛的神經(jīng)網(wǎng)絡模型之一。BP網(wǎng)絡本質上是一種能夠學量的輸入與輸出之間的映射關系的輸入到輸出的映射,從結構上講,BP網(wǎng)絡具有輸入層、隱藏層和輸出層;從本質上講,BP算法就是以網(wǎng)絡誤差平方為目標函數(shù)、采用梯度下降法來計算目標函數(shù)的最小值。BP神經(jīng)網(wǎng)路輸入層有n個神經(jīng)元節(jié)點,輸出層具有m個神經(jīng)元,隱含層具有k個神經(jīng)元,采用BP學習算法訓練神經(jīng)網(wǎng)絡。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是在網(wǎng)絡完成訓練后正常運行時執(zhí)行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經(jīng)網(wǎng)絡向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應理想輸出Yp之差;②按極小化誤差方法調整帶權矩陣。之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓練集。由訓練策略選擇樣本圖像作為訓練集。(2)規(guī)定各權值Vij,Wjk和閾值Φj,θk參數(shù),并初始化學習率α及精度控制參數(shù)ε。(3)從訓練集中取輸入向量X到神經(jīng)網(wǎng)絡,并確定其目標輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網(wǎng)絡的實際輸出Y。(5)將輸出矢量中yk與目標矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權值和閾值的調整量。所以,卷積神經(jīng)網(wǎng)絡算法是通過訓練人臉特征庫的方式進行學習生成,對不同環(huán)境下不同表現(xiàn)情況的人臉圖像識別有更高的精確性。

2.3人臉識別軟件實現(xiàn)方式

(1)采集人臉數(shù)據(jù)集,然后對數(shù)據(jù)集進行標注,對數(shù)據(jù)進行預處理變成訓練格式。(2)部署訓練模型,根據(jù)訓練算法所需依賴部署電腦環(huán)境。(3)訓練過程,下載預訓練模型,將人臉數(shù)據(jù)集分批次作為輸入開始訓練,最終輸出為訓練好的模型。(4)部署訓練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。

3人臉識別在病毒傳播防控中的應用

通過人臉識別技術,可以實現(xiàn)無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學習對人臉特征模型的訓練學習,即可獲取人臉識別特征模型,再次驗證時即可實現(xiàn)人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統(tǒng)基礎上,可以加入定位系統(tǒng)、測溫系統(tǒng)等,依托物聯(lián)網(wǎng)技術和云計算大數(shù)據(jù),更加優(yōu)化管控系統(tǒng)的效率。病毒傳播防控中人臉識別系統(tǒng)流程可以概括為圖2。

4結語

本文研究了一種人臉識別技術在病毒傳播管控系統(tǒng)中的應用,并分析設計了人臉識別實時監(jiān)測及病毒管控系統(tǒng)的流程,大大提高了信息管理的效率,減弱了傳播風險。作為一門新興技術,目前的人臉識別技術還存在著諸多不足之處,像存在環(huán)境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統(tǒng)識別精度;另外安全問題也引人深思:現(xiàn)今人臉支付方式迅猛發(fā)展,錄入的人臉模型信息數(shù)據(jù)庫存在有一定的安全風險,一旦被不法分子盜取信息后果不堪設想,所以模型數(shù)據(jù)庫安全、網(wǎng)絡安全,也是系統(tǒng)開發(fā)中必須重視的問題。人臉識別為代表的人工智能技術的研究,在病毒傳播管控作出重大貢獻,依托我國領先的計算機網(wǎng)絡技術和5G等技術,加強人工智能技術與5G通信技術的結合,優(yōu)勢互補,以此來加快大數(shù)據(jù)、人工智能和物聯(lián)網(wǎng)技術發(fā)展進程,對我國社會進步,促進城市建設和管理朝著高效、秩序、和諧穩(wěn)定的方向不斷發(fā)展,增強我國的經(jīng)濟實力有著重大價值和研究意義。

參考文獻

[1]王彥秋,馮英偉.基于大數(shù)據(jù)的人臉識別方法[J].現(xiàn)代電子技術,2021,44(7):87-90.

[2]李剛,高政.人臉自動識別方法綜述[J].計算機應用研究,2003,20(8):4-9,40.

[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學與探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度學習的人臉識別方法綜述[J].工程數(shù)學學報,2021,38.

[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現(xiàn)[J].河南理工大學學報(自然科學版),2005.

[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統(tǒng)與標準研究[J].信息技術與標準化,2020,6,11-13,1671-539X.

[6]彭駿,吉綱,張艷紅,占濤.精準人臉識別及測溫技術在疫情防控中的應用[J].軟件導刊,2020,10,1672-7800.

篇7

計算機視覺的第一步是特征提取,即檢測圖像中的關鍵點并獲取有關這些關鍵點的有意義信息。特征提取過程本身包含4個基本階段:圖像準備、關鍵點檢測、描述符生成和分類。實際上,這個過程會檢查每個像素,以查看是否有特征存在干該像素中。

特征提取算法將圖像描述為指向圖像中的關鍵元素的一組特征向量。本文將回顧一系列的特征檢測算法,在這個過程中,看看一般目標識別和具體特征識別在這些年經(jīng)歷了怎樣的發(fā)展。

早期特征檢測器

Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技術的早期實現(xiàn)。但這些屬于計算密集型算法,涉及到大量的浮點運算,所以它們不適合實時嵌入式平臺。

以SIFT為例,這種高精度的算法,在許多情況下都能產(chǎn)生不錯的結果。它會查找具有子像素精度的特征,但只保留類似于角落的特征。而且,盡管SIFT非常準確,但要實時實現(xiàn)也很復雜,并且通常使用較低的輸入圖像分辨率。

因此,SIFT在目前并不常用,它主要是用作一個參考基準來衡量新算法的質量。因為需要降低計算復雜度,所以最終導致要開發(fā)一套更容易實現(xiàn)的新型特征提取算法。

二代算法

Speeded Up Robust Features(SURF)是最早考慮實現(xiàn)效率的特征檢測器之一。它使用不同矩形尺寸中的一系列加法和減法取代了SIFT中浩繁的運算。而且,這些運算容易矢量化,需要的內存較少。

接下來,HOG(Histograms ofOriented Gradients)這種在汽車行業(yè)中常用的熱門行人檢測算法可以變動,采用不同的尺度來檢測不同大小的對象,并使用塊之間的重疊量來提高檢測質量,而不增加計算量。它可以利用并行存儲器訪問,而不像傳統(tǒng)存儲系統(tǒng)那樣每次只處理一個查找表,因此根據(jù)內存的并行程度加快了查找速度。

然后,ORB(Oriented FASTand Rotated BRIEF)這種用來替代SIFT的高效算法將使用二進制描述符來提取特征。ORB將方向的增加與FAST角點檢測器相結合,并旋轉BRIEF描述符,使其與角方向對齊。二進制描述符與FAST和HarrisCorner等輕量級函數(shù)相結合產(chǎn)生了一個計算效率非常高而且相當準確的描述圖。

CNN:嵌入式平臺目標識別的下一個前沿領域

配有攝像頭的智能手機、平板電腦、可穿戴設備、監(jiān)控系統(tǒng)和汽車系統(tǒng)采用智能視覺功能將這個行業(yè)帶到了一個十字路口,需要更先進的算法來實現(xiàn)計算密集型應用,從而提供更能根據(jù)周邊環(huán)境智能調整的用戶體驗。因此,需要再一次降低計算復雜度來適應這些移動和嵌入式設備中使用的強大算法的嚴苛要求。

不可避免地,對更高精度和更靈活算法的需求會催生出矢量加速深度學習算法,如卷積神經(jīng)網(wǎng)絡(CNN),用于分類、定位和檢測圖像中的目標。例如,在使用交通標志識別的情況下,基于CNN的算法在識別準確度上勝過目前所有的目標檢測算法。除了質量高之外,CNN與傳統(tǒng)目標檢測算法相比的主要優(yōu)點是,CNN的自適應能力非常強。它可以在不改變算法代碼的情況下快速地被重新“訓練(tuning)”以適應新的目標。因此,CNN和其他深度學習算法在不久的將來就會成為主流目標檢測方法。

CNN對移動和嵌入式設備有非常苛刻的計算要求。卷積是CNN計算的主要部分。CNN的二維卷積層允許用戶利用重疊卷積,通過對同一輸入同時執(zhí)行一個或多個過濾器來提高處理效率。所以,對于嵌入式平臺,設計師應該能夠非常高效地執(zhí)行卷積,以充分利用CNN流。

事實上,CNN嚴格來說并不是一種算法,而是一種實現(xiàn)框架。它允許用戶優(yōu)化基本構件塊,并建立一個高效的神經(jīng)網(wǎng)絡檢測應用,因為CNN框架是對每個像素逐一計算,而且逐像素計算是一種要求非常苛刻的運算,所以它需要更多的計算量。

不懈改進視覺處理器

篇8

關鍵詞 車輛自動駕駛;人工智能;應用實踐;智能汽車

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)182-0080-02

車輛自動駕駛系統(tǒng)是改變傳統(tǒng)駕駛方式的重要技術類型,但仍舊處于研發(fā)測試階段,并未展開全面應用。車輛自動駕駛系統(tǒng)主要是由感知部分和控制部分構成,控制部分主要完成對車輛的控制,促使車輛按照設計的線路展開行駛,而感知部分則是對路線中障礙進行識別,促使車輛進行規(guī)避,保障車輛安全。然而現(xiàn)階段,車輛自動駕駛的感知部分卻存在一定的瓶頸,制約車輛自動駕駛系統(tǒng)的功能?;诖?,本文對車輛自動駕駛中人工智能的應用展開分析,具體內容如下。

1 車輛自動駕駛現(xiàn)狀分析

車輛自動駕駛是借助網(wǎng)絡技術相關算法、高敏感度的傳感器和相關信息采集設備,綜合的對車輛行駛過程中路況信息進行采集,由信息處理部分完成對車輛行駛過程中采集數(shù)據(jù)的分析,再由控制系統(tǒng)完成對車輛前進、后退和停止等動作進行實施,可有效改變傳統(tǒng)車輛的駕駛方式,在提高車輛駕駛有效性的基礎上,可以解放駕駛人員的雙手,并達到降低交通事故發(fā)生幾率,達到智能化汽車的構建。

近年來,以百度、谷歌為首的行業(yè),致力于人工智能技術應用車輛自動駕駛系統(tǒng)中,于2016年谷歌將無人駕駛的汽車測試到城市,并于2016年12月無人駕駛汽車項目剝離為獨立的公司waymo,完成對車輛自動駕駛的研究,該公司的基于自動駕駛的車輛的自動行駛的距離>1.61×106km,并獲得大量的數(shù)據(jù)。

較比國外的車輛自動駕駛的自主研究形式,國內主要選擇汽車廠商與科研所高校等聯(lián)合研究的方式,主要有一汽、上汽、奇瑞等,均投入一定資金和研究力度,致力于研發(fā)可無人駕駛的智能汽車。同時,網(wǎng)絡技術和算法技術、硬件技術的不斷成熟,為車輛自動駕駛提供了基礎,對智能汽車的構建具有十分積極的意義。

隨著世界各類尖端行業(yè)重視到汽車自動駕駛大有可為,逐漸加大對車輛自動駕駛的研究,并將具備車輛自動駕駛能力的汽車作為未來汽車市場的主要方向,促使汽車可以在自動駕駛的狀態(tài)下,完成對復雜環(huán)境的駕駛,達到高度自動化駕駛的效果。

2 人工智能在車輛自動駕駛中的應用

人工智能是計算機科學的分支之一,所包含的領域較多,涵蓋機器人、語言識別、圖像識別等,隨著人工智能研究的不斷深入,人工智能逐漸應用到各個領域中。將人工智能應用到車輛自動駕駛中,可以對車輛自動駕駛的瓶頸進行突破,推動車輛自動駕駛的早日實現(xiàn)。

2.1 基于深度思考的人工智能

車輛自動駕駛系統(tǒng)對基于深度思考的人工智能進行應用,深度思考是一種機器學習的算法,可完成多元非線性數(shù)據(jù)轉換、高級數(shù)據(jù)概念模型的構建,促使車輛自動駕駛系統(tǒng)的感知部分發(fā)生轉變。具體的基于深度思考的人工智能學習結構,有深度神經(jīng)網(wǎng)絡(DNNs)、卷積神經(jīng)網(wǎng)絡(CNNs)、深度信念網(wǎng)絡等,在具體的車輛自動駕駛系統(tǒng)中,完成對車輛的視覺、語言等信息的識別。蘋果手機編制程序專家George?Hotz創(chuàng)建的企業(yè),構建的基于卷積神經(jīng)網(wǎng)絡的自動駕駛車輛,并借助人工智能實現(xiàn)車輛訓練。在具體的車輛訓練過程中,選擇激光雷達作為主要視覺裝置,完成周邊環(huán)境的精準三維掃描,進而實現(xiàn)對周邊環(huán)境的識別,且可以完成對車位置信息的報告。

2.2 基于人工智能解讀的儀表板攝像頭

選擇以帕洛阿爾托為基地的NAUTO使用的prosumer相機中發(fā)現(xiàn)的各類圖像傳感器,并運用運動感應器、GPS等,轉變激光雷達傳感器昂貴的情況,達到降低車輛自動駕駛的感知成本,并有效完成對周邊地形的識別。借助NAUTO系統(tǒng),不但能夠完成對道路前方情況的識別,還能對車輛內部的情況信息進行采集,車輛乘坐人員可以根據(jù)面部表情、手勢和語言完成對車輛的控制,達到改善人機交互界面。

2.3 基于人工智能的尾剎

現(xiàn)階段,汽車輔助系統(tǒng)不斷發(fā)展和完善,切實應用到車輛中,基于人工智能的ADAS技術,配合ACC(自適應循環(huán))、LDWS(車道偏移報警系統(tǒng))、自動泊車等系統(tǒng)的應用,使得目前車輛具備良好的自動能力。而ADAS技術的應用,可以使得汽車在具體運行中如果前方存在車輛或是前方存在障礙物不能繞過的情況,借助ADAS技術的應用,可以實現(xiàn)自動剎車,進而保障車輛的行駛安全。

2.4 感知、計劃、動作的agent結構應用

車輛自動駕駛系統(tǒng)中對人工智能進行應用,對改善自動車輛駕駛的效果顯著,改善車輛自動駕駛的效果。

借助知識庫的十二構建,可以給予自動駕駛行駛過程中的地理信息、電子地圖、交通信息和相關法律法規(guī)這些內容。且這些知識主要是以知識的形式展示,并借助知R推理中的A算法,可以有效完成對下一個被檢查的結點時引入已知的全局信息進行解讀,達到對最優(yōu)路線的選擇,獲得可能性最大的結點,繼而保障知識所搜的效率。借助感知―計劃―動作agent結構的人工職能,可以將車輛自動行駛的速度分為3個檔次:High、Middle、Fast,轉向角度為7等,分別為0°,±10°,±20°,±30°。且可以完成對各類障礙的規(guī)避。

3 車輛自動駕駛中人工智能應用的相關問題

1)車輛自動駕駛具有良好的發(fā)展前景,而人工智能的應用,進一步優(yōu)化了車輛自動駕駛系統(tǒng)的功能,達到減少錯誤的情況,借助人工智能盡可能降低各類錯誤的存在,規(guī)避自動駕駛風險的存在。需不斷加強對人工智能的研究和分析,促使人工智能和車輛自動駕駛有機的結合,為智能汽車的構建奠定基礎。

2)人工智能應用時,需要對車輛電腦程序和信息網(wǎng)絡的安全系數(shù)進行控制,避免非法入侵對車輛造成不利影響,進而導致安全隱患的發(fā)生。

3)人工智能在具體的應用中,需要對預測和回應人類行為的問題進行處理,進而增加自動駕駛車輛與人的互動。

4)基于人工智能的智能汽車定責的法律問題,國家需要建立相關的法律法規(guī),不斷完善車輛自動駕駛的相關立法,完成對各類問題的處理,提升法律的適應性。

4 結論

分析車輛自動駕駛的現(xiàn)狀,再詳細的對人工智能在車輛自動駕駛的應用,再解讀基于感知―計劃―動作agent結構的人工智能的具體應用,并分析人工智能在車輛自動駕駛中應用的相關問題,為推動車輛自動駕駛的水平和智能化水平提供基礎,達到改善人們生活的效果。

參考文獻

[1]黃健.車輛自動駕駛中的仿人控制策略研究[D].合肥:合肥工業(yè)大學,2013.

[2]謝基雄.探析人工智能技術對電氣自動化的實踐運用[J].電源技術應用,2013(9).

[3]禹昕.人工智能在電氣工程自動化中的運用實踐研究[J].工程技術:全文版,2016(12):00247.

[4]余阿東,陳睿煒.汽車自動駕駛技術研究[J].汽車實用技術,2017(2):124-125.

篇9

如果時光倒流500年,你會如何對當時的人們述說今日的世界?在那個時代,哥白尼剛剛發(fā)表日心論,伽利略還在比薩斜塔拋擲鐵球,吳承恩還在用毛筆寫著《西游記》。如果你對他們說:“嘿,老兄,我對著手上的這個‘黑色方塊’說句話,它不僅能讓你看到太陽系長什么樣,告訴你什么是重力加速度,還能直接把唐僧要去西天取的經(jīng)下載給你看。”他們可能會覺得你要么是神仙,要么是神經(jīng)。

AI從誕生到現(xiàn)在已經(jīng)有60年的時間,期間經(jīng)歷兩輪起落,呈階梯式進化,走到今天進入第三個黃金期。如果按照其智能水平劃分,今天的人工智能尚處在狹義智能向廣義智能進階的階段,還是一名不折不扣的“少年”,未來擁有無限的可能和巨大的上升空間。

AI是一門交叉的學科:人工智能由不同的技術領域組成,如機器學習、語言識別、圖像識別、自然語言處理等。而同時,它也是一門交叉學科,屬于自然科學和社會科學的交叉,涉及到哲學和認知科學、數(shù)學、神經(jīng)生理學、心理學、計算機科學、信息論、控制論、不定性論等學科。因此人工智能領域的技術壁壘是比較高的,并且會涉及到多學科協(xié)作的問題,對任何公司來說,想做好人工智能將是一門大工程。未來不大可能出現(xiàn)一個公司能包攬整個人工智能產(chǎn)業(yè)每一個部分的工作,更可能的模式將是一個公司專注于一個相對細分的領域,通過模塊化協(xié)作的形式實現(xiàn)人工智能領域的不同應用。

進化史呈階梯狀,以階段突破式為成長模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,

現(xiàn)在正經(jīng)歷著第三個黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學家在達特茅斯一起聚會,并首次提出了“人工智能”這一術語,標志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機,標志著第一款神經(jīng)網(wǎng)絡誕生。1970年,因為計算能力沒能突破完成大規(guī)模數(shù)據(jù)訓練,人工智能的第一個黃金期到此結束。

后直到1982年德普霍爾德神經(jīng)網(wǎng)絡的提出,人工智能進入第二個黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡訓練成為可能,人工智能的發(fā)展又一次進入。1990年,因為人工智能計算機和DARPA沒能實現(xiàn),政府撤資,人工智能又一次進入低估。2006年,隨著“深度學習”神經(jīng)網(wǎng)絡取得突破性進展,人工智能又一次進入黃金時期。

AI將由狹義智能向廣義智能進化,雖然人工智能的誕生已經(jīng)有60年的時間但如果把它比喻成一個人的話,當前的他應該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級智能三個大的發(fā)展階段,現(xiàn)階段的圖像與語音識別水平標志著人類已經(jīng)基本實現(xiàn)狹義智能,正在向廣義智能的階段邁進。

狹義智能:即當前的技術已經(jīng)實現(xiàn)的智能水平,包括計算智能與感知智能兩個子階段,計算智能指的機器開始具備計算與傳遞信息的功能,感知智能指機器開始具備“眼睛”和“耳朵”,即具備圖像識別與語音識別的能力,并能以此為判斷采取一些行動。

廣義智能:指的是機器開始具備認知能力,能像人類一樣獲取信息后主動思考并主動采取行動。在這個階段,機器可以全面輔助或代替人類工作。

超級智能:這個階段的機器幾乎在所有領域都比人類聰明,包括科學創(chuàng)新、通識和社交技能等。這個階段目前離我們還比較遙遠,到時候人類的文明進步和跨越或許將有賴于機器,而機器人意識的倫理問題也許將在這個階段成為主要問題。

推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù)

智能助手并不只局限于Siri等手機語音助手。微軟率先在win10 系統(tǒng)中加入個人智能助理Cortana,標志著個人PC端智能助理的出現(xiàn);圖靈機器人以云服務的方式進入海爾智能家居、博世m(xù)ySPIN車載系統(tǒng),預示著多場景人工智能解決方案的潮流。初步實現(xiàn)人機交互的智能助手系統(tǒng),已經(jīng)被應用于智能客服、聊天機器人、家用機器人、微信管理平臺、車載系統(tǒng)、智能家居系統(tǒng)、智能手機助理等多個軟硬件領域。

垂直類網(wǎng)站及社交平臺可以借助智能助手系統(tǒng)打造高專業(yè)度的“在線專家”以提升平臺價值;企業(yè)可以借助以“語義識別”為基礎的智能助手系統(tǒng),打造智能客服,效率遠高于傳統(tǒng)的以“關鍵詞對應”為技術支持的客服系統(tǒng)。

推薦引擎,是主動發(fā)現(xiàn)用戶當前或潛在需求,并主動推送信息給用戶的信息網(wǎng)絡。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。傳統(tǒng)推薦引擎通常利用用戶在平臺上的歷史記錄進行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學習技術的推進,推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶的需求,真正達到按需推薦。全球最大的正版流媒體音樂服務平臺Spotify也利用卷積神經(jīng)網(wǎng)絡參與建設其音樂推薦引擎;谷歌也提出利用深度學習方法來學習標簽進行推薦建設。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學習網(wǎng)絡分析客戶消費的大數(shù)據(jù),還計劃構建一個在AWS云上的以GPU為基礎的神經(jīng)網(wǎng)絡。

“餐廳推薦引擎”Nara,便是一個利用AI技術的推薦引擎。在上線之初,Nara 就取得了400萬美元的投資。Nara 的數(shù)據(jù)庫中有超過100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡”,學習使用者的偏好,最終達到“電腦幫你點餐”的目的。

而今年3月22日,國內AI領軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動“個性化推薦”引擎對外公測,該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個性化服務能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開發(fā),節(jié)省程序量達到90%,推薦引擎的搭建時間將由幾個月縮短到幾天。

對于不了解算法的人,只能實現(xiàn)標簽規(guī)則類的推薦,但如果要做成機械化、類似協(xié)同過濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高?,F(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結果集、訓練集都不用處理,只需要調整參加即可得到推薦結果。

AI帶給人們新的視覺???

醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀

健康診斷有望迎來新紀元,海量的病歷數(shù)據(jù)和醫(yī)學界的新研究成果,單靠人工很難及時篩選并利用,而引入人工智能技術將充分發(fā)揮這些信息的價值。例如著名的個人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認知計算能力理解人類語言,實現(xiàn)與用戶溝通的能力,從大量數(shù)據(jù)中進行分析并為用戶提供健康管理相關的答案和建議,實現(xiàn)健康管理、慢病恢復訓練、健康食譜等功能,這一領域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實現(xiàn) Watson的“辨讀”醫(yī)學影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過大數(shù)據(jù)分析,實現(xiàn)根據(jù)分析患者行為來制定個性化治療方案的功能。

智能家居:天花板尚遠,AI有望成為核心

行業(yè)天花板尚遠,增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個理想中的智能家居系統(tǒng)。雖然我們目前可能離那個無所不能的智能管家還很遙遠,但智能家居對我們生活的變革確實已經(jīng)開始了。根據(jù)《2012-2020 年中國智能家居市場發(fā)展趨勢及投資機會分析報告》的預測,我國智能家居市場在 2016年將達到605.7億的規(guī)模,同比增長50.15%,到2020年市場規(guī)模將達到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達到“Jarvis”般的終極效果,必然需要引入AI技術,實現(xiàn)家居的感應式控制甚至自我學習能力。

AI有望成為智能家居的核心,實現(xiàn)家居自我學習與控制。按照智能家居的發(fā)展進度,大致可以分為四個階段:手機控制、多控制結合、感應式控制、系統(tǒng)自我學習。當前的發(fā)展水平還處在手機控制向多控制結合的過度階段。而從多控制結合向感應式控制甚至自我學習階段進化時,AI將發(fā)揮主要功能。到今天為止,家居的實體功能已經(jīng)較為全面,未來的發(fā)展重點可能在于如何使之升級改造,實現(xiàn)家居的自我行為及協(xié)作,因此未來AI在智能家居領域的應用有望成為其核心價值。AI對智能家居的重構可以深入到方方面面,包括:控制主機、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門窗控制、能源管理、空調系統(tǒng)、花草澆灌、寵物看管等等。

無人駕駛:政策漸萌芽,AI決定可靠性

優(yōu)點多、動機足、政策漸萌芽。據(jù)麥肯錫的調查顯示,如果能解放駕駛員的雙手,一輛無人駕駛汽車內的乘客通過移動互聯(lián)網(wǎng)使用數(shù)字媒體服務的時間多一分鐘,每年全球數(shù)字媒體業(yè)務產(chǎn)生的利潤將增加 50億歐元。此外,由于自動泊車無須為乘客下車預留開門空間,使得停車位空間可縮減至少15%。

如果無人駕駛汽車以及ADAS系統(tǒng)能夠將事故發(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金??梢哉f諸多的優(yōu)點使得無人駕駛技術的研發(fā)動機還是相當充分的,因此未來無人駕駛推行的力度應該還會保持在一個比較高的水平。美國勒克斯研究公司曾預計無人駕駛汽車的市場規(guī)模在2030年將達到870億美元。

到目前為止,各國政府對于無人駕駛技術在政策上的支持正逐步放開,美國政府在年初剛剛宣布了40億美元的資助計劃;英國目前已經(jīng)不需要獲得額外批準和履約保證即可進行實際道路的無人駕駛汽車測試;而德國也在去年宣布將計劃設立無人駕駛汽車測試路段,供安裝有駕駛輔助系統(tǒng)或全自動駕駛系統(tǒng)車輛行駛;歐盟總部正在就如何修改現(xiàn)行有關駕駛的法律法規(guī)從而支持自動駕駛的發(fā)展展開討論和研究工作;日本也提出要在2020年之前實現(xiàn)自動駕駛汽車方面的立法,并將自動駕駛作為 2016年9月七國集團交通部長會議的議題。

“無人汽車大腦”AI的智能程度決定了無人駕駛的可靠性。由于無人駕駛完全交由汽車的內置程序負責,因此AI就是無人汽車的大腦,而測距儀、雷達、傳感器、GPS等。設備都是AI的“眼睛”。AI的智能程度直接決定了無人駕駛汽車在不同的路況、不同的天氣、甚至一些探測設備出現(xiàn)故障的突況下能否及時做出正確的判斷并靈活調整行駛策略,最終決定了無人駕駛汽車當前最亟待突破的可靠性。

NVIDIA 在2016年的 CES大會上了“Drive PX 2”車載計算機,以及一套與之搭配的具有學習功能的自動駕駛系統(tǒng)。該系統(tǒng)的亮點在于“自我學習”,通過讓車輛自行分析路面狀況,而不是在數(shù)據(jù)庫中尋找預先儲存的策略實現(xiàn)自動駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學習訓練平臺,最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡,為車輛的自我學習和完善提供支持。并且由于它是通過判斷物體的行進軌跡而不是物體本身去計算路徑,因此在駕駛時受天氣影響較小。

AI 成必爭之地

目前全球AI主戰(zhàn)場依舊在歐美。Venture Scanner的統(tǒng)計顯示,根據(jù)從事 AI相關業(yè)務的公司數(shù)量來看,目前全球 AI的主戰(zhàn)場還是集中在北美和西歐地區(qū)。美國數(shù)量最多,達到450家左右的水平。而中國從事相關業(yè)務的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國家及非洲南部國家水平接近,相比起歐美國家的AI公司數(shù)量,還有很大的提高空間。

Google:投資未來的人工智能帝國

建立Alphabet帝國,具備品牌背書效應。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關的技術基礎部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨立出來,成為 Alphabet 旗下的獨立公司。通過建立 Alphabet集團,谷歌將不同業(yè)務的研發(fā)獨立出來,以子公司的形式進行業(yè)務開展,保留在Google這個品牌下的基本都是原有的傳統(tǒng)強勢業(yè)務。

而其它公司負責在各自的領域“打頭陣”,一旦業(yè)務研發(fā)成功,母公司連帶著google這個品牌都可以受益,而如果研發(fā)失敗,也不會公司的品牌造成多大的不良影響,建立了良好的品牌背書效應。將機器學習技術應用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類產(chǎn)品中,可謂是全線鋪開。正應了谷歌 CEO的那句話:“我們將小心謹慎地將機器學習技術應用到我們所有的產(chǎn)品之中?!备鶕?jù)當前Alphabet 的集團架構,我們將涉及到AI應用的子公司情況以及相應的業(yè)務開展情況羅列如下:

Nest:從事智能家居生態(tài)系統(tǒng)建設。2014 年谷歌以32億美元收購 Nest。Nest 生產(chǎn)智能恒溫器,它能夠學習用戶的行為習慣,并且根據(jù)他們的喜好去調節(jié)溫度。同時,Nest 也提供火警探測器和家庭安全攝像頭等智能家居。

Google X:谷歌各類創(chuàng)新技術的“孵化池”。Google X開展的與AI有關的項目有:無人駕駛汽車、Project Wing 無人機送貨項目、對抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預警和健康監(jiān)控的可穿戴設備、Project Titan 太陽能無人機項目、以及 Replicant 團隊負責的機器人項目等。

Verily:從事生命科學業(yè)務,即原來的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。

DeepMind:深度學習算法公司。2014年谷歌以4億美元收購了DeepMind。

篇10

關鍵詞:深度學習;目標視覺檢測;應用分析

隨著計算機的普及,目標視覺檢測也在計算機的發(fā)展中逐漸被應用。人們的生活越來越離不開計算機和電子設備,數(shù)據(jù)信息充斥著當代人的生活。隨著人們生活質量的提高對電子設備要求越來越高,越來越精準。目標檢測技術在人們的生活中,也發(fā)揮著很大的作用和價值。智能監(jiān)控、機器人、自動定位、人臉聚焦、航拍、衛(wèi)星等方面都應用了目標視覺檢測的技術。在高層視覺處理和任務分析中,目標視覺檢測技術也是基礎。無論是分析行為、事件還是場景語義的理解都需要運用到目標視覺檢測技術。因此目標視覺檢測在各個方面都發(fā)揮著重大的作用,本文就深度學習在目標視覺檢測中的應用和展望進行探討。

一、深度學習在目標視覺檢測中的進展

深度學習最早出自于人工神經(jīng)網(wǎng)絡。深度學習把多層感知器作為學習結構,組合底層特征進行高層的學習。作為機器研究的一個新領域,模仿人腦組建學習的神經(jīng)網(wǎng)絡。深度學習可以逐步自主的學習。而目標視覺檢測在近幾年出現(xiàn)了很多的問題,例如,類內和類間存在差異。即使通過訓練也很難包含所有類內的特征描述模型。而且類內和類間的差異大小不一樣這就給目標視覺檢測的發(fā)展帶來很大的阻礙。在圖像采集的過程中,由于種種因素會導致目標物體被遮擋,因此,視覺算法的魯棒性也需要進行整改。語義理解也存在著差異,對仿生和類腦角算法有一定的難度。而計算機的復雜和自適應性也比較高,需要設計高效的目標視覺檢測技術,為了確保目標視覺檢測的精準程度,還需要設計出自動更新視覺模型來提高模型在不同環(huán)境下的適應能力。隨著深度學習的發(fā)展,深度學習對于目標視覺檢測有很大的用處,可以極大地解決目前目標視覺檢測技術出現(xiàn)的問題。因此很多專家開始把深度學習融入到目標視覺檢測的發(fā)展當中,并進行研究。

二、目標視覺檢測的流程和順序

估計特定類型目標是目標視覺檢測的關鍵,目標視覺檢測的流程大致分為三步,區(qū)域建議、特征表示和區(qū)域分類。根據(jù)圖一,第一步區(qū)域建議。目標檢測需要獲得目標的準確位置和大小尺度,在輸入圖像的時候找到指定的類型目標是其中一種區(qū)域建議。還可以通過滑動窗進行區(qū)域建議,投票、圖像分割的區(qū)域建議也可以使用?;瑒哟靶枰谳斎雸D像的時候在子窗口執(zhí)行目標來檢測目標所處的位置。投票機制則通過部件的模型找到輸入圖像和模型在局部區(qū)域內的最佳位置,并最大限度地讓所有局部區(qū)域匹配,利用拓撲的方式來得到最佳匹配。但是投票機制的區(qū)域建議計算代價會比較高。圖像分割的區(qū)域建議則建立在圖像分割的基礎上面,是一個消耗時間和精力的過程,而且很復雜很難把整個目標分割出來。而深度學習在圖像分類和目標檢測中都有一定得進展,通過深度學習的表征和建模能力可以生成抽象的表示[1]。

圖一,目標視覺檢測流程

三、深度學習在目標視覺檢測當中的作用

深度學習融入目標視覺檢測推動了目標視覺檢測的發(fā)展和研究。目標視覺檢測和圖像分類有一定的區(qū)分,目標視覺檢測主要關注圖像的局部信息,圖像分類在意圖像的全局表達。但是它們也有一定的互通性。首先從區(qū)域建議的方法來探討深度學習在目標視覺檢測中的作用。深度學習在目標視覺檢測中的基本參考方法是Girshick等人提出來的R-CNN方法。R-CNN和CNN相聯(lián)系,檢測的精準度達到了53.3%,對比傳統(tǒng)的方法有很大的飛躍。如圖二所示,輸入相關圖像的同時進行選擇性的搜索提取候選區(qū),通過CNN網(wǎng)絡來提取固定長度的向量,圖像經(jīng)過兩個全連接層和五個積卷層得出一個4096的向量,最后把提取到的向量數(shù)據(jù)在向量機中進行分配。但是這樣的方式還是存在很多的不足和弊端,因此Girshick對R-CNN和SPP-net進行了進一步的改進,圖像進行一次卷積在特征圖上進行映射送入Rol池化層,最后通過全連接層輸出。同一幅畫像的Rol共同相同計算機的內存效率更加高。通過softmax 的分類不僅省去特征的存儲還提高了利用率。近年來,kin等人又提出了PVANET網(wǎng)絡,數(shù)據(jù)的檢測精準度達到了82.5%,在確保精準度的情況下還能使通道數(shù)減少,可以增加對細節(jié)的提取。

圖二,R-NN的計算流程

早期還提出過無區(qū)域建議的方式,例如,DPM模型可以在目標的內部進行結構化的建模,不僅提高了檢測的性能,也能很好地適應非剛體的形變。但是DPM模型的構建條件復雜,模型訓練也比較繁瑣,所以sermanet又進行研究提出了Overfeat的模型,避免圖像塊的操作出錯,也能提高算法的效率。但是關于尺寸的識別還是存在著一定的問題,因此無區(qū)域建議還在不斷的探索過程中。redmom提出了關于改進yolo模型的方法,成為yolov2,可以確保精準度和定位,提升了檢測率。專家們還研制出一種新的訓練算法,用數(shù)據(jù)來找到物體的準確定位,yolo模型通過這樣的方式課題檢測超過九千種物體[2]。

四、結束語

未來深度學習在目標視覺檢測中都會得到繼續(xù)的應用和進展,深度學習在目標視覺測試中依舊是主流的方向。深度學習通過它的優(yōu)勢可以獲得高層次抽象的表達。但是深度學習的理論還不是特別的完善,模型的可解釋性還不夠強。因此深度學習模式還需要得到進一步的改進和完善,對模型的結構,訓練等多加指導。大規(guī)模多樣性數(shù)據(jù)集也比較匱乏,現(xiàn)在很多的目標視覺檢測都在imagenet上進行訓練,但是目標檢測技術還需要進一步的完善和提高,達到最好的效果。深度學習在目標視覺檢測技術中的應用還不夠完善,任重而道遠,還需要進一步的完善理論提高精準度。在未來,深度學習和目標視覺檢測一定能夠得到極大的進展。

參考文獻