卷積神經(jīng)網(wǎng)絡(luò)總結(jié)范文

時間:2024-04-08 18:05:30

導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)總結(jié),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)總結(jié)

篇1

【關(guān)鍵詞】圖像分類深度 卷積神經(jīng)網(wǎng)絡(luò) 加權(quán)壓縮近鄰

1 研究背景

手寫數(shù)字識別是一個經(jīng)典的模式識別問題。從0 到9這10 個阿拉伯?dāng)?shù)字組成。由于其類別數(shù)比較小,它在些運(yùn)算量很大或者比較復(fù)雜的算法中比較容易實(shí)現(xiàn)。所以,在模式識別中數(shù)字識別一直都是熱門的實(shí)驗(yàn)對象。卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)不但可以解決淺層學(xué)習(xí)結(jié)構(gòu)無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準(zhǔn)確度。

2 深度卷積神經(jīng)網(wǎng)絡(luò)

深度卷積神經(jīng)網(wǎng)絡(luò)是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡(luò),隱含層中的卷積層和池采樣層是實(shí)現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數(shù)來進(jìn)行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過迭代訓(xùn)練提高分類精確度。

深度卷積神經(jīng)網(wǎng)絡(luò)的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應(yīng)的分類結(jié)果。正常情況下,一個卷積后面都跟一個子采樣層。基于卷積層里權(quán)值共享和局部連接的特性,可以簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù)。運(yùn)算之后,獲得的結(jié)果通過激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實(shí)現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應(yīng)的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個卷積層,反復(fù)進(jìn)行特征學(xué)習(xí)。將被標(biāo)記的樣本輸入到Softmax分類器中。

CNN 能夠簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù),降低計算難度。這些良好的性能是網(wǎng)絡(luò)在有監(jiān)督方式下學(xué)會的,網(wǎng)絡(luò)的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個特點(diǎn):

2.1 局部連接

深度卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的神經(jīng)元節(jié)點(diǎn)是局部連接,不像BP 神經(jīng)網(wǎng)絡(luò)中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡(luò)利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點(diǎn)連接相鄰的上一層神經(jīng)元節(jié)點(diǎn)。

2.2 權(quán)重共享

在深度卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中每一個卷積濾波器共享相同參數(shù)并重復(fù)作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。

在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進(jìn)行降維。用若干個n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進(jìn)行分類。

3 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的有效性,本實(shí)驗(yàn)中使用以最經(jīng)典的MNIST 和USPS 庫這兩個識別庫作為評測標(biāo)準(zhǔn)。手寫數(shù)字MNIST數(shù)據(jù)庫有集60000 個訓(xùn)練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數(shù)字USPS 數(shù)據(jù)庫含有7291 個訓(xùn)練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。

表1給出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST 和USPS 庫上的識別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡(luò)對MNSIT 庫識別率能夠達(dá)到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點(diǎn)。對USPS 庫識別率能夠達(dá)到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點(diǎn)。

因此,使用深度卷積神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練在圖像識別中獲得更高識別率。因此,深度卷積神經(jīng)網(wǎng)絡(luò)在識別手寫體字符時有著較好的分類效果。

4 總結(jié)

本文介紹深度卷積神經(jīng)網(wǎng)絡(luò)的理論知識、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經(jīng)網(wǎng)絡(luò)對兩組手寫識別庫實(shí)驗(yàn)來驗(yàn)證CNN 有著較低的出錯率。

參考文獻(xiàn)

[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫體數(shù)字識別簡介[J].計算機(jī)科學(xué),2013,40(08):316-318.

[2]王強(qiáng).基于CNN的字符識別方法研究[D].天津師范大學(xué),2014.

[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.

[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動化學(xué)報,2007,33(12):1247-1251.

作者簡介

關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學(xué)歷?,F(xiàn)為中國電子科技集團(tuán)公司第五十四研究所工程師。研究方向?yàn)橛嬎銠C(jī)軟件工程。

篇2

關(guān)鍵詞:智能消防;火焰識別;卷積神經(jīng)網(wǎng)絡(luò)

一、智能裝備簡介

若想提高消防救援隊(duì)伍的滅火救援效能,提高裝備的智能化水平是必不可少的一步。消防裝備的配備情況影響著戰(zhàn)術(shù)和戰(zhàn)術(shù)效果,甚至是直接影響救援成功率的重要因素。因此,提升裝備的智能化水平、改善裝備結(jié)構(gòu)從而提升消防救援隊(duì)伍的作戰(zhàn)能力是關(guān)系廣大人民群眾生命以及財產(chǎn)安全的重要手段。消防裝備智能化的研究工作任重而道遠(yuǎn)。本文著眼于圖像法火焰識別技術(shù),通過研究新技術(shù),探討將其應(yīng)用于智能消防裝備之中的可行性。

二、卷積神經(jīng)網(wǎng)絡(luò)的簡介

(一)網(wǎng)絡(luò)結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)功能繁多,其中多層檢測學(xué)習(xí)神經(jīng)網(wǎng)是一種多層次的神經(jīng)監(jiān)測網(wǎng)絡(luò)。其中心模塊為卷積層,主要由隱藏層與最大池采樣層組成,主要功能是特征提取。其中,連接層與傳統(tǒng)多層感應(yīng)器的隱藏層、邏輯歸類器相對應(yīng)。卷積神經(jīng)網(wǎng)絡(luò)的輸入特征來源使卷積濾波器,而該神經(jīng)網(wǎng)絡(luò)的每一層都有多個理論上的神經(jīng)元以及特征圖。在給一個來自卷積和子采樣層的輸入統(tǒng)計濾波后,系統(tǒng)就提取了圖像局部的特征,就可以確定它與其他特征之間的相對方位,上一層的輸出值直接輸入至下一層。通常情況下,我們可以通過特征層來得到卷積層(特征層是指:輸入到隱藏層之間的映射)。(二)局部感受野與權(quán)值共享。局部感受野:由于圖像空間的連接是局部性的,因此每個神經(jīng)元都不需要感測全部圖像,而只需感覺到局部的特征。然后,通過對較高級別感測量的局部神經(jīng)元進(jìn)行集成,可以得到整體的信息,并且減少了連接數(shù)量。權(quán)重分享:不同神經(jīng)元之間的參數(shù)分享可通過降低求解參數(shù),并通過放大器對圖像的放大積獲得多種特征圖。實(shí)際上,權(quán)重共享圖像上的第一隱藏層的所有神經(jīng)元由于是在同一卷積上確認(rèn)的,所以均能在圖像的任意一個位置檢測到毫無差別的特性。他的最主要的功能是能夠通過適應(yīng)小范圍的圖像和平移從而達(dá)到檢測不同位置的目的,也就是良好的不變性平移。(三)卷積層、下采樣層。卷積層:通過去卷積來提取圖像特征,用來強(qiáng)化初始信號原屬性,從而減少噪音。下采樣層:由于研究人員發(fā)現(xiàn)圖像下采樣過程中,它能在保留信息的同時降低數(shù)據(jù)處理量,因此在發(fā)現(xiàn)某一特定的特征后,由于這個位置并不重要,所以樣本會擾亂特定的位置。我們只需要知道這個特征與其他特點(diǎn)之間的空間相對方位,就可以處理類似的物體由變形和變型而產(chǎn)生的變化。(四)卷積神經(jīng)網(wǎng)絡(luò)的不足。如果網(wǎng)絡(luò)層需要加深,每一個網(wǎng)絡(luò)層增加的神經(jīng)元數(shù)量會大幅增加,從而使模型復(fù)雜化,增大了調(diào)整參數(shù)的難度,也增大了過度擬合的風(fēng)險。此外,在反向傳播過程中,連續(xù)迭代會使梯度不斷減小,而梯度一旦歸零,權(quán)值便無法更新,導(dǎo)致神經(jīng)元失效。(五)展望與總結(jié)隨著研究人員對卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的研究不斷推進(jìn),其性能日益強(qiáng)大,復(fù)雜度也日益提升。目前,卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)研究已經(jīng)取得了顯著成效。然而,一些人工擾動(如向原圖片中鍵入噪點(diǎn))仍然會導(dǎo)致圖像的錯誤分類。如何解決這一問題,是今后研究的重點(diǎn)。此外,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)升級仍有很大空間,通過提升網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的合理性,可以完善量化分析能力。

三、圖像分割

圖像中包含很多數(shù)據(jù),需要分割圖像。然而,精確區(qū)分干擾是對整個系統(tǒng)亮度的精確分類和準(zhǔn)確劃類的前提。圖像的分析技術(shù)是計算機(jī)視覺技術(shù)的基礎(chǔ)。通過圖像分割、提取特征參量等方法可以將原本的圖像抽象化,從而便于分析和處理。多年以來,圖像的分割技術(shù)研究一直是重中之重,研究人員給出了多種分割方法。一般而言,圖像分割是將圖像劃分為不同的區(qū)域,給不同的區(qū)域賦予不同的權(quán)重,從而獲取重要對象的一種技術(shù)。特征可能是灰度、顏色、紋理等,目標(biāo)可能對應(yīng)一個區(qū)或多個地方,這與特殊目的應(yīng)用程序和特殊目的服務(wù)請求程序有關(guān)。一般而言,圖像取值分割分析算法大致來說可以再細(xì)分為圖形圖像取值分割、邊緣圖像分割、區(qū)域分割和重復(fù)圖像分析四大個門類。

四、火焰色彩虛擬模型的特征

(一)火焰色彩顏色類型特征?;鹧嫔誓P鸵话銇碚f是基于某種火焰色彩類型模式,通過在圖像閾值控制范圍內(nèi)通過設(shè)置某種色彩模型圖像閾值來降噪提取火焰顏色特征圖像??梢杂萌魏翁崛§o態(tài)火焰的特殊像素或者圖案方式來精確描述一個靜態(tài)火焰特征。然而,單純地依靠顏色模型來進(jìn)行火焰識別會導(dǎo)致嚴(yán)重的誤判?;鹧娴念伾秶欠浅4蟮?,所以它很可能與其他物體顏色相近,導(dǎo)致模型將其混為一談。(二)降噪在?;鹧姘l(fā)展的初期過程中,是不斷處于移動變化的。又一方面,火焰的全部運(yùn)動都不會跳躍,也就是火焰滿足相對穩(wěn)定性。所謂燃燒火災(zāi)的相對穩(wěn)定性,是指在火災(zāi)發(fā)生后,燃燒范圍的空間會成一個相對穩(wěn)定的擴(kuò)增趨勢擴(kuò)增。通過分析火災(zāi)的相對穩(wěn)定性,可以消滅許多虛假信號。(三)靜態(tài)模型。在基于單幀圖像識別的算法中,由于只使用了幾個以火焰為基準(zhǔn)的單一形狀特征,因此算法復(fù)雜、誤判率很高。因此,一個能夠自主優(yōu)化識別的模型就顯得十分重要,圖像靜態(tài)特征提取的方法如下:由于曲率在人的視覺系統(tǒng)中往往是觀測場景的重要參數(shù),因此提取幾何圖像曲率等參數(shù),并以此描繪火焰圖像;根據(jù)測得的數(shù)據(jù),描繪連續(xù)零曲率以及局部最大曲率、最高曲率正負(fù)值等集合特點(diǎn)。(四)動態(tài)模型在動態(tài)燃燒過程中,產(chǎn)生的火焰具有持續(xù)性。此外,根據(jù)火焰自身的特性和各種原因,火焰還會不斷發(fā)生變化。然而,這種變化并不在單個幀圖像中反映出來,而是在連續(xù)的多幀圖像中只反映。因此,提取火焰的動態(tài)特征就是分析處理連續(xù)多幀圖像。近年來,隨著火災(zāi)科學(xué)的發(fā)展,從火焰的隨機(jī)狀態(tài)中發(fā)現(xiàn)了其規(guī)則性:1.火焰的面積增長性;2.火焰的形狀相似性;3.火焰的整體移動?;趫D像的火焰識別算法可劃分為動態(tài)識別和靜態(tài)識別。若將這兩種算法同步進(jìn)行應(yīng)用,則定能增加工作效率?;鹧嫘纬傻闹匾攸c(diǎn)之一便是火焰形狀。對于采集到的ccd火焰圖像,首先進(jìn)行兩個連續(xù)的圖像差分操作,然后通過分割方法獲得連續(xù)幀的變化區(qū)域,使用掃描窗口得到的像素點(diǎn)數(shù)來記述連續(xù)幀變化區(qū)域。變化區(qū)域是指:圖像處理中,在獲得閾值之后,通過對高光度進(jìn)行科學(xué)計算、實(shí)驗(yàn)分析,最終得到的區(qū)域。當(dāng)其他高溫物體移動到相機(jī)或離開視野時,所檢測到的目標(biāo)區(qū)域會逐漸擴(kuò)大,并容易引起干擾,從而造成系統(tǒng)錯誤的報告。因此,需要將數(shù)據(jù)和其他圖像的關(guān)鍵性特征進(jìn)行一個高強(qiáng)度的結(jié)合,再深度進(jìn)行挖掘。火焰的形狀相似性:圖像之間的類似性通常依賴于已知描述特點(diǎn)之間的差異度。該方法能夠在任意復(fù)雜程度上建立相應(yīng)的類似性量。我們可以對兩個相似的元素進(jìn)行比較,也可以對兩個相似的場面進(jìn)行比較,圖像之間的相似性通常意義上是指場景以及結(jié)構(gòu)上的相似性。在一般情況下,圖像的結(jié)構(gòu)相似度往往并不高,因此,我們傾向于選擇更加典型的結(jié)構(gòu)特點(diǎn)進(jìn)行描述,如區(qū)域面積、區(qū)域亮度、線段長度等參數(shù)。雖然火焰的圖像序列中火焰的邊緣往往是很不穩(wěn)定的,但圖像的總體變化會被限制在一定范圍內(nèi),而且一般的干擾信號模式包含了固定點(diǎn)或者光照變化,因此,在火焰識別的過程中,可以用初始火焰形狀的變化規(guī)則與其進(jìn)行對照。盡管火焰的變化通常呈現(xiàn)出不規(guī)則的特性,然而這種不規(guī)則在形態(tài)、空間分布等方面往往具有某種相似之處,因此,我們可以用連續(xù)圖像的結(jié)構(gòu)相似性來進(jìn)行解析。

五、結(jié)語

各種高新技術(shù)不斷飛躍式發(fā)展,這為我國消防智能化技術(shù)的開發(fā)以及與外國新型消防設(shè)備之間的碰撞提供了一個良好的契機(jī),而消防裝備的智能化已成為一個必然的趨勢。自改革開放至今,我國所研究的有關(guān)裝備智能化領(lǐng)域內(nèi)取得的成果,已經(jīng)為我們打下了堅(jiān)實(shí)的發(fā)展基礎(chǔ),因此我們更應(yīng)該加快消防智能化的進(jìn)程,綜合現(xiàn)有所具備的技術(shù),取其精華去其糟粕,適而用之。由于研究條件和專業(yè)方向的局限,本文對智能消防裝備中的火焰識別技術(shù)仍然存在不足。此次智能消防裝備的研究方向主要是火焰識別領(lǐng)域,以建立模型的方法進(jìn)行測算與研究,而對于理論性知識方面的探討仍存在很大的不足。之后的研究可以從其他方面進(jìn)行深入的探討,探究其對系統(tǒng)化建模會產(chǎn)生哪些方面的影響。

參考文獻(xiàn):

[1]喻麗春,劉金清.基于改進(jìn)MaskR-CNN的火焰圖像識別算法[J].計算機(jī)工程與應(yīng)用,2020,964(21):200-204.

[2]肖堃.多層卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法可移植性分析[J].哈爾濱工程大學(xué)學(xué)報,2020,41(03):420-424.

[3]郭昆.基于卷積神經(jīng)網(wǎng)絡(luò)的建筑風(fēng)格圖像分類的研究[D].武漢理工大學(xué),2017.

[4]徐曉煜.極化合成孔徑雷達(dá)艦船檢測方法研究[D].西安電子科技大學(xué),2017.

[5]黃憶旻.基于圖像檢索的導(dǎo)游系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].蘇州大學(xué),2016.

[6]宋戈.火災(zāi)自動檢測技術(shù)在無人值守變電站中的應(yīng)用[D].沈陽理工大學(xué),2010.

[7]葛勇.基于視頻的火災(zāi)檢測方法研究及實(shí)現(xiàn)[D].湖南大學(xué),2009.

篇3

關(guān)鍵詞:車牌;識別;專利;分析

引言

車牌識別技術(shù)[1-2]是指自動提取受監(jiān)控區(qū)域車輛的車牌信息并進(jìn)行處理的技術(shù),其通過運(yùn)用圖像處理、計算機(jī)視覺、模式識別等技術(shù),對攝像頭捕獲的車輛照片或視頻進(jìn)行分析,進(jìn)而自動識別車輛的車牌號碼。車牌識別技術(shù)可應(yīng)用于停車場自動收費(fèi)管理、道路監(jiān)控等領(lǐng)域,在城市交通管理中發(fā)揮了重要作用。

1 中國專利申請情況分析

以CNABS專利數(shù)據(jù)庫中的檢索結(jié)果為分析樣本,介紹車牌識別技術(shù)的中國專利申請量趨勢以及重要申請人的狀況。

1.1 第一階段(2005年及之前)

在這階段,申請量極少且申請人也極少,且針對的環(huán)境較為簡單,處于技術(shù)的萌芽階段,其中,專利CN1529276,通過車牌定位、字符分割和分類識別完成機(jī)動車牌號自動識別,其實(shí)現(xiàn)過程較為簡單,具體細(xì)節(jié)描述較少。

1.2 第二階段(2006年-2010年)

在這階段的申請量比上一階段有所增加,而且申請人數(shù)量相較之前也有增長,其中來自高校的申請量明顯增加,反映出了高校研究者開始更加注重對研究成果的保護(hù),這一階段的專利所針對的環(huán)境場景更為復(fù)雜,識別準(zhǔn)確率得到提高,對車牌定位、字符分割、字符識別等關(guān)鍵技術(shù)的研究更為深入。

1.3 第三階段(2011年及以后)

在2011年之后車牌識別技術(shù)的專利申請量呈現(xiàn)快速增長,這一階段車牌識別技術(shù)得到了更進(jìn)一步的豐富,涉及的關(guān)鍵技術(shù)的解決途徑也呈現(xiàn)出多樣性,檢測效率和精度也得到進(jìn)一步提高,其中,專利CN104035954A,涉及一種基于Hadoop的套牌車識別方法,將云計算應(yīng)用于車牌識別,使得與傳統(tǒng)環(huán)境下不經(jīng)過優(yōu)化的方法相比具有^高的運(yùn)行效率和加速比,可以有效地識別套牌車。

圖2示出了中國重要申請人分布情況,申請量分布前十的申請人包括:電子科技大學(xué)、深圳市捷順科技實(shí)業(yè)股份有限公司(捷順科技)、浙江宇視科技有限公司(宇視科技)、信幀電子技術(shù)(北京)有限公司(信幀電子)、中國科學(xué)院自動化研究所(自動化研究所)、安徽清新互聯(lián)信息科技有限公司(清新互聯(lián))、青島海信網(wǎng)絡(luò)科技股份有限公司(海信網(wǎng)絡(luò))、浙江工業(yè)大學(xué)、四川川大智勝軟件股份有限公司(川大智勝)、上海高德威智能交通系統(tǒng)有限公司(高德威智能交通),從圖2中可以看出,不同申請人的申請量差距不是很大,幾乎保持在一個比較持平的狀態(tài)。

電子科技大學(xué)在車牌識別技術(shù)的專利申請中,CN 101064011A提出一種基于小波變換的復(fù)雜背景中的車牌提取方法,可大大提高對晴天、雨天、霧天、白天及夜晚等環(huán)境的通用性和適用性,實(shí)現(xiàn)車牌的精確定位并提高車牌提取的準(zhǔn)確度;CN 103455815A提出一種復(fù)雜場景下的自適應(yīng)車牌字符分割方法,能快速、準(zhǔn)確地搜索2、3字符間隔位置,實(shí)現(xiàn)自適應(yīng)調(diào)整分割參數(shù),使車牌字符分割穩(wěn)定可靠,在復(fù)雜的環(huán)境中魯棒性強(qiáng),防止噪聲干擾;CN 105005757A提出一種基于Grassmann流行的車牌字符識別方法,最大限度地利用了已獲得的車牌字符信息以及同類字符之間的相互關(guān)系,對于車牌字符的成像質(zhì)量要求更低,應(yīng)用于復(fù)雜的環(huán)境中具有很好的魯棒性和準(zhǔn)確性。

2 關(guān)鍵技術(shù)分析

一個完整的車牌定位與識別系統(tǒng),其前端包括圖像采集和傳輸系統(tǒng),末端還需要與數(shù)據(jù)庫相連接。從定位到識別的核心算法上,主要包括圖像預(yù)處理、車牌定位、字符分割和字符識別四大部分[3]。

圖像預(yù)處理,是指通過對攝像頭捕獲的彩色圖像進(jìn)行預(yù)處理。常用的預(yù)處理方法包括圖像灰度化、圖像二值化、邊緣檢測等。

車牌定位,是指在經(jīng)預(yù)處理后的車輛圖像中,定位出車輛的車牌所在位置。常用的車牌定位方法包括基于紋理分析的方法、基于數(shù)學(xué)形態(tài)學(xué)的方法、基于邊緣檢測的方法、基于小波變換的方法和基于神經(jīng)網(wǎng)絡(luò)的方法等。CN 104298976A提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的車牌檢測方法,利用卷積神經(jīng)網(wǎng)絡(luò)完整車牌識別模型對車牌粗選區(qū)域進(jìn)行篩選,獲取車牌最終候選區(qū)域。

字符分割,是指將定位出的車牌區(qū)域圖像分割成單個的字符圖像。常用的字符分割方法包括基于輪廓的方法、基于投影的方法、基于模板匹配的方法和基于連通區(qū)域的方法等。CN 104408454A提出一種基于彈性模板匹配算法的車牌字符分割方法,基于彈性模板,通過插空進(jìn)行模板序列形狀的彈性調(diào)整,將車牌圖片與理想模板進(jìn)行匹配,獲得全局最優(yōu)匹配,確定字符位置,將分割算法作用于投影序列,實(shí)現(xiàn)對車牌字符的分割。

字符識別,是指對字符分割之后的單個字符圖像進(jìn)行識別,進(jìn)而得到車輛的車牌號碼。常用的車牌字符識別方法包括基于字符結(jié)構(gòu)特征的識別方法、基于模板匹配的識別方法、基于神經(jīng)網(wǎng)絡(luò)的識別方法、基于模糊理論的模式識別方法和基于支持向量機(jī)分類識別方法等。CN 105975968A提出一種基于Caffe框架的深度學(xué)習(xí)車牌字符識別方法,以基于Caffe架構(gòu)的深度學(xué)習(xí)為基礎(chǔ),解決了現(xiàn)有的車牌字符識別方法中對傾斜、斷裂、相近字符識別精度不高的問題,大大提高了對于車牌字符的識別精度。

3 結(jié)束語

本文以車牌識別相關(guān)專利文獻(xiàn)為樣本,分析統(tǒng)計了該技術(shù)中國專利申請現(xiàn)狀,并對車牌識別技術(shù)的關(guān)鍵技術(shù)進(jìn)行簡單分析。在經(jīng)歷了從無到有、從萌芽到飛速發(fā)展的階段之后,車牌識別技術(shù)慢慢走向成熟,越來越多的企業(yè)和高校在車牌識別的研究上投入了大量的精力,也獲得了豐碩的研究成果。

參考文獻(xiàn)

[1]尹旭.汽車牌照定位研究綜述[J].電腦知識與技術(shù),2010,6(14):3729-3730.

篇4

關(guān)鍵詞人臉識別;特征提取

1人臉識別技術(shù)概述

近年來,隨著計算機(jī)技術(shù)的迅速發(fā)展,人臉自動識別技術(shù)得到廣泛研究與開發(fā),人臉識別成為近30年里模式識別和圖像處理中最熱門的研究主題之一。人臉識別的目的是從人臉圖像中抽取人的個性化特征,并以此來識別人的身份。一個簡單的自動人臉識別系統(tǒng),包括以下4個方面的內(nèi)容:

(1)人臉檢測(Detection):即從各種不同的場景中檢測出人臉的存在并確定其位置。

(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉(zhuǎn)等方面的變化。

(3)人臉表征(FaceRepresentation):采取某種方式表示檢測出人臉和數(shù)據(jù)庫中的已知人臉。

(4)人臉識別(Recognition):將待識別的人臉與數(shù)據(jù)庫中的已知人臉比較,得出相關(guān)信息。

2人臉識別算法的框架

人臉識別算法描述屬于典型的模式識別問題,主要有在線匹配和離線學(xué)習(xí)兩個過程組成,如圖1所示。

圖1一般人臉識別算法框架

在人臉識別中,特征的分類能力、算法復(fù)雜度和可實(shí)現(xiàn)性是確定特征提取法需要考慮的因素。所提取特征對最終分類結(jié)果有著決定性的影響。分類器所能實(shí)現(xiàn)的分辨率上限就是各類特征間最大可區(qū)分度。因此,人臉識別的實(shí)現(xiàn)需要綜合考慮特征選擇、特征提取和分類器設(shè)計。

3人臉識別的發(fā)展歷史及分類

人臉識別的研究已經(jīng)有相當(dāng)長的歷史,它的發(fā)展大致可以分為四個階段:

第一階段:人類最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。

J.S.Bruner于1954年寫下了關(guān)于心理學(xué)的Theperceptionofpeople,Bledsoe在1964年就工程學(xué)寫了FacialRecognitionProjectReport,國外有許多學(xué)校在研究人臉識別技術(shù)[1],其中有從感知和心理學(xué)角度探索人類識別人臉機(jī)理的,如美國TexasatDallas大學(xué)的Abdi和Tool小組[2、3],由Stirling大學(xué)的Bruce教授和Glasgow大學(xué)的Burton教授合作領(lǐng)導(dǎo)的小組等[3];也有從視覺機(jī)理角度進(jìn)行研究的,如英國的Graw小組[4、5]和荷蘭Groningen大學(xué)的Petkov小組[6]等。

第二階段:關(guān)于人臉的機(jī)器識別研究開始于二十世紀(jì)七十年代。

Allen和Parke為代表,主要研究人臉識別所需要的面部特征。研究者用計算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識別過程全部依賴于操作人員,不是一種可以完成自動識別的系統(tǒng)。

第三階段:人機(jī)交互式識別階段。

Harmon和Lesk用幾何特征參數(shù)來表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設(shè)計了基于這一特征表示法的識別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計識別方法,用歐氏距離來表征人臉特征。但這類方法需要利用操作員的某些先驗(yàn)知識,仍然擺脫不了人的干預(yù)。

第四階段:20世紀(jì)90年代以來,隨著高性能計算機(jī)的出現(xiàn),人臉識別方法有了重大突破,才進(jìn)入了真正的機(jī)器自動識別階段。在用靜態(tài)圖像或視頻圖像做人臉識別的領(lǐng)域中,國際上形成了以下幾類主要的人臉識別方法:

1)基于幾何特征的人臉識別方法

基于幾何特征的方法是早期的人臉識別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時往往要用到人臉結(jié)構(gòu)的一些先驗(yàn)知識。識別所采用的幾何特征是以人臉器官的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,本質(zhì)上是特征矢量之間的匹配,其分量通常包括人臉指定兩點(diǎn)間的歐式距離、曲率、角度等。

基于幾何特征的識別方法比較簡單、容易理解,但沒有形成統(tǒng)一的特征提取標(biāo)準(zhǔn);從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時;對較大的表情變化或姿態(tài)變化的魯棒性較差。

2)基于相關(guān)匹配的方法

基于相關(guān)匹配的方法包括模板匹配法和等強(qiáng)度線方法。

①模板匹配法:Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,并得出結(jié)論:基于幾何特征的人臉識別方法具有識別速度快和內(nèi)存要求小的優(yōu)點(diǎn),但在識別率上模板匹配要優(yōu)于基于幾何特征的識別方法。

②等強(qiáng)度線法:等強(qiáng)度線利用灰度圖像的多級灰度值的等強(qiáng)度線作為特征進(jìn)行兩幅人臉圖像的匹配識別。等強(qiáng)度曲線反映了人臉的凸凹信息。這些等強(qiáng)度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實(shí)形狀的等強(qiáng)度線。

3)基于子空間方法

常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨(dú)立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴(kuò)展到混合線性子空間和非線性子空間。

Turk等[11]采用本征臉(Eigenfaces)方法實(shí)現(xiàn)人臉識別。由于每個本征矢量的圖像形式類似于人臉,所以稱本征臉。對原始圖像和重構(gòu)圖像的差分圖像再次進(jìn)行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對于眼、鼻和嘴等特征分別建立一個本征子空間,并聯(lián)合本征臉子空間的方法獲得了好的識別結(jié)果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉方法的識別結(jié)果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識別效果好于本征臉方法。當(dāng)每個人有多個樣本圖像時,本征空間法沒有考慮樣本類別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識別結(jié)果。Bartlett等[18]采用獨(dú)立分量分析(ICA,IndependentComponentAnalysis)的方法識別人臉,獲得了比PCA方法更好的識別效果。

4)基于統(tǒng)計的識別方法

該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。

①KL變換:將人臉圖像按行(列)展開所形成的一個高維向量看作是一種隨機(jī)向量,因此采用K-L變換獲得其正交K-L基底,對應(yīng)其中較大特征值基底具有與人臉相似的形狀。國外,在用靜態(tài)圖像或視頻圖像做人臉識別的領(lǐng)域中,比較有影響的有MIT的Media實(shí)驗(yàn)室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。

②隱馬爾可夫模型:劍橋大學(xué)的Samaria和Fallside[20]對多個樣本圖像的空間序列訓(xùn)練出一個HMM模型,它的參數(shù)就是特征值;基于人臉從上到下、從左到右的結(jié)構(gòu)特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識別。Kohir等[22]采用低頻DCT系數(shù)作為觀察矢量獲得了好的識別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識別人臉[24],如圖2(b)所示。后來集成coupledHMM和HMM通過對超狀態(tài)和各嵌入狀態(tài)采用不同的模型構(gòu)成混合系統(tǒng)結(jié)構(gòu)[25]。

基于HMM的人臉識別方法具有以下優(yōu)點(diǎn):第一,能夠允許人臉有表情變化,較大的頭部轉(zhuǎn)動;第二,擴(kuò)容性好.即增加新樣本不需要對所有的樣本進(jìn)行訓(xùn)練;第三,較高的識別率。

(a)(b)

圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型

5)基于神經(jīng)網(wǎng)絡(luò)的方法

Gutta等[26]提出了混合神經(jīng)網(wǎng)絡(luò)、Lawrence等[27]通過一個多級的SOM實(shí)現(xiàn)樣本的聚類,將卷積神經(jīng)網(wǎng)絡(luò)CNN用于人臉識別、Lin等[28]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)方法、Demers等[29]提出采用主元神經(jīng)網(wǎng)絡(luò)方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進(jìn)一步壓縮特征,最后采用一個MLP來實(shí)現(xiàn)人臉識別。Er等[30]采用PCA進(jìn)行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進(jìn)行人臉識別。Haddadnia等[31]基于PZMI特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識別。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢是通過學(xué)習(xí)的過程獲得對這些規(guī)律和規(guī)則的隱性表達(dá),它的適應(yīng)性較強(qiáng)。

6)彈性圖匹配方法

Lades等提出采用動態(tài)鏈接結(jié)構(gòu)(DLA,DynamicLinkArchitecture)[32]的方法識別人臉。它將人臉用格狀的稀疏圖如圖3所示。

圖3人臉識別的彈性匹配方法

圖3中的節(jié)點(diǎn)用圖像位置的Gabor小波分解得到的特征向量標(biāo)記,圖的邊用連接節(jié)點(diǎn)的距離向量標(biāo)記。Wiskott等人使用彈性圖匹配方法,準(zhǔn)確率達(dá)到97.3%。Wiskott等[33]將人臉特征上的一些點(diǎn)作為基準(zhǔn)點(diǎn),構(gòu)成彈性圖。采用每個基準(zhǔn)點(diǎn)存儲一串具有代表性的特征矢量,減少了系統(tǒng)的存儲量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進(jìn)一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個多層的分級結(jié)構(gòu)。Grudin等[35]也采用分級結(jié)構(gòu)的彈性圖,通過去除了一些冗余節(jié)點(diǎn),形成稀疏的人臉描述結(jié)構(gòu)。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表(x,y,I(x,y)),將人臉匹配問題轉(zhuǎn)換為曲面匹配問題,利用有限分析的方法進(jìn)行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識別人臉。

7)幾種混合方法的有效性

(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。

K-L變換的核心過程是計算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當(dāng)圖像有小的擾動時,奇異值的變化不大。奇異值表示了圖像的代數(shù)特征,在某種程度上,SVD特征同時擁有代數(shù)與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對人臉進(jìn)行識別,提高識別的準(zhǔn)確性[37]。

(2)HMM和奇異值分解相融合的分類判別方法。

采用奇異值分解方法進(jìn)行特征提取,一般是把一幅圖像(長為H)看成一個N×M的矩陣,求取其奇異值作為人臉識別的特征。在這里我們采用采樣窗對同一幅圖片進(jìn)行重疊采樣(如圖4),對采樣所得到的矩陣分別求其對應(yīng)的前k個最大的奇異值,分別對每一組奇異值進(jìn)行矢量標(biāo)準(zhǔn)化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。

圖4采樣窗采樣

綜合上述論文中的實(shí)驗(yàn)數(shù)據(jù)表明[39],如表1:

表1人臉識別算法比較

8)基于三維模型的方法

該類方法一般先在圖像上檢測出與通用模型頂點(diǎn)對應(yīng)的特征點(diǎn),然后根據(jù)特征點(diǎn)調(diào)節(jié)通用模型,最后通過紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結(jié)構(gòu)光源和立體視覺理論,通過攝像機(jī)獲取立體圖像,根據(jù)圖像特征點(diǎn)之間匹配構(gòu)造人臉的三維表面,如圖5所示。

圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型

Zhao[41]提出了一個新的SSFS(SymetricShape-from-Shading)理論來處理像人臉這類對稱對象的識別問題,基于SSFS理論和一個一般的三維人臉模型來解決光照變化問題,通過基于SFS的視圖合成技術(shù)解決人臉姿態(tài)問題,針對不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。

三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數(shù)的方法[45]。其中,基于模型可變參數(shù)的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點(diǎn)的坐標(biāo),而前者只需調(diào)整3D變形模型的參數(shù)。三維重建的系統(tǒng)框圖,如圖7所示。

圖7三維建模的系統(tǒng)框圖

三維人臉建模、待識別人臉的姿態(tài)估計和識別匹配算法的選取是實(shí)現(xiàn)三維人臉識別的關(guān)鍵技術(shù)。隨著采用三維圖像識別人臉技術(shù)的發(fā)展,利用直線的三維圖像信息進(jìn)行人臉識別已經(jīng)成為人們研究的重心。

4總結(jié)與展望

人臉自動識別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實(shí)際應(yīng)用中仍然面臨困難,不僅要達(dá)到準(zhǔn)確、快速的檢測并分割出人臉部分,而且要有效的變化補(bǔ)償、特征描述、準(zhǔn)確的分類的效果,還需要注重和提高以下幾個方面:

(1)人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進(jìn)一步深入研究,以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。

(2)多特征融合和多分類器融合的方法也是改善識別性能的一個手段。

(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準(zhǔn)確的人臉識別仍較困難。為了滿足自動人臉識別技術(shù)具有實(shí)時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術(shù)的融合方法。

(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對各種變化因素采用模擬或補(bǔ)償?shù)姆椒ň哂休^好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統(tǒng)識別算法的基礎(chǔ)上改進(jìn)和創(chuàng)新。

(5)表面紋理識別算法是一種最新的算法[52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。

總之,人臉識別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識別效果,如何與其它技術(shù)相結(jié)合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實(shí)現(xiàn),如何實(shí)用化都是將來值得研究的。

參考文獻(xiàn)

[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411

[2]張翠萍,蘇光大.人臉識別技術(shù)綜述.中國圖像圖形學(xué)報,2000,5(11):885-894

[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67

[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86

[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464

[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640

[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95

[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136

[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553

[10]HaddadniaJ,AhmadiM,F(xiàn)aezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16

[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311

[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191

[13]羊牧.基于KL投影和奇異值分解相融合人臉識別方法的研究[D].四川大學(xué).2004,5,1

[14]白冬輝.人臉識別技術(shù)的研究與應(yīng)用[D].北方工業(yè)大學(xué).2006,5

篇5

關(guān)鍵詞:語音情感識別;情感描述模型;情感特征;語音情感庫;域適應(yīng)

DOIDOI:10.11907/rjdk.161498

中圖分類號:TP391

文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2016)009014303

作者簡介作者簡介:薛文韜(1991-),男,江蘇常熟人,江蘇大學(xué)計算機(jī)科學(xué)與通信工程學(xué)院碩士研究生,研究方向?yàn)檎Z音情感識別。

0引言

1997年,美國麻省理工學(xué)院的Picard教授提出了情感計算(Affective Computing)的概念。情感計算作為計算機(jī)科學(xué)、神經(jīng)科學(xué)、心理學(xué)等多學(xué)科交叉的新興研究領(lǐng)域,已成為人工智能的重要發(fā)展方向之一。而語音情感識別作為情感計算的一個重要分支,亦引起了廣泛關(guān)注。

許多國內(nèi)外知名大學(xué)和科研機(jī)構(gòu)也開始語音情感識別研究,國外如美國麻省理工學(xué)院Picard教授領(lǐng)導(dǎo)的情感計算研究小組,德國慕尼黑工業(yè)大學(xué)Schuller教授領(lǐng)導(dǎo)的人機(jī)語音交互小組等;國內(nèi)如清華大學(xué)的人機(jī)交互與媒體集成研究所、西北工業(yè)大學(xué)音頻、語音與語言處理組等。

1語音情感識別

語音情感識別系統(tǒng)主要由前端和后端兩部分組成。前端用于提取特征,后端基于這些特征設(shè)計分類器。在語音相關(guān)應(yīng)用中,運(yùn)用比較多的分類器是支持向量機(jī)和隱馬爾科夫模型。目前,語音情感識別的重點(diǎn)主要集中于特征提取。在傳統(tǒng)的語音情感識別中,如何提取具有判別性的特征已成為研究的重點(diǎn)。隨著數(shù)據(jù)的大規(guī)模增長,傳統(tǒng)語音情感識別的前提(訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有相同的數(shù)據(jù)分布)已不能夠被滿足,研究者提出了遷移學(xué)習(xí)的概念,利用域適應(yīng)方法來解決跨庫的語音情感識別。

本文將從情感描述模型、語音情感特征、語音情感庫、語音情感挑戰(zhàn)賽這4個方面對語音情感研究現(xiàn)狀進(jìn)行總結(jié),并給出現(xiàn)存語音情感識別的技術(shù)挑戰(zhàn)及相應(yīng)的研究方法。

2情感描述模型

目前主要從離散情感和維度情感兩個方面來描述情感狀態(tài)。

離散情感描述,主要把情感描述成離散的形式,是人們?nèi)粘I钪袕V泛使用的幾種情感,也稱為基本情感。在當(dāng)前情感相關(guān)研究領(lǐng)域使用最廣泛的六大基本情感是生氣、厭惡、恐懼、高興、悲傷和驚訝。

相對于離散情感描述,維度情感描述使用連續(xù)的數(shù)值來描述情感狀態(tài),因此也稱作連續(xù)情感描述。它把情感狀態(tài)視作多維情感空間中的點(diǎn),每個維度都對應(yīng)情感的不同心理學(xué)屬性。常用的維度情感模型是二維的激活度-效價(Arousal-Valence)模型,其二維空間如圖1所示。其中橫軸表示效價屬性(Valence),用于衡量情感的正負(fù)面程度;而縱軸表示激活程度(Arousal),用于描述情感狀態(tài)的喚醒程度。通過不同的效價度和激活程度,就能區(qū)分出不同的情感,比如悲傷與生氣兩種負(fù)面情緒雖然效價相差無異,但兩者的激活度卻有很大差異。

3語音情感特征

傳統(tǒng)的語音情感特征可粗略地分為基于聲學(xué)的情感特征和基于語義的情感特征。基于聲學(xué)的情感特征又分為3類:韻律學(xué)特征、音質(zhì)特征以及頻譜特征[1]。音高、能量、基頻和時長等是最為常用的韻律學(xué)特征,由于韻律學(xué)特征具有較強(qiáng)的情感辨別能力,已經(jīng)得到了研究者們的廣泛認(rèn)同。音質(zhì)特征主要有呼吸聲、明亮度特征和共振峰等,語音中所表達(dá)的情感狀態(tài)被認(rèn)為與音質(zhì)有著很大的相關(guān)性。頻譜特征主要包括線性譜特征和倒譜特征,線性譜特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒譜特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于這3類語音特征的不同語段長度的統(tǒng)計特征是目前使用最為普遍的特征參數(shù)之一,如特征的平均值、變化率、變化范圍等。然而到底什么特征才最能體現(xiàn)語音情感之間的差異,目前還沒有統(tǒng)一的說法。

在2009年首次舉辦的國際語音情感挑戰(zhàn)INTERSPEECH 2009 Emotion Challenge(EC)的分類器子挑戰(zhàn)中,組織者為參賽者提供了一個基本特征集,選擇了在韻律學(xué)特征、音質(zhì)特征和頻譜特征中廣泛使用的特征和函數(shù),包括16個低層描述子(Low-Level Descriptors,LLDs)和12個函數(shù),構(gòu)建了一個384維的特征向量[2]。具體的16個低層描述子和12個函數(shù)如表1所示。

4語音情感庫

語音情感庫作為語音情感識別的前提條件,影響著最終語音情感識別系統(tǒng)的性能。目前,在語音情感庫的建立方面還沒有統(tǒng)一的標(biāo)準(zhǔn),已構(gòu)建的情感語音庫多種多樣,在語言、情感表現(xiàn)方式(表演型(acted)、引導(dǎo)型(elicited),自發(fā)型(naturalistic))、情感標(biāo)記方案(離散情感或者維度情感)、聲學(xué)信號條件、內(nèi)容等方面具有很大差異。從情感表現(xiàn)方式而言,表演型情感一般是讓職業(yè)演員以模仿的方式表現(xiàn)出相應(yīng)的情感狀態(tài),雖然說話人被要求盡量表達(dá)出自然的情感,但刻意模仿的情感還是顯得更加夸大,使得不同情感類別之間的差異性比較明顯,這方面的語音情感庫有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期對語音情感識別的研究都是基于表演型語料庫,隨著人們意識到引導(dǎo)型情感具有更加自然的情感表達(dá)之后,研究者們開始基于引導(dǎo)型情感庫進(jìn)行研究,比如eNTERFACE[5]。隨著研究的深入,迫切需要一些自發(fā)的語音情感數(shù)據(jù),目前出現(xiàn)了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的幾個語音情感庫如表2所示,描述了他們在年齡、語言、情感、樣本個數(shù)、記錄環(huán)境和采樣率之間的差異。

5語音情感挑戰(zhàn)賽

雖然已經(jīng)有很多研究致力于語音情感識別,但是相對于其它語音任務(wù)(如自動語音識別和說話人識別)而言,語音情感識別中還不存在標(biāo)準(zhǔn)的語音情感庫和統(tǒng)一的測試條件用于在相同條件下進(jìn)行性能比較。同時,為了處理更加現(xiàn)實(shí)的場景,需要獲得自然的語音情感數(shù)據(jù)。國際語音情感挑戰(zhàn)INTERSPEECH 2009 EC旨在彌補(bǔ)出色的語音情感識別研究和結(jié)果可比性之間的缺陷,它提供了自然的語音情感庫FAU AEC,以及開源工具包openEAR來提取基本的384維特征集,保證了特征的透明性,從而使得結(jié)果具有重現(xiàn)性和可比性[9]。FAU AEC庫包括了德國兩個學(xué)校(Ohm和Mont)10~13歲的孩子與索尼公司的機(jī)器狗Aibo進(jìn)行交互的語音數(shù)據(jù)。為了實(shí)現(xiàn)說話人獨(dú)立的語音情感識別,通常學(xué)校Ohm記錄的數(shù)據(jù)用于訓(xùn)練,而Mont記錄的數(shù)據(jù)用于測試。INTERSPEECH 2009 EC的情感分類任務(wù)主要包括2類情感(負(fù)面情感、所有其它情感)分類和5類情感(生氣、同情、積極、中立和其它)分類,目前已有很多研究基于FAU AEC庫進(jìn)行情感分類。除了在FAU AEC庫上進(jìn)行傳統(tǒng)的語音情感識別外,隨著跨庫語音情感識別研究的深入,很多研究者也將FAU AEC作為目標(biāo)域數(shù)據(jù)庫進(jìn)行域適應(yīng)的研究。

6語音情感識別的主要挑戰(zhàn)

6.1語音情感特征

在傳統(tǒng)語音情感識別中,提取具有判別性的特征已經(jīng)成為一個重要的研究方向。在情感特征提取過程中,通常存在一些與情感無關(guān)的因素,如說話內(nèi)容、說話人、環(huán)境等,這些不相關(guān)的因素將會使得提取到的特征包含這些因素方面的變化,從而影響情感分類性能。

目前已有部分研究開始考慮這些與情感無關(guān)因素的影響。同時,隨著深度學(xué)習(xí)的提出與發(fā)展,越來越多的研究者開始使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。Chao等[10]利用無監(jiān)督預(yù)訓(xùn)練去噪自動編碼器,減少了情感特征中說話人的影響。Mao等[11]提出了半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)模型,提取情感相關(guān)特征,通過實(shí)驗(yàn)證明其對說話人的變化、環(huán)境的滋擾以及語言變化都有很強(qiáng)的魯棒性。Mariooryad 等[12]對特征構(gòu)建音素層次的彈道模型,從聲學(xué)特征中分解出說話人的特性,從而彌補(bǔ)說話人對語音情感識別的影響。

6.2跨庫的語音情感識別

在傳統(tǒng)的語音情感識別中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)一般來自同一個語料庫或者具有相同的數(shù)據(jù)分布。隨著數(shù)據(jù)的爆炸式增長,從不同設(shè)備和環(huán)境下獲得的語音數(shù)據(jù)通常在語言、情感表現(xiàn)方式、情感標(biāo)記方案、聲學(xué)信號條件、內(nèi)容等方面存在很大差異,這就造成了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布的不同,傳統(tǒng)的語音情感識別方法就不再適用。

近年來,遷移學(xué)習(xí)(Transfer Learning)的概念被提出,指從一個或多個源域中將有用的信息遷移到相關(guān)的目標(biāo)域,以幫助改善目標(biāo)域的分類性能[13]。域適應(yīng)(Domain Adaptation)作為一種特殊的遷移學(xué)習(xí),已成功應(yīng)用于跨庫的語音情感識別。Deng等[14]提出一種共享隱藏層自動編碼器(shared-hidden-layer autoencoder,SHLA)模型,相較于傳統(tǒng)的自動編碼器,SHLA的輸入數(shù)據(jù)包含了源域和目標(biāo)域兩類數(shù)據(jù),讓兩個域的數(shù)據(jù)共用編碼部分而解碼部分不同,目的是誘使兩個域的數(shù)據(jù)在隱藏層空間具有相似的數(shù)據(jù)分布。Huang等[15]利用PCANet沿著從源域到目標(biāo)域的路徑提取特征,并用目標(biāo)域空間來調(diào)整路徑上的特征,以此彌補(bǔ)域之間的差異。

參考文獻(xiàn)參考文獻(xiàn):

[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.

[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.

[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.

[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.

[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE'05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.

[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.

[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.

[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.

[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR―introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.

[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.

[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.

[12]MARIOORYAD S,BUSSO pensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.

[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.

篇6

關(guān)鍵詞:紅棗(Ziziphus zizyphus);邊緣檢測;分級

中圖分類號:S665.1;TP751.1文獻(xiàn)標(biāo)識碼:A文章編號:0439-8114(2014)10-2427-04

Grading Red Dates Based on the Size from Image Edge Detection

YAO Na,WU Gang,CHEN Jie

(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)

Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.

Key words:red dates(Ziziphus zizyphus); edge detection; grading

基金項(xiàng)目:新疆生產(chǎn)建設(shè)兵團(tuán)青年科技創(chuàng)新資金專項(xiàng)(2013CB020)

新疆地區(qū)紅棗品種較多,有的品種含糖量高達(dá)34%,其營養(yǎng)豐富,受到人們的喜愛。目前,紅棗品種越來越多,其產(chǎn)量及銷售量也越來越高,紅棗采集后對其進(jìn)行分類是加工過程中很重要的工作環(huán)節(jié),最初的分揀都是由人工完成,一方面需要大量的人力資源;另一方面不能保證產(chǎn)品的安全。隨著科學(xué)技術(shù)的發(fā)展,農(nóng)業(yè)機(jī)械化的應(yīng)用越來越廣泛,研究者將重點(diǎn)關(guān)注紅棗自動分級,可以節(jié)省人力而實(shí)現(xiàn)農(nóng)業(yè)自動化。李湘萍[1]介紹了紅棗分級機(jī)的工作原理;張保生等[2]將紅棗的形狀特征、顏色特征和紋理特征通過BP網(wǎng)絡(luò)算法進(jìn)行自動分級;趙文杰等[3]提出了以顏色作為特征利用支持向量機(jī)的方法進(jìn)行紅棗的缺陷識別,識別率可達(dá)96.2%;肖愛玲[4]對幾種典型的紅棗分級機(jī)的結(jié)構(gòu)進(jìn)行了介紹;肖愛玲等[5]對2011年前紅棗的分級技術(shù)及研究現(xiàn)狀進(jìn)行了總結(jié);沈從舉等[6]對紅棗分級機(jī)的研究狀態(tài)和應(yīng)用方法進(jìn)行了歸納。

目前,基于計算機(jī)視覺的方法具有智能化、精度高、損傷小等優(yōu)點(diǎn),該方法的核心部分在于選取什么特征以及利用何種算法對紅棗進(jìn)行判斷。研究者提出的方法具有一個共同特點(diǎn)是特征選取較多,比如同時提取顏色特征、形狀特征和紋理特征,因此計算量較大,分級機(jī)的設(shè)計組成對信息處理的硬件部分有較高的要求,在紅棗分級機(jī)的設(shè)計中存在兩方面的問題:一方面成本較高;另一方面硬件達(dá)不到設(shè)計的要求。小波變換對噪聲不敏感,邊緣檢測清晰,所以有不少研究者將不同的小波變換方法[7-10]應(yīng)用在圖像邊緣檢測中,經(jīng)仿真試驗(yàn)證明也適合應(yīng)用在紅棗的邊緣檢測中。因此,本研究提出一種簡單的分級方法來對紅棗進(jìn)行分級,即以提取紅棗的邊緣特征,只有形狀特征,應(yīng)用小波變換的算法,減少了計算量。

1材料與方法

1.1材料

紅棗品種為新疆阿拉爾地區(qū)種植的駿棗,已經(jīng)過人為的挑揀,測試結(jié)果得分為優(yōu)等級的個數(shù)較多。

1.2檢測方法

在無腐爛的情況下,個體較大、飽滿的紅棗可分到較高的級別中,可用邊緣檢測方法對紅棗的邊緣進(jìn)行檢測,然后根據(jù)檢測出的邊緣再計算紅棗的面積,面積大于某一設(shè)定閾值的紅棗為優(yōu)等級,其余為低級。

1.3小波邊緣檢測

小波變換可以解決時域和頻域的矛盾,可以將信號進(jìn)行更精確地分析。圖像中的邊緣點(diǎn)為灰度變化較大的像素點(diǎn),即一階微分極大值點(diǎn)或者二階微分過零點(diǎn)。圖像邊緣檢測可以通過小波的奇異性來檢測。設(shè)θ(x,y)為一個平滑的二維函數(shù),在考慮尺度參數(shù)的情況下,θa(x,y)=■■,■,那么二維小波的定義[11]為:

ψx(x,y)=■

ψy(x,y)=■

用矢量形式表示二維小波變換:

a■+■

=af■(x,y)■+f■(x,y)■

=af(x,y)[ψx(x,y)■+ψy(x,y)■]

=a[(fψx)(x,y)■+(fψy)(x,y)■]

=Wxa f(x,y)■+Wya f(x,y)■

=aΔ(fθa)(x,y)

fθa(x,y)表示圖像f(x,y)與平滑函數(shù)θa(x,y)卷積后的平滑圖像。梯度矢量的模值為:

■ (3)

梯度矢量與水平方向的夾角為:

α=Arg[Wa(x,y)]

=arctan■(4)

確定梯度矢量的模值極值后,再經(jīng)過閾值的處理,可以得到圖像的邊緣,不同的a可以實(shí)現(xiàn)多個不同尺度的檢測。圖像中目標(biāo)的方向性是重要的特征之一,作為小波的改進(jìn)方向,小波的應(yīng)用成為了一個研究熱點(diǎn),它能有較好的方向性分析,體現(xiàn)了圖像的方向性。任意方向小波變換[12]的定義為:(假設(shè)γ=0,θ∈[0,π)]

Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)

=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ

=||Wa f(x,y)||■?

cosθ+■sinθ (5)

=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))?

cosθ+sin(Arg[Wa f(x,y)])sinθ

=||Wa f(x,y)||(cosαcosθ+sinαsinθ)

=||Wa f(x,y)||cos(α-θ)

運(yùn)用小波方法對紅棗進(jìn)行邊緣檢測,為紅棗分級檢測解決基礎(chǔ)性的第一步難題,同時也用經(jīng)典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子對紅棗進(jìn)行邊緣檢測以便比較分析各自的特點(diǎn)。

1.4分級檢測的過程

檢測紅棗邊緣后需要對紅棗的面積進(jìn)行計算,通過對邊緣點(diǎn)的長度進(jìn)行計算可以得出邊緣的長度,將紅棗的形狀假設(shè)為圓形,可以用圓周長將圓面積求出,即可以求出紅棗的面積。假設(shè)計算檢測出邊緣點(diǎn)的長度,紅棗的面積近似為:

s=■ (6)

因?yàn)檎麄€過程屬于比較過程,所以進(jìn)行近似計算不影響相對的比較。

整個分級檢測的仿真試驗(yàn)步驟為:

1)讀入紅棗圖像,將彩色RGB圖像轉(zhuǎn)為灰度圖像;

2)對紅棗灰度圖像求出小波變換的模值和梯度矢量與水平方向的夾角;

3)在水平方向、垂直方向、-45°方向和+45°方向4個方向上進(jìn)行搜索判斷模值和梯度方向的條件得到邊緣值,將得到的邊緣值進(jìn)行歸一化,設(shè)定閾值為0.18來判斷紅棗圖像的邊緣;

4)計算紅棗的邊緣長度,確定紅棗邊緣長度的閾值;

5)根據(jù)公式(6)計算紅棗的面積;大于邊緣長度閾值的對應(yīng)面積閾值的紅棗判定為優(yōu)良等級的紅棗,否則為較差等級的紅棗。

針對不同的分級機(jī)的機(jī)械設(shè)計,紅棗面積的閾值的確定可以根據(jù)兩種方式:一種方式是針對分級機(jī)單個讀取紅棗圖像并直接進(jìn)行分級挑揀的情況,閾值根據(jù)經(jīng)驗(yàn)值來確定,比如某種品種的紅棗大小是在固定范圍內(nèi)波動,預(yù)先設(shè)定固定的閾值來進(jìn)行分級挑揀;另一種方式是針對分級機(jī)進(jìn)行大量紅棗圖像同時進(jìn)行讀取時,遍歷全部紅棗圖像,找到最大面積的紅棗,然后閾值設(shè)定為最大值的80%,大于該閾值的紅棗判定為優(yōu)等級,否則判定為較差等級。

2結(jié)果與分析

仿真試驗(yàn)中分別對單個紅棗和兩個紅棗為例進(jìn)行小波的邊緣檢測,并且將小波檢測結(jié)果與Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子檢測結(jié)果進(jìn)行分析對比。

2.1 單個紅棗檢測結(jié)果

圖1為理想的情況,即一個紅棗全部被讀入沒有遮蓋的情況,也是正常情況下的邊緣檢測。由圖1可以看出,小波方法檢測出的曲線較少,輪廓清晰,輪廓線的連續(xù)性好,一方面有利于邊緣長度的計算;另一方面減少了曲線個數(shù)的計算,減少了整個方法的計算量。Sobel算子檢測出的紅棗圖像與小波的方法相比較,噪點(diǎn)較多,定位精度不夠高,邊緣比較模糊;Canny算子檢測到的邊緣雖然比較連續(xù),但是出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計算紅棗大小時會增加計算量,并且容易出錯;Prewitt算子和Roberts算子的檢測結(jié)果類似于Sobel算子的檢測結(jié)果,并且Roberts算子的檢測結(jié)果中邊緣斷點(diǎn)較多,給計算紅棗的長度帶來困難;Log算子的檢測結(jié)果邊緣較為連續(xù),有少量斷點(diǎn),與小波方法相比較紅棗內(nèi)部的噪點(diǎn)較多,復(fù)雜度僅次于Canny算子的方法檢測出的結(jié)果。根據(jù)邊緣檢測的效果和計算復(fù)雜度以及后期需要的算法的復(fù)雜度來比較這幾種方法的優(yōu)劣順序?yàn)樾〔?、Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。

2.2兩個有遮蓋的紅棗檢測結(jié)果

圖2為遮蓋的情況,因此單個紅棗的邊緣不能完全檢測出,但是根據(jù)周長閾值的比較結(jié)果,同樣可以算出單個紅棗的面積。由圖2可以看出,小波方法對于有遮蓋的紅棗檢測仍是輪廓清晰且連續(xù)性好,內(nèi)部曲線較少。Sobel算子檢測出的紅棗圖像與小波的方法相比較,噪點(diǎn)較多,邊緣斷點(diǎn)較多,邊緣比較模糊;Canny算子檢測到的邊緣過于模糊且斷點(diǎn)較多,還出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計算紅棗大小時對后期的算法要求較高,且容易出現(xiàn)錯誤結(jié)果;Prewitt算子和Roberts算子的檢測結(jié)果類似于Sobel算子的檢測結(jié)果,Roberts算子的檢測結(jié)果中邊緣較為清楚;Log算子的檢測結(jié)果邊緣斷點(diǎn)較多,與小波方法相比較紅棗內(nèi)部的噪點(diǎn)較多,復(fù)雜度僅次于Canny算子的方法檢測出的結(jié)果。根據(jù)邊緣檢測的結(jié)果和計算復(fù)雜度以及后期算法的復(fù)雜度來比較這幾種方法的優(yōu)劣順序?yàn)樾〔āoberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。對于單個和兩個紅棗進(jìn)行檢測的仿真結(jié)果都說明:較于其他5種算子,小波方法均是最優(yōu)的。

研究中采集的紅棗圖像大小為442×398像素,閾值采用經(jīng)驗(yàn)值,實(shí)際的周長閾值映射到圖像中的周長為1 084像素,仿真試驗(yàn)結(jié)果判定為準(zhǔn)確可行,試驗(yàn)結(jié)果見表1。

3小結(jié)與討論

隨著自動化技術(shù)在農(nóng)業(yè)產(chǎn)品中應(yīng)用越來越廣泛,其理論研究的方法也越來越多,從計算機(jī)視覺領(lǐng)域結(jié)合農(nóng)業(yè)自動化技術(shù)提出了對紅棗加工有促進(jìn)作用的紅棗自動分級的核心方法,對于紅棗生產(chǎn)的地區(qū)有重要意義。研究提出了利用方向小波方法對紅棗圖像進(jìn)行邊緣檢測進(jìn)而計算紅棗大小來對紅棗分級的方法,經(jīng)仿真試驗(yàn)證明小波變換方法的優(yōu)越性及整個方法的有效性和快速性。此研究是在假設(shè)紅棗無腐爛的情況下進(jìn)行分級的,所以有一定的局限性,但在下一步研究中可以彌補(bǔ)此點(diǎn)的不足,設(shè)置多個閾值可以將紅棗進(jìn)行多個等級的分揀。

參考文獻(xiàn):

[1] 李湘萍.6ZF-0.5型紅棗分級機(jī)的試驗(yàn)研究[J].山西農(nóng)機(jī),2000(14):3-5.

[2] 張保生,姚瑞央.基于BP神經(jīng)網(wǎng)絡(luò)算法的紅棗分級技術(shù)應(yīng)用[J].廣東農(nóng)業(yè)科學(xué),2010(11):282-283.

[3] 趙杰文,劉少鵬,鄒小波.基于機(jī)器視覺和支持向量機(jī)的缺陷棗的識別研究[J].農(nóng)業(yè)機(jī)械學(xué)報,2008,39(3):113-115.

[4] 肖愛玲.幾種典型的紅棗分級機(jī)[J].新疆農(nóng)機(jī)化,2010(4):10-11.

[5] 肖愛玲,李偉.我國紅棗分級技術(shù)及紅棗分級機(jī)研究現(xiàn)狀[J].農(nóng)機(jī)化研究,2011(11):241-244.

[6] 沈從舉,賈首星,鄭炫,等.紅棗分級機(jī)械的現(xiàn)狀與發(fā)展[J].中國農(nóng)機(jī)化學(xué)報,2013,34(1):26-30.

[7] 宋文龍,閔昆龍,邢奕,等.基于小波變換的自適應(yīng)閾值植物根系圖像邊緣檢測[J].北京科技大學(xué)學(xué)報,2012,34(8):966-970.

[8] 王敬東,徐亦斌,.圖像小波邊緣檢測中邊界處理的研究[J].計算機(jī)工程,2007,33(5):161-163.

[9] 鮑雄偉.小波變換在圖像邊緣檢測中的應(yīng)用[J].電子設(shè)計工程,2012,20(14):160-162.

[10] 薄勝坤,張麗英.一種基于小波變換和Canny算子相結(jié)合的邊緣檢測方法[J].長春大學(xué)學(xué)報,2012,22(10):1177-1180.

篇7

行人再識別指的是在非重疊監(jiān)控視頻中,檢索某個監(jiān)控視頻中出現(xiàn)的目標(biāo)是否出現(xiàn)在其它的監(jiān)控視頻中.最近幾年,行人再識別問題引起了廣大科研人員的興趣與研究.監(jiān)控視頻中的目標(biāo)圖像分辨率低、場景中存在著光照變化、視角變化、行人姿態(tài)變化以及攝像機(jī)自身屬性的問題,導(dǎo)致同一目標(biāo)在不同的監(jiān)控視頻中外觀區(qū)別很大,使得行人再識別問題遇到了很大的挑戰(zhàn)。為了有效的解決這些挑戰(zhàn),廣大的研究者提出了很多解決方法.目前的行人再識別算法可以簡單概括為四種:直接法、基于深度學(xué)習(xí)的方法、顯著性學(xué)習(xí)的方法和間接法.

直接法利用視覺特征對行人建立一個魯棒性和區(qū)分性的表示,不需要通過學(xué)習(xí)直接利用行人特征然后根據(jù)傳統(tǒng)的相似性度量算法(歐式距離、巴氏距離等等)來度量行人之間的相似度.文獻(xiàn)[1]首次提出了利用直方圖特征來表征目標(biāo)并通過度量直方圖的相似度來識別不同的目標(biāo).文獻(xiàn)[2]將行人圖像粗略分為頭部、上半身和下半身3部分,然后串聯(lián)每一部分的顏色直方圖對行人描述.文獻(xiàn)[3]采用分割的技術(shù)提取人的前景,并利用行人區(qū)域的對稱性和非對稱性將人的前景劃分成不同的區(qū)域.對于每個區(qū)域,提取帶權(quán)重的顏色直方圖特征、極大穩(wěn)定顏色區(qū)域(maximallystablecolorregions)特征和重復(fù)度高的結(jié)構(gòu)區(qū)域(recurrenthighlystructuredpatches)特征描述它們.文獻(xiàn)[4]提出了一種結(jié)合gabor特征和協(xié)方差矩陣描述的BiCov描述子來對行人描述.文獻(xiàn)[5]采用圖案結(jié)構(gòu)(pictorialstruc-ture)算法定位圖像中人的各個部件所在的區(qū)域.對于每個部件的區(qū)域,提取與文獻(xiàn)[3]類似的顏色直方圖特征、極大穩(wěn)定顏色區(qū)域特征來描述它們.文獻(xiàn)[6]利用lbp特征和21個濾波器特征(8個gabor濾波器和13個schmid濾波器)來描述圖像中的行人.文獻(xiàn)[7]通過共生矩陣對行人的形狀和外形特征進(jìn)行描述.雖然直接法的算法模型簡單,但由于在光照變化、視角變化以及姿態(tài)變化等情況下,同一個人的外觀變化往往很大,很難提取出魯棒性和區(qū)分性的特征描述.因此在光照變化、視角變化以及姿態(tài)變化等情況下,直接法的效果很差.

深度學(xué)來在計算機(jī)視覺中得到了廣泛的應(yīng)用,因此不少學(xué)者研究并提出了基于深度學(xué)習(xí)的行人再識別算法.文獻(xiàn)[8]LiWei等人提出了一種六層的FPNN神經(jīng)網(wǎng)絡(luò),它能有效解決行人再識別中出現(xiàn)的光照變化、姿態(tài)變化、遮擋和背景粘連等問題,從而提高了識別率.文獻(xiàn)[9]Ahmed等人提出了一種深層卷積結(jié)構(gòu)能夠同時自動學(xué)習(xí)特征和相應(yīng)的相似性測度函數(shù).但基于深度學(xué)習(xí)的行人再識別算法需要非常大的訓(xùn)練數(shù)據(jù)庫,導(dǎo)致訓(xùn)練時間長,此外還需要針對特定問題搭建相應(yīng)的模型,因此不利于方法的推廣.同時,深度學(xué)習(xí)方法中還存在調(diào)置參數(shù)缺乏理論性指導(dǎo),具有較大主觀性的問題.基于顯著性學(xué)習(xí)的行人再識別方法近年來也受到研究者的廣泛興趣.人們可以通過行人的一些顯著信息來識別行人,但傳統(tǒng)的方法在比較兩張圖片的相似性的時候,往往忽略了行人身上的顯著性特征.對此,文獻(xiàn)[10]趙瑞等人提出了一種通過學(xué)習(xí)行人圖像的顯著性信息來度量兩張行人圖像的相似性的方法.但顯著性學(xué)習(xí)的行人再識別算法在行人姿態(tài)變化的情況下,顯著性區(qū)域會出現(xiàn)偏移或者消失,導(dǎo)致識別效果較差.間接法主要是學(xué)習(xí)得到一個分類器或一個排序模型.間接法代表性的算法有距離測度學(xué)習(xí)、支持向量機(jī)、遷移學(xué)習(xí)和流形排序算法.距離測度學(xué)習(xí)算法作為間接法中的一種,最近幾年在行人再識別中得到了廣泛的應(yīng)用.本文提出的算法也是基于距離測度學(xué)習(xí),所以下面著重介紹基于距離測度學(xué)習(xí)的行人再識別算法.

與手動設(shè)計特征的直接法不同,距離測度學(xué)習(xí)方法是一種利用機(jī)器學(xué)習(xí)的算法得出兩張行人圖像的相似度度量函數(shù),使相關(guān)的行人圖像對的相似度盡可能高,不相關(guān)的行人圖像對的相似度盡可能低的方法.代表性的測度學(xué)習(xí)算法有文獻(xiàn)[11]鄭偉詩等人把行人再識別問題當(dāng)成距離學(xué)習(xí)問題,提出了一種基于概率相對距離的行人匹配模型,文獻(xiàn)[12]提出了一種基于統(tǒng)計推斷的方法學(xué)習(xí)測度矩陣來度量兩張行人圖像的相似度,以及文獻(xiàn)中提出的相應(yīng)測度學(xué)習(xí)算法.距離測度算法是將原始特征空間投影到另一個更具區(qū)分性的特征空間.與其它的算法相比,距離測度學(xué)習(xí)算法具有更好的效果.距離測度學(xué)習(xí)算法即使只使用簡單的顏色直方圖作為特征,算法的性能往往優(yōu)于其它算法.文獻(xiàn)[12]提出了一種基于統(tǒng)計推斷的方法學(xué)習(xí)測度矩陣來度量行人對的相似度,但作者直接在原始特征空間訓(xùn)練得到測度矩陣,進(jìn)而得到樣本之間的相似性函數(shù).原始特征空間的線性不可分性導(dǎo)致通過原始特征空間直接訓(xùn)練得到的測度矩陣不能很好的表征樣本之間的相似性和差異性.本文提出基于核學(xué)習(xí)的方法,首先通過相應(yīng)的核函數(shù)將原始特征空間投影到非線性空間,然后在非線性空間中學(xué)習(xí)得到相應(yīng)的測度矩陣.投影后的非線性特征空間具有很好的可分性,這樣學(xué)習(xí)得到的測度矩陣能準(zhǔn)確的表征樣本之間的相似性和差異性.另外,基于測度學(xué)習(xí)的行人再識別算法一般是把多特征融合并建立特征模型,然后基于相應(yīng)的測度學(xué)習(xí)算法,學(xué)習(xí)得到一個測度矩陣.然而這種特征融合往往忽略了不同屬性特征之間的差別,這樣學(xué)習(xí)得到的測度矩陣不能準(zhǔn)確的表征樣本之間的相似性與差異性.對此,本文提出在不同的特征空間中學(xué)習(xí)相應(yīng)的測度矩陣,進(jìn)而得到表示不同特征空間的相似性函數(shù),最后根據(jù)不同的權(quán)重結(jié)合這些相似性函數(shù)來表征樣本之間的相似性.本文算法在公共實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)效果優(yōu)于目前主流的行人再識別算法,尤其是第一匹配率(Rank1).本文其余章節(jié)的組織安排如下.第1節(jié)介紹本文提出的行人再識別算法.第2節(jié)介紹本文算法在公共數(shù)據(jù)集上的實(shí)驗(yàn).第三節(jié)總結(jié)全文以及展望.

1基于多特征子空間與核學(xué)習(xí)的行人再識別算法

1.1基于核學(xué)習(xí)的相似度量函數(shù)的學(xué)習(xí)文獻(xiàn)[12]中提出了一種KISSME的算法,文中指出,從統(tǒng)計學(xué)角度考慮,一對有序行人對(i,j)的相似度可以表示為式。文獻(xiàn)[12]中提出的算法是直接在原始線性特征空間中訓(xùn)練得到測度矩陣,進(jìn)而得到表示樣本之間相似性的相似度函數(shù).由于原始特征空間的線性不可分,上述方法得到的測度矩陣不能準(zhǔn)確表達(dá)樣本之間的相似性和差異性,導(dǎo)致識別效果差.本文提出基于核學(xué)習(xí)的算法首先通過相應(yīng)的核函數(shù)將原始特征空間投影到更易區(qū)分的非線性空間,然后在非線性空間中訓(xùn)練得到測度矩陣M.這樣得到的測度矩陣具M(jìn)有很好的區(qū)分性,能使同類樣本之間的距離盡可能小,異類樣本之間的距離盡可能大.核學(xué)習(xí)的主要思想是將原始線性特征空間投影到區(qū)分性好的非線性空間.原始特征空間中的特征xxi通過函數(shù)Φ投影到非線性空間,則非線性空間的特征表示為Φ(xxi).非線性映射函數(shù)一般是隱性函數(shù),則很難得到顯示表達(dá)式,可以利用核函數(shù)求解特征空間中樣本點(diǎn)的內(nèi)積來解決。

1.2基于多特征子空間的測度學(xué)習(xí)基于測度學(xué)習(xí)的行人再識別算法一般是把多特征融合并建立特征模型,然后基于相應(yīng)的測度學(xué)習(xí)算法得到測度矩陣.這種方法忽略了不同屬性特征之間的差別,導(dǎo)致學(xué)習(xí)得到的測度矩陣不能準(zhǔn)確的體現(xiàn)樣本之間的相似性與差異性.對此,本文提出對于不同的特征空間單獨(dú)學(xué)習(xí)相應(yīng)的測度矩陣,進(jìn)而得到表示不同特征空間的相似性函數(shù),最后根據(jù)不同的權(quán)重結(jié)合這些相似性函數(shù)來表示樣本之間的相似性.

1.3行人圖像的特征表示本文采用顏色特征和LBP特征對行人目標(biāo)進(jìn)行描述,生成兩種特征子空間.顏色空間有很多種,用不同的色彩空間描述一圖片的效果是不同的.依據(jù)文獻(xiàn)[20]和文獻(xiàn)[21],本文采用的顏色特征從RGS、HSV、YCbCr和CIELab4種顏色空間中提取.RGS空間的定義為R=R/(R+G+B)、G=G/(R+G+B)、S=(R+G+B)/3.為了獲取具有魯棒性和區(qū)分性的顏色特征表示,本文將上述四種顏色特征空間融合.融合后的顏色特征描述對于光照變化的場景具有良好的魯棒性.圖1給出了一張被平均分成6個水平條帶的行人圖像,對于每個水平條帶的每種顏色空間的每個通道,提取16維的顏色直方圖特征,將所有的顏色直方圖特征串聯(lián)形成行人圖像的顏色特征,從而得到行人圖像顏色特征的維數(shù)為1152維(4*6*3*16).原始特征空間的1152維特征經(jīng)過核函數(shù)投影后的特征維度較高且大部分信息都是冗余的.因此實(shí)驗(yàn)中利用PCA將核空間中的特征維數(shù)降到保持大于90%的能量。為了更好的描述圖像的局部信息,本文中提取的局部特征來自于LBP等價模式中鄰域點(diǎn)數(shù)為8半徑為1和鄰域點(diǎn)數(shù)為16半徑為2兩種模式的特征.上面兩種LBP等價模式的維度分別為59維和243維.類似于顏色特征的提取,一張行人圖像被平均分成6個水平條帶,對于每個水平條帶提取LBP兩種模式的特征,將所有的LBP特征串聯(lián)形成行人圖像的局部特征,從而得到行人圖像局部特征的維數(shù)為1812維((59+243)*6).同理,原始特征空間的1812維特征經(jīng)過核函數(shù)投影后的特征維度同樣較高并且大部分信息也都是冗余的.因此實(shí)驗(yàn)中同樣利用PCA將核空間的特征維度降到保持90%以上的能量.

1.4本文算法的具體操作步驟利用步驟3得到不同核空間中的測度矩陣計算樣本在不同核空間的相似度,然后將樣本在不同核空間中的相似度按照一定的權(quán)值結(jié)合來表示樣本之間的相似性.

2實(shí)驗(yàn)測試與結(jié)果

本節(jié)首先介紹實(shí)驗(yàn)中所使用的測試數(shù)據(jù)和算法性能的評測準(zhǔn)則,其次介紹本文算法在不同公共實(shí)驗(yàn)集上與已有的行人再識別算法的性能比較,然后在不同公共實(shí)驗(yàn)集上對比核映射前后的算法性能,最后在不同公共實(shí)驗(yàn)集上分析權(quán)值不同時對算法性能的影響.文中所有的實(shí)驗(yàn)是基于vs2010+opencv2.4.9實(shí)現(xiàn)的,實(shí)驗(yàn)平臺是24G內(nèi)存的Intel(R)Xeon(R)CPUE5506@2.13GHz(2處理器)PC臺式機(jī).

2.1測試數(shù)據(jù)和算法性能的評測準(zhǔn)則為了與已有算法公正比較,實(shí)驗(yàn)中,采用先前工作普遍采用的評價框架.如文獻(xiàn)[22]所述,隨機(jī)選擇p對行人圖像對作為測試集,余下的行人圖像對作為訓(xùn)練集.測試集由查詢集和行人圖像庫兩部分組成.每對行人圖像,隨機(jī)選擇一張圖像并入查詢集,另一張則并入行人圖像庫.當(dāng)給定一個行人再識別算法,衡量該算法在行人圖像庫中搜索待查詢行人的能力來評測此算法的性能.為了測試算法在只有少量的訓(xùn)練樣本時的性能,p分別取316,432,532進(jìn)行實(shí)驗(yàn).p取值越大,則測試樣本越多(匹配越困難),訓(xùn)練樣本越少(訓(xùn)練越困難).對于每組實(shí)驗(yàn),以上產(chǎn)生測試集和訓(xùn)練集的過程重復(fù)10次,10次實(shí)驗(yàn)結(jié)果的平均值作為本組實(shí)驗(yàn)的結(jié)果.已有的行人再識別算法大部分采用累積匹配特性(CumulativeMatchCharacteristic,CMC)曲線評價算法性能.給定一個查詢集和行人圖像庫,累積匹配特征曲線描述的是在行人圖像庫中搜索待查詢的行人,前r個搜索結(jié)果中找到待查詢?nèi)说谋嚷?第1匹配率(r=1)很重要,因?yàn)樗硎镜氖钦嬲淖R別能力.但是當(dāng)r取值很小時,第r匹配率也很有現(xiàn)實(shí)意義.因?yàn)樵趯?shí)際應(yīng)用中,反饋的前r個搜索結(jié)果中,可以通過人眼判斷找到查詢目標(biāo).

2.2不同公共實(shí)驗(yàn)集上實(shí)驗(yàn)對比本文算法選擇在VIPeR[23]數(shù)據(jù)集、iLIDS[24]數(shù)據(jù)集、ETHZ[25]數(shù)據(jù)集和CUHK01[26]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).VIPeR數(shù)據(jù)集中相關(guān)行人對來自兩個不同的攝像機(jī).相關(guān)行人對的外觀由于姿態(tài)、視角、光照和背景的變化而差異大.iLIDS數(shù)據(jù)集包含119個行人的476張圖像,每個行人的圖像從兩張到八張不等.iLIDS數(shù)據(jù)集是從機(jī)場收集的,數(shù)據(jù)集有嚴(yán)重遮擋和光照變化的問題.ETHZ數(shù)據(jù)集包含146個行人的8555張圖像.數(shù)據(jù)集中的圖像來自移動攝像機(jī)拍攝的三個視頻序列.ETHZ數(shù)據(jù)集中的圖像由同一攝像機(jī)拍攝,則數(shù)據(jù)集中行人姿態(tài)變化和視角變化的程度沒有VIPeR數(shù)據(jù)集那么明顯.為了使ETHZ數(shù)據(jù)集具有挑戰(zhàn)性,實(shí)驗(yàn)中相關(guān)行人提取兩張圖像,一張近景和一張遠(yuǎn)景.遠(yuǎn)景圖像含有大量無用的背景信息,使選用的數(shù)據(jù)集有明顯的遮擋情況和光照變化.CUHK01數(shù)據(jù)集是由兩個攝像機(jī)在校園環(huán)境中拍攝得到,包含971個行人的3884張圖像.每個行人包含四張圖像,前兩張圖像是攝像機(jī)拍攝的行人前后景圖像,兩張圖像是攝像機(jī)拍攝的行人側(cè)面圖像.每個行人的前兩張圖像只是姿態(tài)上有稍許的變化,前兩張圖像與后兩張圖像在視角上、姿態(tài)上差異較大以及有明顯的光照變化.實(shí)驗(yàn)中,每個行人前后景圖像隨機(jī)選擇一張,側(cè)面圖像隨機(jī)選擇一張,這樣得到的實(shí)驗(yàn)集具有顯著的視角變化、姿態(tài)變化和光照變化.

2.2.1VIPeR數(shù)據(jù)集VIPeR數(shù)據(jù)集是由632對相關(guān)行人對圖像組成.如圖2所示,同一列中的行人圖像為同一個人,為了對比本文算法基于不同核函數(shù)的實(shí)驗(yàn)效果,下表1給出了該算法基于不同核函數(shù)的實(shí)驗(yàn)對比.實(shí)驗(yàn)中測試樣本集和訓(xùn)練樣本集均為316對相關(guān)行人圖像.VIPeR數(shù)據(jù)集上的其它實(shí)驗(yàn),如果沒明確表明測試樣本集和訓(xùn)練樣本集的個數(shù),都默認(rèn)有316對相關(guān)行人圖像.從表1可知,本文算法基于RBF-χ2核函數(shù)的效果最優(yōu).為了充分體現(xiàn)算法的效果,在后面的實(shí)驗(yàn)效果對比中都是基于RBF-χ2核函數(shù).下表2給出了該算法與當(dāng)前主流算法的效果對比.從表2可知,該算法性能有較大的提升,尤其是Rank1,Rank1比表中最好的結(jié)果提高了約8(%).此外,該算法與表中的PCCA、rPCCA、kLFDA和MFA等算法都是基于RBF-χ2核函數(shù);但該算法整體效果明顯優(yōu)于它們.值得一提的是,對于Rank1,該算法的效果相對主流的行人再識別算法有了顯著的提高.第1匹配率很重要,因?yàn)樗硎镜氖钦嬲淖R別能力.行人再識別技術(shù)一個典型的應(yīng)用是刑事偵查;若Rank1越高,則在刑事偵查中,搜集與嫌疑人有關(guān)的線索的效率就會提高.為了充分說明本文算法的優(yōu)越性,表3給出該算法在僅用HSV特征情況下與其它算法效果對比.由表3可知,該算法雖然只使用了HSV特征,但是效果比采用多特征的算法(SDALF、PS、RDC和KISSME)更好.KISSME融合了HSV、LAB和LBP等特征,Rank1僅有20(%);該算法只用HSV特征,Rank1就達(dá)到了28.4(%).另外,該算法與同樣只使用HSV特征的算法(如ITML、Euclidean、NRDV和KRMCA等)相比,仍然優(yōu)于它們.其中,ITML和Euclidean算法整體效果都比該算法差.NRDV算法雖然Rank1與該算法相近,但是Rank10和Rank20較低,且NRDV算法模型比該算法復(fù)雜得多.KRMCA算法效果總體上都不如該算法且KRMCA的代價函數(shù)收斂很慢,算法訓(xùn)練時間很長.當(dāng)測試集規(guī)模為P=432和P=532時,該算法與已有行人再識別算法的性能比較如表4和表5.從表中可知,在只有少量的訓(xùn)練樣本情況下,該算法性能同樣優(yōu)于已有算法.由此可見,該算法有效解決了學(xué)習(xí)相似度度量函數(shù)中出現(xiàn)的過擬合問題.

2.2.2iLIDS數(shù)據(jù)集iLIDS數(shù)據(jù)集中每個行人包含兩張到八張照片不等.實(shí)驗(yàn)中,從每個行人所包含的圖像中隨機(jī)取兩張作為實(shí)驗(yàn)集,最后得到的實(shí)驗(yàn)集為119對相關(guān)行人圖像.最終實(shí)驗(yàn)效果是多次隨機(jī)取得的實(shí)驗(yàn)集效果的平均值.數(shù)據(jù)集中的圖像尺寸是不盡相同的,實(shí)驗(yàn)中統(tǒng)一把圖像的尺寸設(shè)置為高128寬48.實(shí)驗(yàn)中訓(xùn)練集為59對行人圖像,測試集為60對行人圖像.本文算法在iLIDS數(shù)據(jù)集上與其它算法的效果對比如下。該算法與表中基于測度學(xué)習(xí)的算法PCCA、rPCCA、MFA和kLFDA都是基于RBF-χ2核函數(shù).但從表6可知,該算法整體性能優(yōu)于PCCA、rPCCA和MFA等算法;該算法雖然與kLFDA算法性能接近,但總體上還是優(yōu)于kLFDA算法.由此可見,該算法比使用相同核函數(shù)的其它算法效果更好.另外,該算法整體性能也優(yōu)于KISSME、SVMML和LFDA算法.

2.2.3ETHZ數(shù)據(jù)集數(shù)據(jù)集中的圖像尺寸是不相同的,實(shí)驗(yàn)中統(tǒng)一把圖像尺寸設(shè)置為高128寬48.實(shí)驗(yàn)中訓(xùn)練集為76對行人圖片,測試集為70對行人圖片.表7分析了本文算法在ETHZ數(shù)據(jù)集上與其它算法的效果對比.從表7可知,該算法在ETHZ數(shù)據(jù)集上的整體性能優(yōu)于同樣基于RBF-χ2核函數(shù)的PCCA、rPCCA、MFA和kLFDA等算法.在ETHZ數(shù)據(jù)集上,同樣證明了該算法比使用相同核函數(shù)的其它算法效果更好.值得一提的是,該算法的rank1較于其它算法顯著提升了.另外,該算法整體性能也優(yōu)于KISSME、SVMML和LFDA算法.

2.2.4CUHK01數(shù)據(jù)集數(shù)據(jù)集中的圖片的尺寸是不相同的,實(shí)驗(yàn)中統(tǒng)一把圖片的尺寸設(shè)置為高128寬48大小.實(shí)驗(yàn)中訓(xùn)練集為486對行人圖片,測試集為485對行人圖片.本文算法在CUHK01數(shù)據(jù)集上與其它算法的效果對比如下表8:從表8可知,該算法在CUHK01數(shù)據(jù)集上的整體性能同樣優(yōu)于KISSME和SVMML算法以及基于測度學(xué)習(xí)的算法PCCA、LFDA、rPCCA、MFA和kLFDA.該算法與MidLevel算法效果接近,但MidLevel算法模型復(fù)雜.該算法與其它算法效果對比可知,該算法可以學(xué)習(xí)得到具有良好區(qū)分性的相似性度量函數(shù).通過在CUHK01數(shù)據(jù)集上的效果對比,進(jìn)一步說明該算法與使用相同核函數(shù)的其它算法相比效果更好.

2.3特征核映射前后算法性能的比較為了分析特征經(jīng)過核映射后對算法的影響,表9、表10、表11和表12分別給出在四種數(shù)據(jù)集上特征經(jīng)過核映射前后算法效果的對比實(shí)驗(yàn).通過在四個公共數(shù)據(jù)集上實(shí)驗(yàn)對比可知,特征經(jīng)過核映射后算法效果在VIPeR、iLIDS和CUHK01數(shù)據(jù)集上整體上都得到了顯著的提升,在ETHZ數(shù)據(jù)集上雖然提高不明顯,但還是優(yōu)于已有算法.總的來說,該算法在特征經(jīng)過核映射后,學(xué)習(xí)得到的相似度度量函數(shù)更具有區(qū)分性,能夠得到較好的識別效果.

2.4權(quán)值a取值不同時算法的性能比較為了分析權(quán)值a對算法性能的影響,圖3、圖4、圖5和圖6分別給出在四種數(shù)據(jù)集上不同的權(quán)值a下,本文算法性能的對比實(shí)驗(yàn).其中SC為顏色特征子空間的相似度函數(shù),ST為LBP特征子空間的相似度函數(shù).權(quán)值a越大,代表相似度函數(shù)中顏色特征子空間的相似度函數(shù)比重越大.通過在四種數(shù)據(jù)集上不同的權(quán)值a下算法性能的對比實(shí)驗(yàn)可知,a取值對算法效果的影響較大.當(dāng)a取值很小時,算法效果不是很理想,當(dāng)a增大時,算法性得到一定程度的提升,當(dāng)a在0.5到0.7范圍內(nèi)取相應(yīng)的值時,算法性能能達(dá)到最優(yōu),當(dāng)a繼續(xù)增大后,算法性能有一定程度的下降.

3結(jié)論