卷積神經(jīng)網(wǎng)絡(luò)的步驟范文

時間:2024-04-02 18:04:32

導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的步驟,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

篇1

(江蘇科技大學(xué)電子信息學(xué)院,江蘇鎮(zhèn)江212003)

摘要:在實際交通環(huán)境中,由于運動模糊、背景干擾、天氣條件以及拍攝視角等因素,所采集的交通標(biāo)志的圖像質(zhì)量往往不高,這就對交通標(biāo)志自動識別的準(zhǔn)確性、魯棒性和實時性提出了很高的要求。針對這一情況,提出一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識別方法。該方法采用深層卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)模型,直接將采集的交通標(biāo)志圖像經(jīng)二值化后作為輸入,通過卷積和池采樣的多層處理,來模擬人腦感知視覺信號的層次結(jié)構(gòu),自動地提取交通標(biāo)志圖像的特征,最后再利用一個全連接的網(wǎng)絡(luò)實現(xiàn)交通標(biāo)志的識別。實驗結(jié)果表明,該方法利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)能力,自動地提取交通標(biāo)志的特征,避免了傳統(tǒng)的人工特征提取,有效地提高了交通標(biāo)志識別的效率,具有良好的泛化能力和適應(yīng)范圍。

關(guān)鍵詞 :交通標(biāo)志;識別;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)

中圖分類號:TN911.73?34;TP391.41 文獻標(biāo)識碼:A 文章編號:1004?373X(2015)13?0101?06

收稿日期:2015?01?09

基金項目:國家自然科學(xué)基金面上項目(61371114)

0 引言

隨著智能汽車的發(fā)展,道路交通標(biāo)志的自動識別[1?3]作為智能汽車的基本技術(shù)之一,受到人們的高度關(guān)注。道路交通標(biāo)志識別主要包括兩個基本環(huán)節(jié):首先是交通標(biāo)志的檢測,包括交通標(biāo)志的定位、提取及必要的預(yù)處理;其次是交通標(biāo)志的識別,包括交通標(biāo)志的特征提取和分類。

如今,交通標(biāo)志的識別方法大多數(shù)都采用人工智能技術(shù),主要有下述兩類形式[4]。一種是采用“人工特征+機器學(xué)習(xí)”的識別方法,如基于淺層神經(jīng)網(wǎng)絡(luò)、支持向量機的特征識別等。在這種方法中,主要依靠先驗知識,人工設(shè)計特征,機器學(xué)習(xí)模型僅負(fù)責(zé)特征的分類或識別,因此特征設(shè)計的好壞直接影響到整個系統(tǒng)性能的性能,而要發(fā)現(xiàn)一個好的特征,則依賴于研究人員對待解決的問題的深入理解。另一種形式是近幾年發(fā)展起來的深度學(xué)習(xí)模型[5],如基于限制波爾茲曼機和基于自編碼器的深度學(xué)習(xí)模型以及卷積神經(jīng)網(wǎng)絡(luò)等。在這種方法中,無需構(gòu)造任何的人工特征,而是直接將圖像的像素作為輸入,通過構(gòu)建含有多個隱層的機器學(xué)習(xí)模型,模擬人腦認(rèn)知的多層結(jié)構(gòu),逐層地進行信息特征抽取,最終形成更具推廣性和表達力的特征,從而提升識別的準(zhǔn)確性。

卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)模型之一,是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它利用一系列的卷積層、池化層以及一個全連接輸出層構(gòu)建一個多層的網(wǎng)絡(luò),來模仿人腦感知視覺信號的逐層處理機制,以實現(xiàn)視覺特征信號的自動提取與識別。本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識別,通過構(gòu)建一個由二維卷積和池化處理交替組成的6層網(wǎng)絡(luò)來逐層地提取交通標(biāo)志圖像的特征,所形成的特征矢量由一個全連接輸出層來實現(xiàn)特征的分類和識別。實驗中將加入高斯噪聲、經(jīng)過位移、縮放和旋轉(zhuǎn)處理的交通標(biāo)志圖像以及實際道路采集交通標(biāo)志圖像分別構(gòu)成訓(xùn)練集和測試集,實驗結(jié)果表明,本文所采用的方法具有良好的識別率和魯棒性。

1 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理

1.1 深度學(xué)習(xí)

神經(jīng)科學(xué)研究表明,哺乳動物大腦皮層對信號的處理沒有一個顯示的過程[5],而是通過信號在大腦皮層復(fù)雜的層次結(jié)構(gòu)中的遞進傳播,逐層地對信號進行提取和表述,最終達到感知世界的目的。這些研究成果促進了深度學(xué)習(xí)這一新興研究領(lǐng)域的迅速發(fā)展。

深度學(xué)習(xí)[4,6?7]的目的就是試圖模仿人腦感知視覺信號的機制,通過構(gòu)建含有多個隱層的多層網(wǎng)絡(luò)來逐層地對信號特征進行新的提取和空間變換,以自動學(xué)習(xí)到更加有效的特征表述,最終實現(xiàn)視覺功能。目前深度學(xué)習(xí)已成功地應(yīng)用到語音識別、圖像識別和語言處理等領(lǐng)域。在不同學(xué)習(xí)框架下構(gòu)建的深度學(xué)習(xí)結(jié)構(gòu)是不同的,如卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型。

1.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理

卷積神經(jīng)網(wǎng)絡(luò)受視覺系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生,第一個卷積神經(jīng)網(wǎng)絡(luò)計算模型是在Fukushima 的神經(jīng)認(rèn)知機中提出的[8],基于神經(jīng)元之間的局部連接和分層組織圖像轉(zhuǎn)換,將有相同參數(shù)的神經(jīng)元應(yīng)用于前一層神經(jīng)網(wǎng)絡(luò)的不同位置,得到一種平移不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式。后來,LeCun 等人在該思想的基礎(chǔ)上,用誤差梯度設(shè)計并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)[9?10],在一些模式識別任務(wù)上得到優(yōu)越的性能。

卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一種有監(jiān)督的深度學(xué)習(xí)算法,無需事先知道輸入與輸出之間精確的數(shù)學(xué)表達式,只要用已知的模式對卷積神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練,就可以學(xué)習(xí)到輸入與輸出之間的一種多層的非線性關(guān)系,這是非深度學(xué)習(xí)算法不能做到的。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)是由一系列的卷積和池化層以及一個全連接的輸出層組成,可以采用梯度下降法極小化誤差函數(shù)對網(wǎng)絡(luò)中的權(quán)值和閾值參數(shù)逐層反向調(diào)節(jié),以得到網(wǎng)絡(luò)權(quán)值和閾值的最優(yōu)解,并可以通過增加迭代次數(shù)來提高網(wǎng)絡(luò)訓(xùn)練的精度。

1.2.1 前向傳播

在卷積神經(jīng)網(wǎng)絡(luò)的前向傳播中,輸入的原始圖像經(jīng)過逐層的卷積和池化處理后,提取出若干特征子圖并轉(zhuǎn)換成一維特征矢量,最后由全連接的輸出層進行分類識別。

在卷積層中,每個卷積層都可以表示為對前一層輸入圖像的二維卷積和非線性激勵函數(shù),其表達式可用式(1)表示:

式中:Yj 表示輸出層中第j 個輸出;Y l + 1i 是前一層(l + 1層)

的輸出特征(全連接的特征向量);n 是輸出特征向量的長度;Wij 表示輸出層的權(quán)值,連接輸入i 和輸出j ;bj表示輸出層第j 個輸出的閾值;f (?) 是輸出層的非線性

1.2.2 反向傳播

在反向傳播過程中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法采用類似于BP神經(jīng)網(wǎng)絡(luò)的梯度最速下降法,即按極小化誤差的方法反向傳播調(diào)整權(quán)值和閾值。網(wǎng)絡(luò)反向傳播回來的誤差是每個神經(jīng)元的基的靈敏度[12],也就是誤差對基的變化率,即導(dǎo)數(shù)。下面將分別求出輸出層、池采樣層和卷積層的神經(jīng)元的靈敏度。

(1)輸出層的靈敏度

對于誤差函數(shù)式(6)來說,輸出層神經(jīng)元的靈敏度可表示為:

在前向傳播過程中,得到網(wǎng)絡(luò)的實際輸出,進而求出實際輸出與目標(biāo)輸出之間的誤差;在反向傳播過程中,利用誤差反向傳播,采用式(17)~式(20)來調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,極小化誤差;這樣,前向傳播和反向傳播兩個過程反復(fù)交替,直到達到收斂的要求為止。

2 深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識別方法

2.1 應(yīng)用原理

交通標(biāo)志是一種人為設(shè)計的具有特殊顏色(如紅、黃、白、藍、黑等)和特殊形狀或圖形的公共標(biāo)志。我國的交通標(biāo)志主要有警告、禁令、指示和指路等類型,一般采用顏色來區(qū)分不同的類型,用形狀或圖形來標(biāo)示具體的信息。從交通標(biāo)志設(shè)計的角度來看,屬于不同類型(不同顏色)的交通標(biāo)志在形狀或圖形上有較大的差異;屬于相同類型(相同顏色)的標(biāo)志中同類的指示信息標(biāo)志在形狀或圖形上比較接近,如警告標(biāo)志中的平面交叉路口標(biāo)志等。因此,從機器視覺的角度來分析,同類型中同類指示信息的標(biāo)志之間會比不同類型的標(biāo)志之間更易引起識別錯誤。換句話說,相比于顏色,形狀或圖形是正確識別交通標(biāo)志的關(guān)鍵因素。

因此,在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志時,從提高算法效率和降低錯誤率綜合考慮,將交通標(biāo)志轉(zhuǎn)換為灰度圖像并作二值化處理后作為卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像信息。圖2給出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志的原理圖。該網(wǎng)絡(luò)采用了6層交替的卷積層和池采樣層來逐層提取交通標(biāo)志的特征,形成的特征矢量由一個全連接的輸出層進行識別。圖中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分別表示卷積層L1,L3,…,Ln - 1 的卷積核;Input表示輸入的交通標(biāo)志圖像;

Pool表示每個池采樣層的采樣池;map表示逐層提取的特征子圖;Y 是最終的全連接輸出。

交通標(biāo)志識別的判別準(zhǔn)則為:對于輸入交通標(biāo)志圖像Input,網(wǎng)絡(luò)的輸出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},則Input ∈ j,即判定輸入的交通標(biāo)志圖像Input為第j 類交通標(biāo)志。

2.2 交通標(biāo)志識別的基本步驟

深層神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志主要包括交通標(biāo)志的訓(xùn)練與識別,所以將交通標(biāo)志識別歸納為以下4個步驟:(1) 圖像預(yù)處理:利用公式Gray= 0.299R +0.587G + 0.114B 將彩色交通標(biāo)志圖像轉(zhuǎn)換為灰度圖像,再利用鄰近插值法將交通標(biāo)志圖像規(guī)格化,最后利用最大類間方差將交通標(biāo)志圖像二值化。

(2)網(wǎng)絡(luò)權(quán)值和閾值的初始化:利用隨機分布函數(shù)將權(quán)值W 初始化為-1~1之間的隨機數(shù);而將閾值b 初始化為0。

(3)網(wǎng)絡(luò)的訓(xùn)練:利用經(jīng)過預(yù)處理的交通標(biāo)志圖像構(gòu)成訓(xùn)練集,對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,通過網(wǎng)絡(luò)前向傳播和反向傳播的反復(fù)交替處理,直到滿足識別收斂條件或達到要求的訓(xùn)練次數(shù)為止。

(4)交通標(biāo)志的識別:將實際采集的交通標(biāo)志圖像經(jīng)過預(yù)處理后,送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進行交通標(biāo)志特征的提取,然后通過一個全連接的網(wǎng)絡(luò)進行特征分類與識別,得到識別結(jié)果。

3 實驗結(jié)果與分析

實驗主要選取了我國道路交通標(biāo)志的警告標(biāo)志、指示標(biāo)志和禁令標(biāo)志三類中較常見的50幅圖像??紤]到在實際道路中采集到的交通標(biāo)志圖像會含有噪聲和出現(xiàn)幾何失真以及背景干擾等現(xiàn)象,因此在構(gòu)造網(wǎng)絡(luò)訓(xùn)練集時,除了理想的交通標(biāo)志以外,還增加了加入高斯噪聲、經(jīng)過位移、旋轉(zhuǎn)和縮放處理和實際采集到的交通標(biāo)志圖像,因此最終的訓(xùn)練樣本為72個。其中,加入的高斯噪聲為均值為0,方差分別為0.1,0.2,0.3,圖像的位移、旋轉(zhuǎn)、縮放的參數(shù)分別隨機的分布在±10,±5°,0.9~1.1的范圍內(nèi)。圖3給出了訓(xùn)練集中的交通標(biāo)志圖像的示例。圖4是在實際道路中采集的交通標(biāo)志圖像構(gòu)成的測試集的示例。

在實驗中構(gòu)造了一個輸入為48×48個神經(jīng)元、輸出為50 個神經(jīng)元的9 層網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是像素為48 × 48 的規(guī)格化的交通標(biāo)志圖像,輸出對應(yīng)于上述的50種交通標(biāo)志的判別結(jié)果。網(wǎng)絡(luò)的激活函數(shù)采用S型函數(shù),如式(2)所示,其輸出范圍限制在0~1之間。

圖6是交通標(biāo)志的訓(xùn)練總誤差EN 曲線。在訓(xùn)練開始的1 500次,誤差能迅速地下降,在迭代2 000次以后是一個平穩(wěn)的收斂過程,當(dāng)?shù)?0萬次時,總誤差EN可以達到0.188 2。

在交通標(biāo)志的測試實驗中,為了全面檢驗卷積神經(jīng)網(wǎng)絡(luò)的識別性能,分別針對理想的交通標(biāo)志,加入高斯噪聲、經(jīng)過位移、旋轉(zhuǎn)和比例縮放以及采集的交通標(biāo)志圖像進行實驗,將以上測試樣本分別送入到網(wǎng)絡(luò)中識別,表2給出了測試實驗結(jié)果。

綜合分析上述實驗結(jié)果,可以得到以下結(jié)論:(1)在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)過程中,整個網(wǎng)絡(luò)的誤差曲線快速平穩(wěn)的下降,體現(xiàn)出卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)具有良好的收斂性。

(2)經(jīng)逐層卷積和池采樣所提取的特征具有比例縮放和旋轉(zhuǎn)不變性,因此對于旋轉(zhuǎn)和比例縮放后的交通標(biāo)志能達到100%的識別率。

(3)與傳統(tǒng)的BP網(wǎng)絡(luò)識別方法[11]相比較,卷積神經(jīng)網(wǎng)絡(luò)能夠達到更深的學(xué)習(xí)深度,即在交通標(biāo)志識別時能夠得到更高的所屬類別概率(更接近于1),識別效果更好。

(4)卷積神經(jīng)網(wǎng)絡(luò)對實際采集的交通標(biāo)志圖像的識別率尚不能達到令人滿意的結(jié)果,主要原因是實際道路中采集的交通標(biāo)志圖像中存在著較嚴(yán)重的背景干擾,解決的辦法是增加實際采集的交通標(biāo)志訓(xùn)練樣本數(shù),通過網(wǎng)絡(luò)的深度學(xué)習(xí),提高網(wǎng)絡(luò)的識別率和魯棒性。

4 結(jié)論

本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識別,利用卷積神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)來模仿人腦感知視覺信號的機制,自動地提取交通標(biāo)志圖像的視覺特征并進行分類識別。實驗表明,應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)識別交通標(biāo)志取得了良好的識別效果。

在具體實現(xiàn)中,從我國交通標(biāo)志的設(shè)計特點考慮,本文將經(jīng)過預(yù)處理二值化的圖像作為網(wǎng)絡(luò)的輸入,主要是利用了交通標(biāo)志的形狀信息,而基本略去了顏色信息,其優(yōu)點是在保證識別率的基礎(chǔ)上,可以簡化網(wǎng)絡(luò)的結(jié)構(gòu),降低網(wǎng)絡(luò)的計算量。在實際道路交通標(biāo)志識別中,將形狀信息和顏色信息相結(jié)合,以進一步提高識別率和對道路環(huán)境的魯棒性,是值得進一步研究的內(nèi)容。

此外,本文的研究沒有涉及到道路交通標(biāo)志的動態(tài)檢測,這也是今后可以進一步研究的內(nèi)容。

參考文獻

[1] 劉平華,李建民,胡曉林,等.動態(tài)場景下的交通標(biāo)識檢測與識別研究進展[J].中國圖象圖形學(xué)報,2013,18(5):493?503.

[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.

[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.

[4] 中國計算機學(xué)會.深度學(xué)習(xí):推進人工智能夢想[EB/OL].[2013?06?10].http://ccg.org.cn.

[5] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖象圖形學(xué)報,2014,19(2):175?184.

[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.

[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.

[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.

[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.

[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.

[11] 楊斐,王坤明,馬欣,等.應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類器識別交通標(biāo)志[J].計算機工程,2003,29(10):120?121.

[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.

[13] 周開利,康耀紅.神經(jīng)網(wǎng)絡(luò)模型及其Matlab 仿真設(shè)計[M].北京:清華大學(xué)出版社,2005.

[14] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012,29(8):2806?2810.

[15] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進展[J].計算機應(yīng)用研究,2014(7):1921?1930.

篇2

2. 應(yīng)用領(lǐng)域安防

實時從視頻中檢測出行人和車輛。

自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發(fā)出帶有具體地點方位信息的警報。

自動判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險,幫助工作人員引導(dǎo)和管理人流。

醫(yī)療

對醫(yī)學(xué)影像進行自動分析的技術(shù)。這些技術(shù)可以自動找到醫(yī)學(xué)影像中的重點部位,并進行對比比分析。

通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計手術(shù),確保手術(shù)

為我們每個人提供康建議和疾病風(fēng)險預(yù)警,從而讓我們生活得更加健康。

智能客服

智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產(chǎn)品的功能呢),進行準(zhǔn)確得體并且個性化的回應(yīng)。

自動駕駛

現(xiàn)在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來對行駛環(huán)境進行實時感知。智能駕駛系統(tǒng)可以對多種感知信號進行綜合分析,通過結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實時規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運行。

工業(yè)制造

幫助工廠自動檢測出形態(tài)各異的缺陷

3. 概念什么是人工智能?

人工智能是通過機器來模擬人類認(rèn)知能力的技術(shù)。

人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)。下文會一一介紹。

二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征

花瓣數(shù)量、顏色

人工設(shè)計特征

先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值

深度學(xué)習(xí)特征

這里先不提及,文章后面會說

2. 感知器

老師給了一道題:

要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?

怎么辦呢?我可是學(xué)渣啊,靠蒙!

隨便找三個數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,

每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時 y[實際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預(yù)測] = 0.

重復(fù)以上兩步,得出所有的『實際值和預(yù)測值的差距的綜合,記為 Loss1

可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜?。±^續(xù)懵!像猜世界杯一樣猜就好了。

通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的?。┫陆档姆较蚶^續(xù)猜數(shù)字,具體過程大概是這樣子的:

上述所屬的實際值和預(yù)測值的差距 實際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點間直線距離公式,余弦相似度公式等等可以計算預(yù)測結(jié)果和實際結(jié)果之間的差距。

劃重點:損失函數(shù)就是現(xiàn)實和理想的差距(很殘酷)

3. 支持向量機

*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)

直觀的說,縫隙(上圖的分類間隔)越大越好

4. 多分類

如果有多種花怎么辦?

一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。

老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。

小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家

老師:你給我滾出去

實際計算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:

5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。

那該怎么辦呢?

機器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。

這里我們換個場景:

假如你是某直播老板,要找一堆小主播,這時候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?

這時候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:

這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。

用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。

求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離

如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。

這時因為分組范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心

重復(fù)步驟 4 (算點中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個過程直到藍色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。

至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:

計算機在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。

小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干

老師:你給我滾出去

上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個直觀的了解:

三、這是什么物品(圖像識別)1. 特征提取人類感官特征

花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)

感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征

人工設(shè)計特征

深度學(xué)習(xí)特征

通過卷積提取圖像特征

劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。

1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10

2維卷積 1*2+3*0+2*4+4*2=28…

通過卷積就可以得到圖像的特征信息,比如邊緣

垂直邊緣檢測

水平邊緣檢測

方向梯度直方圖

2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?

區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計特征的步驟,交由卷積操作去自動提取,分類器的訓(xùn)練也同時融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實現(xiàn)了端對端的學(xué)習(xí)

劃重點:端對端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。

3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:

過擬合學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學(xué)渣『過擬合了預(yù)測試題。

與之對應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。

有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵志的一個公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)

非凸優(yōu)化學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學(xué)習(xí)到的模型就不夠準(zhǔn)確了。

看圖感受一下

你說的底不是底,你說的頂是什么頂

解決的辦法

均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。

4. 應(yīng)用人臉識別

自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標(biāo)識等等。再配合雷達等判斷物體距離。

四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調(diào)、音色

通過采樣、量化、編碼。實現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號)

人工設(shè)計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對低頻聲音比較敏感而對高頻聲音不敏感)。

關(guān)系為:

在每一個頻率區(qū)間對頻譜求均值,它代表了每個頻率范圍內(nèi)聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)

深度學(xué)習(xí)特征通過 3.1 所介紹的 1維卷積進行特征提取

2. 應(yīng)用音樂風(fēng)格分類

輸入:音頻文件特征:聲音特征輸出:音樂種類

語音轉(zhuǎn)文字

輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個英文字母)

再把聲學(xué)模型送入另外的學(xué)習(xí)器

輸入:聲學(xué)模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)

聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)

五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因為人視覺的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:

但是視頻相對于圖像有一個更重要的屬性:動作(行為)。

怎么從一個連續(xù)的視頻分析動作呢?

舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標(biāo)值(Y),經(jīng)過多次的迭代訓(xùn)練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。

2. 光流假設(shè),1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變

至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個像素點的,這里不展開說明。

第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。

整個畫面的光流就是這樣:

整個視頻的光流(軌跡)是這樣的

不同的虛線代表圖像上某個點移動的軌跡

假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進行分類訓(xùn)練。

進一步優(yōu)化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。

六、一段文字在表達什么(自然語言處理)1. 特征提取

這里有4個句子,首先進行分詞:

去掉停用詞(副詞、介詞、標(biāo)點符合等等,一般在文本處理上都有一個停用詞表)

編碼詞表

句子向量化

這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。

2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點呢?需要從多個維度去進一步給詞語更豐富的內(nèi)涵,比如:

舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)

逆向文檔頻率一個詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。

假設(shè)句子中有 N 個詞, 某個詞出現(xiàn)次數(shù)為 T,一共有 X 個句子,該詞語在 W 個句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)

3. 應(yīng)用

七、讓計算機畫畫(生成對抗網(wǎng)絡(luò))從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:

第一次他畫成這樣子了:

鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…

經(jīng)過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認(rèn)為這是真的原作,以高價買入了這副畫。

這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網(wǎng)絡(luò)(GAN)的核心。

通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會了畫『真畫了。

計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。

直線上一些均勻分布的點,經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經(jīng)過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。

下圖為計算機生成手寫數(shù)字的過程

劃重點:函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)

八AlphaGo是怎么下棋的?(強化學(xué)習(xí))1. 粗略認(rèn)知監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強化學(xué)習(xí):多次任務(wù)是否達成最終目標(biāo)

每一次任務(wù)都準(zhǔn)確,不就是能達成最終目標(biāo)嗎?我們來看一個例子:

一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應(yīng)緊缺無法交付這些收音機。

應(yīng)該責(zé)怪誰呢?

從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。

但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達成)。——《心智社會》第7.7章

2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。

但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。

要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。

我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養(yǎng)分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。

同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費大量的時間也難以找到最優(yōu)的方案。

是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。

其中,落子預(yù)測器有個名稱,叫做政策網(wǎng)絡(luò)(policy network)價值評估器有個名稱,叫做價值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負(fù)。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。

通過 政策網(wǎng)絡(luò) + 價值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實現(xiàn)最優(yōu)落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。

3. 定義接下來說一下枯燥的定義

什么是強化學(xué)習(xí)?

當(dāng)我們關(guān)注的不是某個判斷是否準(zhǔn)確,而是行動過程能否帶來最大的收益時使用強化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。

強化學(xué)習(xí)的目標(biāo)是要獲得一個策略(poliey)去指導(dǎo)行動。比如在圍棋博弈中,這個策略可以根據(jù)盤面形勢指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。

一個強化學(xué)習(xí)模型一般包含如下幾個部分:

一組可以動態(tài)變化的狀態(tài)(sute)

對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格

一組可以選取的動作(metion)

對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數(shù)量。

一個可以和決策主體(agent)進行交互的環(huán)境(environment)這個環(huán)境會決定每個動作后狀態(tài)如何變化。

棋手(主體)的落子會影響棋局(環(huán)境),環(huán)境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環(huán)境,供求關(guān)系決定價格),環(huán)境給主體獎勵(賺錢)或懲罰(虧錢)

篇3

關(guān)鍵詞:水尺 檢測 圖像識別

中圖分類號:TP274 文獻標(biāo)識碼:A 文章編號:1007-9416(2013)01-0114-02

1 引言

隨著航運技術(shù)的發(fā)展,船舶運輸越來越受到人們的關(guān)注。船舶的水尺計重作為一種科學(xué)的計重方法,具有一定的準(zhǔn)確性,在國際上已廣泛應(yīng)用,其計算結(jié)果可作為商品交接結(jié)算、理賠、計算運費和通關(guān)計稅的依據(jù)。其適用于價值較低,衡重困難的大宗散裝固體商品,例如煤炭、鐵礦石、水泥、糧食等商品的重量計算。水尺計重的優(yōu)點是省時、省力、省費用,能迅速計算出整船貨物的重量,但是計算過程較為復(fù)雜,影響計重結(jié)果的客觀因素較多,特別船舶刻度觀測水平是影響水尺準(zhǔn)確性最重要因素。船舶吃水線的檢測目前主要依靠經(jīng)過長期訓(xùn)練的觀察人員目測船舶的水尺標(biāo)志而獲得船舶的實際吃水值,為了獲得較為精確的數(shù)值,需要觀察人員多次查看,以求得平均值。這種人眼目測船舶吃水線數(shù)值的方式,往往帶有主觀性,存在較大的局限性,例如:觀測不方便,受環(huán)境影響大,并且觀測存在一定危險。因此,本文提出采用Matlab7.0作為仿真環(huán)境,利用圖像處理技術(shù),設(shè)計船舶吃水線自動檢測的算法來自動檢測船舶水尺刻度數(shù)值,可以克服人工目測所引起的一系列問題,完整的記錄整個觀測階段的吃水線位置,并使后續(xù)的數(shù)據(jù)處理成為可能。降低了系統(tǒng)復(fù)雜性,又提高了效率和準(zhǔn)確度。

2 圖像識別技術(shù)的原理

近年來,拍攝設(shè)備性能的不斷完善,設(shè)備的分辨率能夠達到很精確的程度,圖片質(zhì)量清晰度非常高,同時計算機體系結(jié)構(gòu)和算法的快速發(fā)展,使得圖像處理的性能和運算速度得到了較大提高,這些都為吃水線的求取提供了可能。一幅圖像在計算機中可以定義為一個二維函數(shù)f(x,y),其中x和y是空間(平面)坐標(biāo),而在任何一對空間坐標(biāo)(x,y)處的幅值f稱為該點處的灰度,當(dāng)x,y和灰度值f是有限的離散數(shù)值時,我們稱該圖像為數(shù)值圖像,數(shù)字圖像處理就是借助計算機來處理上述這些數(shù)字圖像。數(shù)字圖像是由有限數(shù)量的元素組成的,每個元素都有一個特殊的位置和數(shù)值,要將一副圖像轉(zhuǎn)化為數(shù)字形式,就要求數(shù)字化x,y和灰度值f。在此基礎(chǔ)上,利用上述數(shù)值,設(shè)計相應(yīng)的算法即可得到船舶水尺精確的刻度值。

3 船舶吃水線刻度檢測算法的設(shè)計

3.1 總體結(jié)構(gòu)設(shè)計

本文利用Matlab7.0作為仿真環(huán)境,通過采集到的視頻圖像序列,首先設(shè)計計算法檢測出吃水線邊緣,找到吃水線的位置,然后對船幫上刻度字進行分割,并求出水平面距離所在刻度上邊緣的距離,利用BP神經(jīng)網(wǎng)絡(luò)對水尺刻度線進行識別,得到吃水線的數(shù)值。吃水線檢測算法的總流程圖如(圖1)所示:

3.2 船舶吃水線刻度檢測算法關(guān)鍵步驟的處理

3.2.1 圖像的灰度化和二值化處理

相比彩色圖像,灰度圖像的邊緣檢測較為方便和快捷,計算量小,所以先將獲取到的彩色圖像轉(zhuǎn)為灰度圖像。而圖像的二值化處理就是將圖像上的像素點的灰度值設(shè)置為0至255,將采樣后所得到的各像素的灰度值用矩陣表示,即灰度圖的量化。所有灰度值大于或者等于閥值的像素被判定為特殊物體,灰度值小于閥值的則表示為背景或者其他物體區(qū)域。通過將灰度值投影到曲線上,則可以獲得灰度值的分布特征。

3.2.2 選擇合適的邊緣檢測算法找到吃水線的邊緣

數(shù)字圖像的邊緣檢測是圖像分割,目標(biāo)區(qū)域識別,區(qū)域形狀提取等圖像領(lǐng)域中十分重要的基礎(chǔ),邊緣是圖像的最基本特征之一,它是利用周圍像素灰度有階躍變化或屋頂變化的像素的集合。邊緣檢測算法大致分為兩類:基于查找和基于零穿越的邊緣檢測。常用的邊緣檢測算法有:Roberts、Prewitt、Sobel、LOG、Canny算法等。

3.2.3 選擇合適的閥值對刻度字的分割

圖像分割是一種重要的圖像分析技術(shù),在對圖像的研究和應(yīng)用中,人們往往僅對圖像中的特定部分感興趣。為了識別和分析圖像中得目標(biāo),需要將它們從圖像中分離提取出來,在此基礎(chǔ)上才有可能進一步對目標(biāo)進行測量和對圖像進行利用。而分割字符的思想就是利用刻度字區(qū)域黑色像素點比較多,比較集中,同時根據(jù)水尺標(biāo)志的特點,每個字符之間有10cm的空隙間隔隔開,這樣得到的投影圖有幾個比較集中卻又有明顯分割的投影峰值群,通過設(shè)定特定的閥值來判定特定物體,通過這種方法將找出船幫上刻度字的左右邊界。

3.2.4 選擇BP神經(jīng)網(wǎng)絡(luò)對船幫處水尺字符進行識別

字符識別的主流技術(shù)有:統(tǒng)計決策法、人工智能法、模板匹配法和人工神經(jīng)元網(wǎng)絡(luò)法等。同在字符識別領(lǐng)域相對比較成熟的光學(xué)字符(OCR)識別、車牌識別相比,船幫處水尺刻度字符由于表面凹凸、油漆掉色或攝像時水面反光等情況造成的字符畸變。為了提高系統(tǒng)的抗干擾性和自適應(yīng)性,本文計劃采用對噪聲干擾和形變有較好適應(yīng)性的BP神經(jīng)網(wǎng)絡(luò)模型方式來進行識別。BP網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一個分支,又稱誤差信號反饋網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)中使用最廣泛的一類。并嘗試通過改善收斂性,神經(jīng)元的個數(shù),提高系統(tǒng)的識別率。

3.3 Matlab軟件的使用

Matlab由美國的MathWorks公司出品,它的指令表達式與數(shù)學(xué),工程中常用的形式十分相似。其典型的應(yīng)用包括:(1)數(shù)學(xué)和計算;(2)算法開發(fā);(3)數(shù)據(jù)獲??;(4)建模、模擬和原型設(shè)計;(5)數(shù)據(jù)分析、研究和可視化;(6)科學(xué)和工程圖形;(7)應(yīng)用開發(fā),包括圖像用戶界面的構(gòu)建。MATLAB中補充了許多針對特殊應(yīng)用的工具箱,圖像處理工具箱是一個MATLAB函數(shù)集合,能進行圖像的和、差等線性運算,以及卷積、相關(guān)、濾波等非線性運算,幾乎包括了常用的圖像處理操作的各種函數(shù),只需了解這些函數(shù)的使用方法,正確調(diào)用函數(shù)就可以實現(xiàn)常用的各種圖像處理的操作。MATLAB能支持包括:TIFF、BMP、JPEG等的圖形文件的格式,用它來解決圖像問題比用C,F(xiàn)ortran等語言完成相同的事情簡捷的多。因此利用此工具,我們可以方便地從各個方面對圖像的性質(zhì)進行深入的研究。

本文所研究的內(nèi)容是在靜態(tài)圖像上對吃水線進行檢測,其技術(shù)路線包括圖像的預(yù)處理,利用邊緣檢測算子對吃水線邊緣進行擬合,去除干擾,得到吃水線的位置。利用船舶刻度字的特點,對其進行分割,對分割出來的字符進行識別后,得到吃水線的數(shù)值。以上都可以通過Matlab調(diào)用不同的工具箱和函數(shù)來實現(xiàn)。

4 結(jié)語

由于經(jīng)濟利益,發(fā)貨人、收貨方和承運人都對貨物的重量非常重視,而且越來越精細(xì)、嚴(yán)格,如何準(zhǔn)確計算船舶載重量成為亟待解決的問題。作為近年來快速發(fā)展起來的一個計算機學(xué)科,通過使用圖像處理和分析的手段,獲得水平面在圖像中的準(zhǔn)確位置,既可以克服人工目測所引起的一系列問題,完整的記錄整個觀測階段的吃水線位置,使后續(xù)的數(shù)據(jù)處理成為可能,既降低了系統(tǒng)復(fù)雜性,又提高了效率和準(zhǔn)確度。圖像處理的對象是一幅幅拍攝下的照片,其中的吃水線位置是固定的,這樣就為后續(xù)的處理和計算奠定了一個靜態(tài)的基礎(chǔ),不會發(fā)生象人眼目測,由于景物晃動而產(chǎn)生的錯覺。同時,拍攝下的照片作為測量的記錄保存,可以滿足今后復(fù)核或是查對的要求。再次,利用圖像處理技術(shù),可以大幅度降低對有經(jīng)驗觀測人員的依賴。因此利用圖像識別技術(shù)對船舶水尺測量具有廣泛的應(yīng)用價值。

參考文獻

[1]SN/T 0187-93 進出口商品重量鑒定規(guī)程——水尺計重.

[2]陳德為,張培銘.轉(zhuǎn)動式交流接觸器動態(tài)過程分析與控制[J].福州大學(xué)學(xué)報:自然科學(xué)版,2008,36(1):95—99.

[3]陳德為,張培銘.采用高速攝像機的智能交流接觸器控制及其測試裝置的研制[M].電工電能新技術(shù):2009,28(3):58-61,72.

[4]周廣程.圖像處理技術(shù)在船舶吃水自動檢測系統(tǒng)中的應(yīng)用[D].南京:南京理工大學(xué),2006.

篇4

關(guān)鍵詞: 動態(tài)紋理分類; 慢特征分析; 深度學(xué)習(xí); 堆棧降噪自動編碼網(wǎng)絡(luò)模型

中圖分類號: TN919?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2015)06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia, WEI Xue?yun, WANG Biao

(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)

Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引 言

動態(tài)紋理是指具有空間重復(fù)性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態(tài)紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態(tài)紋理特征的兩大方面。在目前的動態(tài)視頻分析系統(tǒng)中,最關(guān)鍵的步驟是如何提取有效的動態(tài)紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態(tài)紋理特征的研究,動態(tài)紋理的研究相對靜態(tài)紋理而言起步要晚的多。動態(tài)紋理的研究最早始于20世紀(jì)90年代初,由Nelson和Polana采用建立線性系統(tǒng)模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態(tài)紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態(tài)紋理序列進行建模?;诠饬鞯淖R別法是目前比較流行的動態(tài)紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態(tài)紋理特征,F(xiàn)azekas和Chetverikov總結(jié)出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態(tài)特性和形狀特性[5]。基于LBP的動態(tài)紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結(jié)合“運動”和“外觀”特征。2007―2008年是動態(tài)紋理研究最多的兩年,各大期刊雜志連續(xù)刊登有關(guān)動態(tài)紋理的研究文章。

本文試圖解決動態(tài)自然場景的分類問題(例如:煙火、河流、風(fēng)暴、海洋、雪花等)。在計算機視覺領(lǐng)域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環(huán)境比較復(fù)雜,動態(tài)紋理表現(xiàn)不穩(wěn)定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調(diào)節(jié),所以該類方法并不適用于動態(tài)場景分類。Theriault等人提出利用慢特征分析的方法來提取動態(tài)視頻序列的特征[8]。該方法雖然能有效表示動態(tài)紋理特征,但是其提取的特征維數(shù)較高。深度學(xué)習(xí)是機器學(xué)習(xí)研究中一個新的領(lǐng)域,其動機在于建立、模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),近幾年深度學(xué)習(xí)網(wǎng)絡(luò)模型在大尺度圖像分類問題中成功應(yīng)用使得其得到越來越多人的重視。卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和堆棧自編碼網(wǎng)絡(luò)是三種典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型,而堆棧自編碼網(wǎng)絡(luò)模型不僅對高維數(shù)據(jù)有很好的表示,而且采用非監(jiān)督的學(xué)習(xí)模式對輸入數(shù)據(jù)進行特征提取,這對于傳統(tǒng)的手動提取特征。利用堆棧自編碼網(wǎng)絡(luò)模型對慢特征進行進一步學(xué)習(xí),不僅能降低數(shù)據(jù)維度,而且還能提取出數(shù)據(jù)更有效的特征表示。

1 基于堆棧自編碼網(wǎng)絡(luò)模型的慢特征分析法

1.1 慢特征分析法

文獻[9?10]中提到,慢特征分析算法的目標(biāo)是從不斷變化的輸入信號中學(xué)習(xí)不變量,即除了無意義的常值信號外,最具不變性質(zhì)的信息,其實質(zhì)也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。

實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態(tài)紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關(guān)矩陣的特征值分解,其本質(zhì)是在經(jīng)過非線性擴展特征空間對目標(biāo)函數(shù)進行優(yōu)化,尋找最優(yōu)解的線性組合。

給定一個時域輸入信號序列:

[vt=v1t,v2t,…,vDtT]

目標(biāo)就是學(xué)習(xí)一組映射函數(shù):

[Sv=S1v,S2v,…,SMv]

使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關(guān)的重要信息。選用時域信號一階導(dǎo)數(shù)的均方值來衡量輸出信號個分量的變化率:

[minSj<y?2j>t] (1)

且滿足以下條件:

(1) [<yj>t=0];

(2) [<y2j>t=1];

(3) [?j<j':<yj,yj'>t=0]。

其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導(dǎo)數(shù)。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關(guān)的,且不同慢特征承載著不同信息。值得注意的是,函數(shù)[Sv]是輸入信號的瞬時函數(shù),所以輸出結(jié)果不能看成是通過低通濾波器的結(jié)果,慢特征處理速度要比低通濾波器快很多。如圖1所示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t1.tif>

圖1 時域輸入信號慢特征的提取

輸出信號各分量按照變化率從小到大排列,且互不相關(guān),其最優(yōu)解問題可以看成以下公式的解特征值問題:

[Sj:<v?v?T>tSj=λjSj] (2)

求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關(guān)。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。

這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預(yù)先學(xué)習(xí)到的慢特征能達到最優(yōu)。

1.2 堆棧自動編碼模型

自動編碼器模型是深度學(xué)習(xí)網(wǎng)絡(luò)模型之一,其盡可能復(fù)現(xiàn)輸入信號,捕捉代表輸入信號的主要成分。

如圖2所示,對于給定輸入信號[x],根據(jù)式(2)得到輸出[y],此過程為編碼過程:

[y=fθx=sWx+b] (3)

式中:[sx=11+θ-x];[W]是[d′×d]維權(quán)重矩陣;[b]是偏移向量。

為了驗證輸出[y]是否準(zhǔn)確表達原輸入信號,利用式(2)對其進行重構(gòu),得到重構(gòu)信號[z]。此過程為解碼/重構(gòu)過程:

[gθ′y=sW′y+b′] (4)

從輸入到輸出的權(quán)值記為[θ=W,b],從輸出到輸入的權(quán)值記為[θ′=W′,b′]。逐層進行參數(shù)[θ]和[θ′]的優(yōu)化,式(5)為其目標(biāo)函數(shù):

[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)

調(diào)整參數(shù),使得重構(gòu)誤差達到最小,因此可以得到[x]的第一層表示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t2.tif>

圖2 普通DA和降噪DA

降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎(chǔ)上給訓(xùn)練數(shù)據(jù)加入噪聲,編碼器需要學(xué)習(xí)去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網(wǎng)絡(luò)模型。利用優(yōu)化后的參數(shù)[θ]得到當(dāng)前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數(shù)據(jù),逐層進行降噪自動編碼的過程,直到到達多層神經(jīng)網(wǎng)絡(luò)中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t3.tif>

圖3 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法預(yù)先學(xué)習(xí)動態(tài)視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。

2 實 驗

2.1 實驗數(shù)據(jù)集與評估準(zhǔn)則

實驗所用數(shù)據(jù)由10類動態(tài)場景構(gòu)成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構(gòu)成。這些視頻序列全部來自于加拿大約克大學(xué)計算機視覺實驗室于2012年的YUPENN動態(tài)場景數(shù)據(jù)集[14],該數(shù)據(jù)庫主要強調(diào)的是對象和表層在短時間內(nèi)場景的實時信息。如圖5所示。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t4.tif>

圖4 基于Sda的慢特征分析步驟圖

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t5.tif>

圖5 YUPENN動態(tài)數(shù)據(jù)庫

將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉(zhuǎn),旋轉(zhuǎn)角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數(shù)為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量?;煜仃囀嵌喾诸悊栴}中常用的衡量準(zhǔn)則,它使得分類結(jié)果一目了然并能指出錯誤預(yù)測的影響。分類矩陣通過確定預(yù)測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數(shù),并在矩陣中顯示總計。實驗中一共有14個類別的數(shù)據(jù)集,所以最后會產(chǎn)生一個大小為14×14的混淆矩陣。

2.2 實驗結(jié)果與分析

實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉(zhuǎn)換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網(wǎng)絡(luò)模型的輸入數(shù)據(jù)。

2.2.1 Sda網(wǎng)絡(luò)模型大小

堆棧降噪自動編碼器網(wǎng)絡(luò)層數(shù)以及每一層的大小對輸出特征的魯棒性和SVM分類結(jié)果有重要的影響。當(dāng)網(wǎng)絡(luò)層數(shù)不一樣時,模型學(xué)習(xí)到的特征也就不一樣,網(wǎng)絡(luò)層數(shù)過低,學(xué)習(xí)力度可能不夠,特征達不到最佳表示效果,網(wǎng)絡(luò)層數(shù)太高,可能會出現(xiàn)過擬合現(xiàn)象,隱層的大小和最后的分類結(jié)果也息息相關(guān),所以選取不同網(wǎng)絡(luò)層數(shù)和隱層大小分別進行實驗,如圖6所示,選取網(wǎng)絡(luò)層數(shù)分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當(dāng)隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網(wǎng)絡(luò)層數(shù)不斷增加,實驗結(jié)果不斷提升,當(dāng)網(wǎng)絡(luò)層數(shù)由2層上升到3層時,實驗結(jié)果已經(jīng)非常接近(網(wǎng)絡(luò)層數(shù)為2時score=95.9%,網(wǎng)絡(luò)層數(shù)為3時score=96.3%)。可以得知,隨著網(wǎng)絡(luò)層數(shù)不斷增加,分類的效果逐漸提高,當(dāng)網(wǎng)絡(luò)層數(shù)為3時,分類結(jié)果已非常接近。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t6.tif>

圖6 不同網(wǎng)絡(luò)層數(shù)和隱層大小的分類結(jié)果

2.2.2 噪聲

Sdae對每一層的輸入加入噪聲,編碼器自動學(xué)習(xí)如何去除噪聲而獲得更加魯棒的動態(tài)紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網(wǎng)絡(luò)層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數(shù)據(jù)加入25%的噪聲時score=0.964為最大值。

2.2.3 混淆矩陣以及實驗與現(xiàn)有方法的比較

圖8為實驗最優(yōu)參數(shù)所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經(jīng)達到83%左右,其容易被誤分成森林火災(zāi)(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現(xiàn)有幾個比較常用的動態(tài)紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態(tài)場景中分類效果總是優(yōu)于其他幾種方法。

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t7.tif>

圖7 加入不同噪聲的分類結(jié)果

<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t8.tif>

圖8 混淆矩陣

表1 本實驗與現(xiàn)有方法比較

3 結(jié) 語

本文提出一種基于多層降噪自動編碼網(wǎng)絡(luò)模型的動態(tài)紋理分類方法:預(yù)先學(xué)習(xí)動態(tài)視頻序列的慢特征,以此作為多層降噪自編碼網(wǎng)絡(luò)模型的輸入數(shù)據(jù)進行非監(jiān)督的深度學(xué)習(xí),網(wǎng)絡(luò)最頂層的輸出即為所提取的動態(tài)紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數(shù)如網(wǎng)絡(luò)模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態(tài)紋理有很好的表示作用,分類效果不錯,在動態(tài)場景分類問題中有很大的應(yīng)用價值。

參考文獻

[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.

[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.

[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.

[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.

[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.

[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.

[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.

[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.

[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.

[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.

[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.

[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.

[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.

[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.

篇5

關(guān)鍵詞 Sobel算法;算子;邊緣檢測;多方向模板;邊緣細(xì)化

中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)27-0159-03

Abstract: Edge extraction is an essential part of image research. In this paper, a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm, the existence of the detection direction is not strong and edge extraction of the characteristics of the rough, an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results, it can be concluded that compared with the traditional Sobel, the improved algorithm is more fine and the direction is stronger than the traditional one.

Key words:sobel arithmetic; operator; edge detection; multi direction template; edge thinning

1 引言

唐卡在藏族文化、歷史、政治等各個領(lǐng)域都有涉及,凝聚著藏族人民的智慧,記載了藏族歷史發(fā)展,具有很高的研究價值。 在日常生活中,人們主要采用語音和圖像這兩種方式來進行信息的傳遞[1],隨著科學(xué)技術(shù)和數(shù)字媒體的不斷發(fā)展,圖像所包含的信息越來越豐富。在醫(yī)學(xué)、氣象監(jiān)控、藝術(shù)創(chuàng)作、傳真、微生物工程等都有很大應(yīng)用,因而圖像處理的技術(shù)變得越來越重要。而圖像邊緣是整個圖像的整體概貌,圖像的邊緣提取也就成了圖像處理技術(shù)過程中最基礎(chǔ)也最重要的一步,人們也希望找到一種方法可以抗噪強、定位準(zhǔn)、不漏檢、不誤檢[2]。目前,邊緣提取算法主要可以分為三大類:

第一是基于導(dǎo)數(shù)的方法,比如[3]:1)Sobel算法:一階微分算法,在圖像空間利用兩個方向模板與圖像進行卷積;2)Roberts算法:一階微分的邊緣檢測算子,利用相鄰對角方向的兩個像素之差檢測邊緣;3)Prewitt算法:一階微分算法,利用水平和垂直兩個方向的卷與圖像的每個像素進行卷積,兩者得出的最大值即為結(jié)果;4)Kirsch算法:利用8個方向算子與圖像的像素進行卷積檢測邊緣;5)Canny算法:一種多級算法;

第二是基于能量準(zhǔn)則的算法,比如:1)松弛算法: 指對于每個頂點v∈V,都設(shè)置一個屬性d[v],用來描述從源點s到v的最短路徑上權(quán)值的上界,稱為最短路徑估計;2)神經(jīng)網(wǎng)絡(luò)分析: 從神經(jīng)心理學(xué)和認(rèn)知科學(xué)研究成果出發(fā),應(yīng)用數(shù)學(xué)方法發(fā)展起來的一種具有高度并行計算能力、自學(xué)能力和容錯能力的處理方法;3)Snake算法: 給出初始的輪廓,然后進行迭代,使輪廓沿能量降低的方向靠近,最后得到一個優(yōu)化的邊界;

第三種是剛發(fā)展的一些新技術(shù),比如:小波變換: 一種新的變換分析方法,它繼承和發(fā)展了短時傅立葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點,能夠提供一個隨頻率改變的“時間-頻率”窗口,是進行信號時頻分析和處理的理想工具。

2 常用邊緣提取算法的比較

傳統(tǒng)的邊緣算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。這些邊緣檢測算法操作簡單,速度快,但是檢測的邊緣容易受到噪聲的干擾,所以都存在檢測出的邊緣不準(zhǔn)確,造成誤差的原因主要有:1)圖像本身所具有的真實灰度與我們想檢測的灰度值之間不完全吻合;2)算子模板方向固定,忽略了其他方向的邊緣;3)都比較容易受噪聲影響。[4]

表1對傳統(tǒng)邊緣提取的算法在邊緣輸出、漏檢、假檢、邊緣檢測精度、耗時、抗噪能力等方面進行了比較。從表中可以看出,Sobel算法除了耗時比較長以外,是幾種傳統(tǒng)算法中最實用的一種算法,本文通過比較,以傳統(tǒng)Sobel算法為基礎(chǔ),在此分析基礎(chǔ)上提出了一種改進后的Sobel算法。

3 傳統(tǒng)的sobel算法

3.1 傳統(tǒng)Sobel算法基本理論

Sobel算法是基于梯度的一階導(dǎo)數(shù)的邊緣檢測方法,由于圖像的灰度邊緣處會有跳變的現(xiàn)象[6],從而根據(jù)此現(xiàn)象來進行邊緣的檢測。傳統(tǒng)Sobel算子在圖像空間利用兩個方向模板與圖像進行卷積,一個是水平梯度方向,來檢測垂直邊緣;一個是垂直梯度方向,來檢測水平邊緣。模板中的數(shù)字為模板系數(shù),中間的點表示中心元素,梯度方向與邊緣方向總是正交垂直。兩個方向的算子如圖1所示:

3.2 算法實現(xiàn)

首先分別將水平和垂直方向上的兩個模板的中心點與圖像中的每個像素對應(yīng);然后用模板與圖像進行卷積;最后兩個模板與圖像進行卷積后得出的兩個值,比較大小,選出最大值,則為某點的新的像素值。也可理解為是求最大值的方法,用公式定義如下:

g(i,j)=|f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-f(i-1,j-1)-2f(i,j-1)-f(i+1,j-1)|+|f(i-1,j-1)+2f(i-1,j+1)+f(i+1,j-1)-2f(i+1,j)-f(i+1,j+1)|

卷積模板如圖1,卷積的最大值為該點的輸出值。由于傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個方向,忽略了邊緣的多方向性;其次,檢測出的邊緣有很多的偽邊緣,并且檢測出的邊緣較粗,本文提出了8方向的5*5模板的改進方法。

4 改進后的sobel算法

4.1 8個方向模板

傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個方向,檢測出的邊緣較粗,并且具有偽邊緣,因此,有人提出了一些改進的方法,例如:1)先用Sobel進行邊緣檢測,用ostu二值化,最后用多像素邊緣細(xì)化算法進行細(xì)化;2)先用Sobel進行邊緣檢測,用Sobel進行細(xì)化,最后用自適應(yīng)的動態(tài)閾值計算方法進行二值化;3)基于Sobel算法梯度相乘的熱紅外圖像邊緣提?。?)自適應(yīng)權(quán)值的改進算法等等。而本文的改進方法是將邊緣方向擴展為0°、45°、90°、135°、180°、225°、270°、315° 8個方向,以此增加邊緣方向的準(zhǔn)確性。如圖2,圖3所示[6]:

4.2 改進后算法的實現(xiàn)

設(shè)(i,j)為圖像上各點像素坐標(biāo),g(i,j)為圖像在該點的灰度值,[g(i,j)]矩陣為將要檢測的圖像,w(i,j)為最后檢測所得的結(jié)果,由于8個方向模板為5*5,s[g(i,j)]即為以點(i,j)為中心的5*5模板,f(k)為圖3中8個模板(其中k為0、1、2、3、4、5、6、7、),m為長度為8的數(shù)組。

第一步:將f(k)與s[g(i,j)]進行卷積,將計算所得的結(jié)果的絕對值存放在數(shù)組m中;

第二步:目的是:查找第一步算出的8個結(jié)果中的最大值,在一組數(shù)組中查找最大最小值,有二分法、冒泡排序法、選擇排序法等等,由于本文涉及的數(shù)組中數(shù)據(jù)較少,因此選擇順序查找法來找出數(shù)組中的最大值,順序查找法就是假定要從n個整數(shù)中查找最大值, 則從頭到尾逐個查找。具體步驟如下:

a、 令max=m[0],k=1;

b、 若m[k]>max,則max=m[k];否則,k=k+1;

c、 若k

第三步:將max賦給w(i,j),即為該點的輸出值[7]。

最后的輸出值即為該點新的像素值。

4.3 邊緣細(xì)化

我們采用改進后的算法對圖像進行邊緣提取,得到的圖像1與原始的圖像相比,圖像1的邊緣灰度有變化,在此基礎(chǔ)上,我們在對圖像1進行同樣的處理,再用改進后算法進行提取,得到的圖像2在圖像1的基礎(chǔ)上,中間的圖像部分變成了背景,得到的邊緣更細(xì),兩次所到的圖像邊緣進行相減,即:2-1得到圖像3,關(guān)于圖像3,我們將其邊緣像素的負(fù)值全部改為0,所得到的圖像即為細(xì)化后的結(jié)果圖。

5 實驗結(jié)果

為檢測改進后的算法與傳統(tǒng)算法的效果,在VC++環(huán)境下,以轉(zhuǎn)經(jīng)筒和唐卡為例對進行邊緣提取后的效果圖進行對比。圖4圖5為原圖;圖6圖7為傳統(tǒng)算法提取的結(jié)果;圖8圖9為改進后的效果圖。有圖可以看出,;圖6檢測出的邊緣相對清晰完整,而圖5提取的邊緣比較模糊,并且數(shù)據(jù)比較亂,圖6相對圖5檢測的邊緣更加豐富,總的來說,本文的方法很好保護了各方向的邊緣,得到了更好的效果。

6 結(jié)論

針對傳統(tǒng)Sobel算法的一些弊端,本文擴展成5*5的8方向模板,重新定義了模板中的權(quán)值,和傳統(tǒng)Sobel算法相比,在一定程度較好的保留并檢測出了各個方向的邊緣,且相對簡單,對于傳統(tǒng)的其他算法,如Roberts算法、Prewitt算法等都可以依據(jù)此方法進行改進,增加模板、擴展邊緣方向為8個或者更多,以此得到更好的應(yīng)用。

參考文獻:

[1]鄭英娟.基于八方向Sobel算子的邊緣檢測[J].數(shù)字信息處理,2013(S2).

[2]章毓晉.圖像工程[M].北京:清華大學(xué)出版社,1999.

[3]何春華.基于改進Sobel算子的邊緣檢測算法的研究[J].信息光學(xué)與圖像處理,2012(3).

[4]李安安.幾種圖像邊緣檢測算法的比較和展望[J].信息 技術(shù)與通信,2009(12).

[5]高飛.Sobel邊緣檢測算子的改進研究[J].算法分析,2016(1).

篇6

關(guān)鍵詞: Volterra級數(shù);非線性系統(tǒng)辨識;廣義頻域響應(yīng)函數(shù)(GFRF);多音信號;Vandermode法

中圖分類號: TP206.3文獻標(biāo)志碼: A

現(xiàn)實世界中,存在著大量的非線性現(xiàn)象,幾乎所有的控制系統(tǒng)、電子系統(tǒng)都是非線性的,線性只是對非線性在一定程度和范圍內(nèi)的近似描述.隨著現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展,關(guān)于非線性系統(tǒng)的控制、建模、分析、綜合和預(yù)測等問題日益凸現(xiàn),非線性已成為目前研究的熱點問題.

解決非線性問題的基礎(chǔ)是建立描述非線性系統(tǒng)的數(shù)學(xué)模型,Volterra級數(shù)是非線性系統(tǒng)建模的常用模型之一,包括時域核及頻域核兩種形式[12].Volterra核函數(shù)是線性系統(tǒng)描述的直接擴展,與線性系統(tǒng)的脈沖和頻率響應(yīng)函數(shù)一樣,能夠描述非線性系統(tǒng)的本質(zhì)特性,具有物理意義明確、適應(yīng)范圍廣等優(yōu)點,在諸多領(lǐng)域取得了許多成功的應(yīng)用[36].Volterra時域核的傅里葉變換形式被稱作Volterra頻域核,或廣義頻域響應(yīng)函數(shù)(generalized frequencyresponse functions, GFRFs)[7].Volterra頻域核提供了從頻域分析非線性系統(tǒng)的方法,人們往往更加關(guān)心Volterra頻域核,這是由于相對于Volterra時域核,其頻域形式可使人們直觀、準(zhǔn)確地理解許多重要的非線性現(xiàn)象.Chua給出了多音激勵下Volterra核頻域輸出特性[8];Bedrosian分析了在諧波及高斯輸入激勵下Volterra系統(tǒng)的輸出特性[9].目前,Volterra頻域核的辨識方法分為參數(shù)辨識和非參數(shù)辨識兩種[1011].參數(shù)辨識的方法是基于非線性系統(tǒng)的微分方程來辨識Volterra頻域核[1215],該方法比較成熟;非參數(shù)辨識是基于系統(tǒng)的輸入輸出數(shù)據(jù)來辨識Volterra頻域核[1620].由于非線性系統(tǒng)的復(fù)雜性,通常很難獲得其理想的數(shù)學(xué)模型,因此參數(shù)辨識的方法有其局限性.由于非參西南交通大學(xué)學(xué)報第48卷第2期韓海濤等:基于多音激勵的Volterra頻域核非參數(shù)辨識方法數(shù)辨識是基于“黑箱”辨識,不用了解系統(tǒng)的內(nèi)部機理及物理特性,只根據(jù)系統(tǒng)的輸入輸出數(shù)據(jù)進行辨識,因此更具有實用性.

文獻[16]提出了一種基于時域分析的非參數(shù)辨識方法,該方法僅能計算出Volterra核在諧波頻率成分處的值,且只適用于辨識前3階Volterra核;文獻[17]采用高斯白噪聲作為系統(tǒng)的輸入激勵,根據(jù)時域自適應(yīng)辨識方法對Volterra核進行辨識,這種方法待辨識的參數(shù)與系統(tǒng)的記憶長度和階次成指數(shù)增加,辨識過程復(fù)雜、計算量大;文獻[1819]基于頻率分離思想給出了基于多音激勵的Volterra頻域核的非參數(shù)辨識方法,該方法具有較高的辨識精度,然而沒有系統(tǒng)地推導(dǎo)出任一階Volterra頻率核的辨識公式;文獻[20]雖然給出了多音激勵下Volterra頻域核的估算公式,但估算誤差比較大,使非參數(shù)辨識方法的應(yīng)用受到很大的限制;文獻[21]提出了Volterra頻域核辨識的多音激勵信號設(shè)計,為多音激勵下Volterra頻域核的非參數(shù)辨識奠定了基礎(chǔ).本文對多音激勵下Volterra頻域核的輸出特性進行了深入研究,從理論上系統(tǒng)地推導(dǎo)出了Volterra頻域核的辨識公式,克服了以往Volterra頻率核非參數(shù)辨識方法的不足,通過實驗結(jié)果驗證了本文結(jié)論的正確性.1Volterra頻域核的定義及重要性質(zhì)對任意連續(xù)的時不變?nèi)醴蔷€性動態(tài)系統(tǒng),可以用廣義卷積分或Volterra級數(shù)完全描述:

5結(jié)束語Volterra頻域核的傳統(tǒng)辨識方法存在計算量大、步驟復(fù)雜、精度不高的問題.本文針對這些問題提出了一種新的基于多音激勵的非參數(shù)辨識方法.重點探討了多音信號激勵下Volterra頻域核輸出特性,基于此性質(zhì)推導(dǎo)出了Volterra頻域核的辨識公式,并總結(jié)出了基于多音激勵Volterra頻域核辨識的一般方法步驟.通過對一非線性系統(tǒng)的Volterra頻域核進行辨識,驗證了該方法的有效性.該方法具有計算量小、精度高、易于工程實現(xiàn)的特點,可廣泛應(yīng)用于非線性系統(tǒng)的建模及故障診斷,是一種實用的方法.

參考文獻:

[1]RUGH W J. Nonlinear system theory[M]. The Jonhs Hopkins University Press, 1981: 320.

[2]PENG Zekai, LANG Zhiqiang, BILLING S A. Resonances and resonant frequencies for a class of nonlinear system[J]. Journal of Sound and Vibration, 2007, 300(3): 9931014.

[3]馬紅光,韓崇昭,王國華,等. 雷達引信視頻放大器的GFRF辨識模型及其誤差分析[J]. 探測與控制學(xué)報,2004,26(3): 5054.

MA Hongguang, HAN Chongzhao, WANG Guohua, et al. The GFRF identification model of radar video frequency amplifier and its error analysis[J]. Journal of Detection and Control, 2004, 26(3): 5054.

[4]馬紅光,韓崇昭,孔祥玉,等. 基于電路仿真的接收機中頻放大器的GFRF模型[J]. 系統(tǒng)仿真學(xué)報,2004,16(6): 11431146.

MA Hongguang, HAN Chongzhao, KONG Xiangyu, et al. The GFRF identification model of radar fuze receiver[J]. Journal of System Simulation, 2004, 16(6): 11431146.

[5]馬紅光,韓崇昭,王國華,等. 基于EDA仿真的中頻放大器GFRF模型[J]. 計算機仿真,2004,21(7): 2225.

MA Hongguang, HAN Chongzhao, WANG Guohua, et al. GFRF identification model of IF amplifier based on EDA simulation[J]. Computer Simulation, 2004, 21(7): 2225.

[6]LIU Haiying. Classification of stably dissipative 3D LotkaVolterra system and their necessary and sufficient condition for being stably dissipative[J]. Journal of Modern Transportaion, 2008, 16(3): 298302.

[7]LANG Zhiqiang, BILLING S A. Output frequency characteristics of nonlinear system[J]. International Journal of Control, 1996, 64(6): 10491067.

[8]CHUA L O, NG C Y. Frequency domain analysis of nonlinear systems: general theory[J]. Electronic Circuit and Systems, 1979, 3(4): 165185.

[9]BEDROSIAN E, RICE S O. The output properties of Volterra systems (nonlinear systems with memory) driven by harmonic and Gaussian inputs[J]. Proceedings of the IEEE, 1971, 59(12): 16881707.

[10]LI L M, BILLINGS S A. Analysis of nonlinear oscillators using Volterra series in the frequency domain[J]. Journal of Sound and Vibration, 2011, 330(2): 337355.

[11]CHATTERJEE A, VYAS N S. Nonlinear parameter estimation with Volterra series using the method of recursive iteration through harmonic probing[J]. Journal of Sound and Vibration, 2003, 268(4): 657678.

[12]BILLING S A, TSANG K M. Spectral analysis for nonlinear system, part I: parametric nonlinear spectral analysis[J]. Mechanical Systems and Signal Processing, 1989, 3(4): 319339.

[13]BILLING S A, JONES J C. Mapping nonlinear integrodifferential equations into the frequency domain[J]. International Journal of Control, 1990, 52(4): 863879.

[14]JONES J C, BILLING S A. A recursive algorithm for the computing the frequency response of a class of nonlinear difference equation models[J]. International Journal of Control, 1989, 50(5): 19251940.

[15]JONES J C. Simplified computation of Volterra frequency response functions of nonlinear system[J]. Mechanical Systems and Signal Processing, 2007, 21(3): 14521468.

[16]LI L M, BILLINGS S A. Estimation of generalized frequency response functions for quadratically and cubically nonlinear systems[J]. Journal of Sound and Vibration, 2011, 330(3): 461470.

[17]張家良,曹建福,高峰. 大型裝備傳動系統(tǒng)非線性頻譜特征提取與故障診斷[J]. 控制與決策,2012,27(1): 135138.

ZHANG Jialiang, CAO Jianfu, GAO Feng. Feature extraction and fault diagnosis of largescale equipment transmission system based on nonlinear frequency spectrum[J]. Control and Decision, 2012, 27(1): 135138.

[18]BOYD S, TANG Y S, CHUA L O. Measuring Volterra kernel[J]. IEEE Transactions on Circuits and Systems, 1983, 30(8): 571577.

[19]CHUA L O, LIAO Youlin. Measuring Volterra kernel (Ⅱ)[J]. International Journal of Circuit Theory and Applications, 1989, 17(2): 151190.

[20]殷時蓉. 基于Volterra級數(shù)和神經(jīng)網(wǎng)絡(luò)的非線性電路故障診斷研究[D]. 成都:電子科技大學(xué),2007: 5354.

[21]韓海濤,馬紅光,韓琨,等. 關(guān)于Volterra頻域核辨識的多音激勵信號設(shè)計[J]. 工程設(shè)計學(xué)報,2012,19(2): 123127.

篇7

關(guān)鍵詞:紅棗(Ziziphus zizyphus);邊緣檢測;分級

中圖分類號:S665.1;TP751.1文獻標(biāo)識碼:A文章編號:0439-8114(2014)10-2427-04

Grading Red Dates Based on the Size from Image Edge Detection

YAO Na,WU Gang,CHEN Jie

(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)

Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.

Key words:red dates(Ziziphus zizyphus); edge detection; grading

基金項目:新疆生產(chǎn)建設(shè)兵團青年科技創(chuàng)新資金專項(2013CB020)

新疆地區(qū)紅棗品種較多,有的品種含糖量高達34%,其營養(yǎng)豐富,受到人們的喜愛。目前,紅棗品種越來越多,其產(chǎn)量及銷售量也越來越高,紅棗采集后對其進行分類是加工過程中很重要的工作環(huán)節(jié),最初的分揀都是由人工完成,一方面需要大量的人力資源;另一方面不能保證產(chǎn)品的安全。隨著科學(xué)技術(shù)的發(fā)展,農(nóng)業(yè)機械化的應(yīng)用越來越廣泛,研究者將重點關(guān)注紅棗自動分級,可以節(jié)省人力而實現(xiàn)農(nóng)業(yè)自動化。李湘萍[1]介紹了紅棗分級機的工作原理;張保生等[2]將紅棗的形狀特征、顏色特征和紋理特征通過BP網(wǎng)絡(luò)算法進行自動分級;趙文杰等[3]提出了以顏色作為特征利用支持向量機的方法進行紅棗的缺陷識別,識別率可達96.2%;肖愛玲[4]對幾種典型的紅棗分級機的結(jié)構(gòu)進行了介紹;肖愛玲等[5]對2011年前紅棗的分級技術(shù)及研究現(xiàn)狀進行了總結(jié);沈從舉等[6]對紅棗分級機的研究狀態(tài)和應(yīng)用方法進行了歸納。

目前,基于計算機視覺的方法具有智能化、精度高、損傷小等優(yōu)點,該方法的核心部分在于選取什么特征以及利用何種算法對紅棗進行判斷。研究者提出的方法具有一個共同特點是特征選取較多,比如同時提取顏色特征、形狀特征和紋理特征,因此計算量較大,分級機的設(shè)計組成對信息處理的硬件部分有較高的要求,在紅棗分級機的設(shè)計中存在兩方面的問題:一方面成本較高;另一方面硬件達不到設(shè)計的要求。小波變換對噪聲不敏感,邊緣檢測清晰,所以有不少研究者將不同的小波變換方法[7-10]應(yīng)用在圖像邊緣檢測中,經(jīng)仿真試驗證明也適合應(yīng)用在紅棗的邊緣檢測中。因此,本研究提出一種簡單的分級方法來對紅棗進行分級,即以提取紅棗的邊緣特征,只有形狀特征,應(yīng)用小波變換的算法,減少了計算量。

1材料與方法

1.1材料

紅棗品種為新疆阿拉爾地區(qū)種植的駿棗,已經(jīng)過人為的挑揀,測試結(jié)果得分為優(yōu)等級的個數(shù)較多。

1.2檢測方法

在無腐爛的情況下,個體較大、飽滿的紅棗可分到較高的級別中,可用邊緣檢測方法對紅棗的邊緣進行檢測,然后根據(jù)檢測出的邊緣再計算紅棗的面積,面積大于某一設(shè)定閾值的紅棗為優(yōu)等級,其余為低級。

1.3小波邊緣檢測

小波變換可以解決時域和頻域的矛盾,可以將信號進行更精確地分析。圖像中的邊緣點為灰度變化較大的像素點,即一階微分極大值點或者二階微分過零點。圖像邊緣檢測可以通過小波的奇異性來檢測。設(shè)θ(x,y)為一個平滑的二維函數(shù),在考慮尺度參數(shù)的情況下,θa(x,y)=■■,■,那么二維小波的定義[11]為:

ψx(x,y)=■

ψy(x,y)=■

用矢量形式表示二維小波變換:

a■+■

=af■(x,y)■+f■(x,y)■

=af(x,y)[ψx(x,y)■+ψy(x,y)■]

=a[(fψx)(x,y)■+(fψy)(x,y)■]

=Wxa f(x,y)■+Wya f(x,y)■

=aΔ(fθa)(x,y)

fθa(x,y)表示圖像f(x,y)與平滑函數(shù)θa(x,y)卷積后的平滑圖像。梯度矢量的模值為:

■ (3)

梯度矢量與水平方向的夾角為:

α=Arg[Wa(x,y)]

=arctan■(4)

確定梯度矢量的模值極值后,再經(jīng)過閾值的處理,可以得到圖像的邊緣,不同的a可以實現(xiàn)多個不同尺度的檢測。圖像中目標(biāo)的方向性是重要的特征之一,作為小波的改進方向,小波的應(yīng)用成為了一個研究熱點,它能有較好的方向性分析,體現(xiàn)了圖像的方向性。任意方向小波變換[12]的定義為:(假設(shè)γ=0,θ∈[0,π)]

Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)

=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ

=||Wa f(x,y)||■?

cosθ+■sinθ (5)

=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))?

cosθ+sin(Arg[Wa f(x,y)])sinθ

=||Wa f(x,y)||(cosαcosθ+sinαsinθ)

=||Wa f(x,y)||cos(α-θ)

運用小波方法對紅棗進行邊緣檢測,為紅棗分級檢測解決基礎(chǔ)性的第一步難題,同時也用經(jīng)典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子對紅棗進行邊緣檢測以便比較分析各自的特點。

1.4分級檢測的過程

檢測紅棗邊緣后需要對紅棗的面積進行計算,通過對邊緣點的長度進行計算可以得出邊緣的長度,將紅棗的形狀假設(shè)為圓形,可以用圓周長將圓面積求出,即可以求出紅棗的面積。假設(shè)計算檢測出邊緣點的長度,紅棗的面積近似為:

s=■ (6)

因為整個過程屬于比較過程,所以進行近似計算不影響相對的比較。

整個分級檢測的仿真試驗步驟為:

1)讀入紅棗圖像,將彩色RGB圖像轉(zhuǎn)為灰度圖像;

2)對紅棗灰度圖像求出小波變換的模值和梯度矢量與水平方向的夾角;

3)在水平方向、垂直方向、-45°方向和+45°方向4個方向上進行搜索判斷模值和梯度方向的條件得到邊緣值,將得到的邊緣值進行歸一化,設(shè)定閾值為0.18來判斷紅棗圖像的邊緣;

4)計算紅棗的邊緣長度,確定紅棗邊緣長度的閾值;

5)根據(jù)公式(6)計算紅棗的面積;大于邊緣長度閾值的對應(yīng)面積閾值的紅棗判定為優(yōu)良等級的紅棗,否則為較差等級的紅棗。

針對不同的分級機的機械設(shè)計,紅棗面積的閾值的確定可以根據(jù)兩種方式:一種方式是針對分級機單個讀取紅棗圖像并直接進行分級挑揀的情況,閾值根據(jù)經(jīng)驗值來確定,比如某種品種的紅棗大小是在固定范圍內(nèi)波動,預(yù)先設(shè)定固定的閾值來進行分級挑揀;另一種方式是針對分級機進行大量紅棗圖像同時進行讀取時,遍歷全部紅棗圖像,找到最大面積的紅棗,然后閾值設(shè)定為最大值的80%,大于該閾值的紅棗判定為優(yōu)等級,否則判定為較差等級。

2結(jié)果與分析

仿真試驗中分別對單個紅棗和兩個紅棗為例進行小波的邊緣檢測,并且將小波檢測結(jié)果與Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子檢測結(jié)果進行分析對比。

2.1 單個紅棗檢測結(jié)果

圖1為理想的情況,即一個紅棗全部被讀入沒有遮蓋的情況,也是正常情況下的邊緣檢測。由圖1可以看出,小波方法檢測出的曲線較少,輪廓清晰,輪廓線的連續(xù)性好,一方面有利于邊緣長度的計算;另一方面減少了曲線個數(shù)的計算,減少了整個方法的計算量。Sobel算子檢測出的紅棗圖像與小波的方法相比較,噪點較多,定位精度不夠高,邊緣比較模糊;Canny算子檢測到的邊緣雖然比較連續(xù),但是出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計算紅棗大小時會增加計算量,并且容易出錯;Prewitt算子和Roberts算子的檢測結(jié)果類似于Sobel算子的檢測結(jié)果,并且Roberts算子的檢測結(jié)果中邊緣斷點較多,給計算紅棗的長度帶來困難;Log算子的檢測結(jié)果邊緣較為連續(xù),有少量斷點,與小波方法相比較紅棗內(nèi)部的噪點較多,復(fù)雜度僅次于Canny算子的方法檢測出的結(jié)果。根據(jù)邊緣檢測的效果和計算復(fù)雜度以及后期需要的算法的復(fù)雜度來比較這幾種方法的優(yōu)劣順序為小波、Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。

2.2兩個有遮蓋的紅棗檢測結(jié)果

圖2為遮蓋的情況,因此單個紅棗的邊緣不能完全檢測出,但是根據(jù)周長閾值的比較結(jié)果,同樣可以算出單個紅棗的面積。由圖2可以看出,小波方法對于有遮蓋的紅棗檢測仍是輪廓清晰且連續(xù)性好,內(nèi)部曲線較少。Sobel算子檢測出的紅棗圖像與小波的方法相比較,噪點較多,邊緣斷點較多,邊緣比較模糊;Canny算子檢測到的邊緣過于模糊且斷點較多,還出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計算紅棗大小時對后期的算法要求較高,且容易出現(xiàn)錯誤結(jié)果;Prewitt算子和Roberts算子的檢測結(jié)果類似于Sobel算子的檢測結(jié)果,Roberts算子的檢測結(jié)果中邊緣較為清楚;Log算子的檢測結(jié)果邊緣斷點較多,與小波方法相比較紅棗內(nèi)部的噪點較多,復(fù)雜度僅次于Canny算子的方法檢測出的結(jié)果。根據(jù)邊緣檢測的結(jié)果和計算復(fù)雜度以及后期算法的復(fù)雜度來比較這幾種方法的優(yōu)劣順序為小波、Roberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。對于單個和兩個紅棗進行檢測的仿真結(jié)果都說明:較于其他5種算子,小波方法均是最優(yōu)的。

研究中采集的紅棗圖像大小為442×398像素,閾值采用經(jīng)驗值,實際的周長閾值映射到圖像中的周長為1 084像素,仿真試驗結(jié)果判定為準(zhǔn)確可行,試驗結(jié)果見表1。

3小結(jié)與討論

隨著自動化技術(shù)在農(nóng)業(yè)產(chǎn)品中應(yīng)用越來越廣泛,其理論研究的方法也越來越多,從計算機視覺領(lǐng)域結(jié)合農(nóng)業(yè)自動化技術(shù)提出了對紅棗加工有促進作用的紅棗自動分級的核心方法,對于紅棗生產(chǎn)的地區(qū)有重要意義。研究提出了利用方向小波方法對紅棗圖像進行邊緣檢測進而計算紅棗大小來對紅棗分級的方法,經(jīng)仿真試驗證明小波變換方法的優(yōu)越性及整個方法的有效性和快速性。此研究是在假設(shè)紅棗無腐爛的情況下進行分級的,所以有一定的局限性,但在下一步研究中可以彌補此點的不足,設(shè)置多個閾值可以將紅棗進行多個等級的分揀。

參考文獻:

[1] 李湘萍.6ZF-0.5型紅棗分級機的試驗研究[J].山西農(nóng)機,2000(14):3-5.

[2] 張保生,姚瑞央.基于BP神經(jīng)網(wǎng)絡(luò)算法的紅棗分級技術(shù)應(yīng)用[J].廣東農(nóng)業(yè)科學(xué),2010(11):282-283.

[3] 趙杰文,劉少鵬,鄒小波.基于機器視覺和支持向量機的缺陷棗的識別研究[J].農(nóng)業(yè)機械學(xué)報,2008,39(3):113-115.

[4] 肖愛玲.幾種典型的紅棗分級機[J].新疆農(nóng)機化,2010(4):10-11.

[5] 肖愛玲,李偉.我國紅棗分級技術(shù)及紅棗分級機研究現(xiàn)狀[J].農(nóng)機化研究,2011(11):241-244.

[6] 沈從舉,賈首星,鄭炫,等.紅棗分級機械的現(xiàn)狀與發(fā)展[J].中國農(nóng)機化學(xué)報,2013,34(1):26-30.

[7] 宋文龍,閔昆龍,邢奕,等.基于小波變換的自適應(yīng)閾值植物根系圖像邊緣檢測[J].北京科技大學(xué)學(xué)報,2012,34(8):966-970.

[8] 王敬東,徐亦斌,.圖像小波邊緣檢測中邊界處理的研究[J].計算機工程,2007,33(5):161-163.

[9] 鮑雄偉.小波變換在圖像邊緣檢測中的應(yīng)用[J].電子設(shè)計工程,2012,20(14):160-162.

[10] 薄勝坤,張麗英.一種基于小波變換和Canny算子相結(jié)合的邊緣檢測方法[J].長春大學(xué)學(xué)報,2012,22(10):1177-1180.

篇8

1影像組學(xué)的定義及方法概述

隨著醫(yī)學(xué)影像技術(shù)及成像手段的快速發(fā)展,所產(chǎn)生的醫(yī)學(xué)圖像數(shù)據(jù)量也越來越大,對圖像獲取和存儲方面的質(zhì)量控制,使得規(guī)范化、多模態(tài)的影像大數(shù)據(jù)集的建立成為可能。過去處理及使用小樣本量圖像數(shù)據(jù)的方法和模式,顯然不能對圖像的大數(shù)據(jù)信息進行充分的挖掘和利用。荷蘭學(xué)者Lambin于2012年首次提出了影像組學(xué)(Radiomics)的概念[9],作為一種新興的利用醫(yī)學(xué)影像大數(shù)據(jù)對疾病進行定量分析預(yù)測的方法,可以從醫(yī)學(xué)圖像中獲得更多客觀定量、肉眼難以鑒別的影像學(xué)特征,再將其轉(zhuǎn)換為可挖掘的高維數(shù)據(jù)信息,從而實現(xiàn)圖像到數(shù)據(jù)的轉(zhuǎn)換[10,11]。通過大量的自動化數(shù)據(jù)特征化算法的使用,影像組學(xué)能有效實現(xiàn)圖像的采集與重組、病灶的分割及勾畫,并通過對病灶影像組學(xué)特征的提取與篩選,最終完成影像組學(xué)模型的建立[11,12]。近些年來,影像組學(xué)已廣泛應(yīng)用于不同疾病的研究之中,在疾病檢測、診斷、鑒別診斷及預(yù)后評估方面發(fā)揮著越來越重要的作用。此外,深度學(xué)習(xí)(Deeplearning)等人工智能技術(shù)的突破性發(fā)展,減少了傳統(tǒng)影像組學(xué)人工提取數(shù)據(jù)特征的步驟,極大地縮短了從病灶影像組學(xué)特征提取到最終影像組學(xué)模型建立的時間,進一步促進了影像組學(xué)技術(shù)在醫(yī)學(xué)圖像處理等諸多領(lǐng)域的應(yīng)用研究。

2影像組學(xué)在肝臟非腫瘤性病變中的研究進展

2.1肝纖維化及肝硬化的診斷評估

肝纖維化是各種慢性肝病發(fā)展為肝硬化或肝癌的過渡階段,主要是由含大量膠原蛋白的細(xì)胞外基質(zhì)(extracellularmatrix,ECM)過度沉積于肝小葉周圍所引起,這些過度沉積的ECM阻礙正常肝細(xì)胞與血液間的物質(zhì)交換,并最終引起肝細(xì)胞的的壞死、變性,從而誘發(fā)了肝纖維化等一系列的慢性肝損傷的過程。組織學(xué)上肝纖維化及部分肝硬化經(jīng)治療后可逆[14],因此早期精準(zhǔn)地評估肝纖維化程度對于患者的治療及預(yù)后十分重要。作為診斷是否存在肝纖維化和評估肝纖維化分期的“金標(biāo)準(zhǔn)”的肝活組織穿刺檢查有創(chuàng)、可重復(fù)性差,并且肝纖維化的不均質(zhì)性、穿刺活檢樣本量較少等因素,均會影響肝纖維化分期的準(zhǔn)確性[13,14]。影像組學(xué)作為一種無創(chuàng)性的方法,可以對肝纖維化及肝硬化程度進行更加準(zhǔn)確的評估。Park等[7]回顧性搜集436例不同肝纖維化患者的釓塞酸二鈉增強MRI圖像并構(gòu)建影像組學(xué)肝纖維化指數(shù)模型,通過與肝活檢結(jié)果對比并內(nèi)部驗證剔除相關(guān)性較低的特征,最終建立與肝纖維化分期相關(guān)性較高的模型,進行前瞻性驗證后發(fā)現(xiàn)其診斷F2~F4、F3~F4級肝纖維化及F4級肝硬化的敏感度和特異度分別為71%、78%,79%、82%,92%、75%;表明基于釓塞酸二鈉增強掃描肝膽期圖像的影像組學(xué)分析能較為準(zhǔn)確地進行肝纖維化的診斷及分期。Wang等[15]搜集12個臨床醫(yī)學(xué)中心,398例患者共1990幅超聲二維剪切波彈性成像圖像,采用深度學(xué)習(xí)算法之一的卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetwork,CNN)建立了超聲彈性成像深度學(xué)習(xí)影像組學(xué)模型,并以肝活檢作為金標(biāo)準(zhǔn)進行模型診斷效能的評估,結(jié)果顯示該模型可顯著提高對肝纖維化分期的準(zhǔn)確性,其對肝硬化(F4)、晚期纖維化(≥F3)和顯著性纖維化(≥F2)診斷的曲線下面積(AUC)值分別高達0.97、0.98和0.85,表現(xiàn)出極佳的診斷效能。有研究[16]采用紋理分析的方法對212例不同病理分期肝纖維化患者和77名志愿者肝臟多層螺旋CT圖像進行分析后發(fā)現(xiàn),隨著肝纖維程度的逐步加重,由紋理分析所獲得的峰度和偏斜度是逐步減低的,而平均灰度強度、熵則表現(xiàn)為依次增高,在區(qū)分不同分期肝纖維化和肝硬化時均顯示出較高的診斷效能,特別是在診斷肝硬化(≥F4)時,峰度和偏斜度的診斷的AUC值分別為0.86、0.87,表明紋理分析不僅有助于檢測肝纖維化的存在,還可用于肝纖維化的分期。綜上所述,基于多種成像手段所構(gòu)建的影像組學(xué)模型對肝纖維化及肝硬化均表現(xiàn)出較高的評估診斷效能,故影像組學(xué)的發(fā)展,可能為臨床上早期發(fā)現(xiàn)、及時準(zhǔn)確評估肝纖維化及肝硬化程度提供幫助,但基于不同成像手段所建立的影像組學(xué)模型間性能差異的研究,有待進一步的探索。

2.2門靜脈高壓及GOV破裂出血風(fēng)險的評估

肝硬化失代償期常伴隨門靜脈高壓癥的出現(xiàn),其嚴(yán)重程度與肝硬化所導(dǎo)致的相關(guān)并發(fā)癥如GOV、肝性腦病、腹腔積液等密切相關(guān),因此,準(zhǔn)確地評估門靜脈高壓程度十分重要。但是,目前評估門靜脈壓力變化的金標(biāo)準(zhǔn)肝靜脈壓力梯度(hepaticvenouspressuregradient,HVPG)為有創(chuàng)檢查、且費用較高,不利于臨床常規(guī)開展[17,18]。GOV破裂出血是晚期肝硬化最常見、最嚴(yán)重的并發(fā)癥,也是患者死亡的主要原因,相關(guān)研究顯示近50%門靜脈高壓癥患者可出現(xiàn)GOV,在肝功能C級的患者中,GOV出現(xiàn)概率高達85%,食管胃十二指腸內(nèi)鏡是診斷GOV的“金標(biāo)準(zhǔn)”[19],主要通過觀察內(nèi)鏡下GOV的范圍、程度及“紅色征”等進行出血風(fēng)險的評估,但內(nèi)鏡檢查對于GOV程度嚴(yán)重的患者可重復(fù)性差。影像組學(xué)的出現(xiàn),為門靜脈高壓及GOV破裂出血風(fēng)險的無創(chuàng)性評估提供了新的選擇。Liu等[20]基于222例不同程度門靜脈高壓患者的增強CT圖像構(gòu)建了臨床顯著性門靜脈高壓(clinical-lysignificantportalhypertension,CSPH)的非侵入性影像組學(xué)模型,并通過4個外部驗證隊列中163例患者,對該模型的診斷性能進行了前瞻性檢驗,結(jié)果顯示該模型不僅在內(nèi)部驗證集中診斷CSPH的AUC值高達0.849,在4個外部前瞻性驗證隊列中,該模型診斷CSPH的AUC值也分別高達0.889、0.800、0.917、0.827,提示該影像組學(xué)模型可作為無創(chuàng)檢測肝硬化CSPH的一種準(zhǔn)確方法。Yang等[21]通過分析兩個臨床醫(yī)學(xué)中心共295例乙肝肝硬化患者的肝臟三期增強CT圖像,從門靜脈期CT圖像提取出21個與GOV出血關(guān)系密切的影像組學(xué)特征,并結(jié)合了3個臨床特征(性別、門靜脈高壓、門靜脈栓子有無),建立了用于預(yù)測乙肝肝硬化患者繼發(fā)GOV出血的CT影像組學(xué)模型,結(jié)果表明該影像組學(xué)模型的預(yù)測效能明顯優(yōu)于臨床模型(AUC0.83vs0.64),對于GOV破裂出血的預(yù)測,在訓(xùn)練隊列與驗證隊列中,該模型預(yù)測的準(zhǔn)確率分別為76%、73%,是一種有效預(yù)測GOV破裂出血的無創(chuàng)性方法。此外,還有研究[22]基于169個門靜脈高壓患者的CT圖像,建立了一個肝、脾特征聯(lián)合的影像組學(xué)模型,并對62例接受GOV治療的患者進行了驗證隊列研究,結(jié)果表明該模型不僅可以用于門靜脈高壓的診斷,還可用于GOV出血復(fù)發(fā)風(fēng)險的預(yù)測,以29.102mmHg為最佳截斷值時,相應(yīng)的AUC可高達0.866,提示該影像組學(xué)模型可作為無創(chuàng)、精準(zhǔn)預(yù)測繼發(fā)于門靜脈高壓癥的GOV治療效果的有效的參考指標(biāo)。影像組學(xué)無創(chuàng)、可重復(fù)性強,在門靜脈壓力及GOV出血風(fēng)險的評估中潛力巨大,但模型預(yù)測效能的穩(wěn)定性及泛化能力,仍需進一步的臨床研究進行證明。

2.3肝臟儲備功能的評估

肝臟儲備功能狀態(tài)的準(zhǔn)確評估,關(guān)乎肝病患者,尤其是肝癌患者治療方式的選擇及預(yù)后[23]。Child-Pugh分級評分系統(tǒng)是臨床應(yīng)用最廣泛的肝臟儲備功能評分標(biāo)準(zhǔn),但Child-Pugh分級具有高度的變異性,易受患者膽汁排泄、門靜脈栓子形成等因素的影響,從而影響臨床工作中對患者肝臟儲備功能評估的準(zhǔn)確性[24,25]。影像組學(xué)通過高通量的提取和處理圖像信息,可以對疾病進行更準(zhǔn)確、更全面的評估。Simp-son等[26]對12例接受大范圍肝切除術(shù)后并發(fā)肝功能不全和24例未出現(xiàn)肝功能不全患者的術(shù)前CT圖像進行紋理分析,發(fā)現(xiàn)術(shù)后并發(fā)肝功能不全患者術(shù)前CT上肝實質(zhì)的質(zhì)地明顯不同,術(shù)后并發(fā)肝功能不全者不僅對稱性較差,均勻性也較差,并且兩組患者紋理特征之一的熵值間也存在顯著的差異,故從術(shù)前CT圖像中提取的紋理特征,可用于預(yù)測患者術(shù)后肝功能衰竭發(fā)生概率,可作為提供術(shù)前風(fēng)險分層的另一種手段。Zhu等[27]基于101例患者的術(shù)前釓塞酸二鈉增強MRI圖像,使用影像組學(xué)的方法從肝膽相圖像中提取了61個影像組學(xué)特征,并最終篩選出5個影像組學(xué)特征用于建立術(shù)前預(yù)測肝癌患者術(shù)后肝功能的影像組學(xué)模型,其結(jié)果表明該模型對于預(yù)測術(shù)后肝功能衰竭發(fā)生概率具有良好的預(yù)測效能,模型預(yù)測的AUC值高達0.894,可用于預(yù)測肝硬化患者肝大部切除術(shù)后的肝功能衰竭。Zhou等[25]通過100例不同肝臟儲備功能肝硬化患者釓塞酸二鈉增強MRI肝膽期圖像所建立的評估肝臟儲備功能的列線圖預(yù)測模型,在預(yù)測肝臟儲備功能方面,也顯示出良好的效能,在訓(xùn)練集及驗證集中,其預(yù)測肝臟儲備功能Child-PughB+C級患者的AUC值分別為0.88和0.86。影像組學(xué)在肝臟儲備功能評估中具有一定的價值,但不同病因患者間肝臟儲備功能影像組學(xué)特征間是否存在差異,以及所建立評估肝臟儲備功能模型的泛化能力,還有待進一步的研究。

2.4與肝臟腫瘤性病變的鑒別診斷

肝臟局灶性病變良惡性的準(zhǔn)確判斷,對于臨床治療方式的選擇及患者的預(yù)后來說十分重要。但部分非腫瘤性病變和腫瘤性病變、良性腫瘤性病變和惡性腫瘤性病變之間影像學(xué)表現(xiàn)存在交叉,易出現(xiàn)誤診。影像組學(xué)能深度挖掘醫(yī)學(xué)影像圖像的影像特征信息,從而降低對肝臟局灶性病變的誤診率。Suo等[28]通過紋理分析的方法對20例肝膿腫患者及26例肝臟惡性腫瘤患者的增強CT圖像分析后發(fā)現(xiàn),紋理特征之一的熵值能較為準(zhǔn)確區(qū)分肝膿腫與肝臟惡性腫瘤,其診斷的靈敏度與特異度分別為81.8%、88.0%,AUC值高達0.888。Nie等[29]基于55例非肝硬化肝局灶性結(jié)節(jié)增生患者和101例肝癌患者的CT影像資料,從增強CT圖像中進行病灶勾畫后提取了4227個影像組學(xué)特征,通過降維方法將其縮減為10個影像組學(xué)特征,并聯(lián)合性別、年齡,病灶大小、形狀、中央瘢痕征有無等主觀評價條件構(gòu)建了一個用于鑒別診斷肝臟局灶性結(jié)節(jié)增生與肝癌的影像組學(xué)模型,結(jié)果顯示該模型在訓(xùn)練集及驗證集區(qū)分兩者的AUC分別高達0.979和0.917,具有良好的預(yù)測效能。而鐘熹等[30]對31例患者肝硬化結(jié)節(jié)常規(guī)T2WI序列進行紋理分析的結(jié)果之中,紋理參數(shù)如對比度、逆差距,能量、相關(guān)性、熵值均具有統(tǒng)計學(xué)意義,能有效進行小肝癌及局灶性增生的鑒別診斷。有研究[31]運用機器學(xué)習(xí)算法之一的隨機森林算法,通過獲取動脈期CT圖像紋理特征及性別、年齡等臨床特征,建立了肝臟富血供病變類別的預(yù)測模型,結(jié)果顯示其診斷肝腺瘤、局灶性結(jié)節(jié)增生及肝細(xì)胞癌的準(zhǔn)確率分別為91.2%、94.4%、98.6%。以上結(jié)果提示:影像組學(xué)對肝臟非腫瘤性病變及腫瘤性病變有較強的鑒別診斷效能,能顯著提高肝臟局灶性病灶的影像診斷準(zhǔn)確率。

3肝臟非腫瘤性病變影像組學(xué)的挑戰(zhàn)與展望