卷積神經網絡概念范文

時間:2024-03-28 17:40:46

導語:如何才能寫好一篇卷積神經網絡概念,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

卷積神經網絡概念

篇1

關鍵詞: 模式識別; 神經網絡; 卷積; 文字識別

中圖分類號: TN711?34; TP391.4 文獻標識碼: A 文章編號: 1004?373X(2014)20?0019?03

Large pattern online handwriting character recognition based on multi?convolution neural network

GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2

(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;

2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)

Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.

Keywords: pattern recognition; neural network; convolution; character recognition

0 引 言

隨著全球信息化的飛速發(fā)展和對自動化程度要求的不斷提高 ,手寫文字識別技術被廣泛地應用到許多方面。特別是近幾年擁有手寫功能的手機、平板電腦等智能電子產品的普及,聯(lián)機手寫文字識別研究已經成為一個備受關注的主題。聯(lián)機手寫字符識別要求實時性較高,識別過程中要求特征空間的維數比較高,在進行特征樣本訓練時要求訓練的數目很大,要匹配的特征值或特征對象比較多 [1?2]。

卷積神經網絡(Convolutional Neural Networks,CNNs)的優(yōu)點在于圖像的識別過程中對視覺模式的獲得是直接從原始圖像中獲得的,所以在設計系統(tǒng)時圖像的預處理工作很少,與一般神經網絡相比是一種高效的識別方法。卷積神經網絡在模式識別的一些領域具有很好的魯棒性,如在識別有變化的模式和對幾何變形的識別方面。利用卷積神經網絡的手寫識別方法具有如下一些優(yōu)點:對于要檢測的圖像可以與事先制定網絡拓撲結構之間有較高的匹配率;特征提取和模式分類同時進行;訓練參數往往是系統(tǒng)計算量的重要參數,而卷積神經網絡中利用權值共享技術,這樣就可以大大降低該參數,在設計系統(tǒng)結構時使得結構變得更簡單,從而使得整個系統(tǒng)具有更好的適應性[3?5]。

目前,人機交互系統(tǒng)的手寫字符識別、汽車車牌號識別和信息安全中常用的人臉識別等領域都有卷積神經網絡的成功應用。文獻[6]用一個4層的卷積神經網絡LeNet?5對Mnist庫進行識別實驗,獲得了98.4%的識別率,用2層的BP網絡的識別率[4,6]是87%。許多學者對卷積神經網絡在聯(lián)機手寫文字識別方面做了多方位的研究。 但是,這些成功的聯(lián)機手寫文字識別主要是針對小模式字符集,利用以往的這些方法對大規(guī)模模式分類的聯(lián)機手寫文字的識別依然有識別率不高的問題。本文介紹了卷積神經網絡的基本概念和一種典型的卷積神經網絡結構,給出了基于多重卷積神經網絡的字符識別和詞語識別模型。通過使用大字符集的UNIPEN數據庫進行訓練和測試,本文提出的方法在大模式聯(lián)機手寫識別上,取得了較高的識別速度和滿意的識別率。

1 卷積神經網絡

文獻[6?7]中詳細地描述了卷積神經網絡如何保證圖像對位移、縮放、扭曲魯棒性能。典型的手寫字符卷積神經網絡LeNET 5的結構圖如圖1所示[6?7]。

圖1 典型的卷積神經網絡結構

在圖1中,輸入層接收要識別32×32的手寫字符圖像,經過簡單的大小歸一化和圖像灰度處理,之后的結果作為一個采樣層的圖像;然后用一個可學習核進行卷積操作,卷積結果經過激活函數的輸出形成這一層的神經元,每個神經元與輸入圖像的一個5×5的鄰域相連接,從而得到由6幅特征圖組成的第一個隱層(C1層)。每個特征圖有25個權值(如方向線段,端點、角點等),考慮到邊界效果,得到的特征圖的大小是28×28,小于輸入圖層[3?9]。卷積層的數學計算過程可表示為:

[xlj=fi∈Mjxl-1j*kernellij+blj] (1)

式中:[l] 代表層數;kernel是卷積核;[Mj]代表輸入特征圖的一個選擇。每個輸出圖有一個偏置[b]。

每個卷積層的結果作為下一個次采樣層的輸入,次采樣層的作用是對輸入信息進行抽樣操作。如果輸入的特征圖為n個,則經過次采樣層后特征圖的個數仍然為n,但是輸出的特征圖要變小(例如,各維變?yōu)樵瓉淼?0%)。因此隱層S2是由6個大小為14×14的特征圖組成的次采樣層。次采樣層計算公式可以用式(2)表示:

[xlj=fβl-1jdown(xl-1j)+blj] (2)

式中down(?) 表示次采樣函數。次采樣函數一般是對該層輸入圖像的一個n×n大小的區(qū)域求和,因此,輸出圖像的大小是輸入圖像大小的[1n]。每一個輸出的特征圖有自己的β和b。

類似的,C3層有16個10×10的特征圖組成的卷積層,特征圖的每個神經元與S2網絡層的若干個特征圖的5×5的鄰域連接。網絡層S4是由16個大小為5×5的特征圖組成的次采樣層。特征圖的每個神經元與C3層的一個2×2大小的鄰域相連接。網絡層C5是由120個特征圖組成的卷積層。每個神經元與S4網絡層的所有特征圖的5×5大小的鄰域相連接。網絡層F6,包括84個神經元,與網絡層C5進行全連接。最后,輸出層有10個神經元,是由徑向基函數單元(RBF)組成,輸出層的每個神經元對應一個字符類別。RBF單元的輸出yi的計算方法如式(3)所示:

[yi=j(xj-wij)2] (3)

很多研究人員通過對字符集作彈性訓練,經測試發(fā)現在MNIST字符集上的識別率可以高達99%以上[6?7] 。卷積神經網絡的優(yōu)勢主要是對小模式集上,如對數字或26個英文字母組成的集合都有著較高的識別率。然而,對大模式集的識別仍然是一個挑戰(zhàn),因為設計一個優(yōu)化的并足夠大的單一網絡是比較困難的,且訓練時間也較長。因此,本文的目的旨在通過組合多個對某一字符集有高識別率的卷積神經網絡,從而構成多重卷積神經網絡,進而提高卷積神經網絡對大模式集手寫字符的識別率。

2 多重卷積神經網絡

2.1 多重卷積神經網絡字符識別

根據傳統(tǒng)卷積神經網絡的運算過程以及其在處理大模式集手寫字符時存在的不足,本文提出一種多重卷積神經網絡來改進傳統(tǒng)的卷積神經網絡模型,用多個擁有高識別率的小卷積神經網絡組成一個多重卷積神經網絡。每一重小卷積神經網絡對某一具體字符集有較高的識別率,另外,單重卷積神經網絡除了有一個正式的輸出集之外,還產生一個未知的輸出(即難以識別的字符),即如果一個輸入字符沒有被正確識別,它將被輸出為一個未知字符,然后輸入模式轉到下一重卷積神經網絡進行識別。最后,通過一個拼寫檢查模塊進行判斷,選擇最好的結果輸出。系統(tǒng)的流程如圖2所示。

其中CNN 1是識別手寫數字的卷積神經網絡,CNN 2是識別手寫小寫英文字母的卷積神經網絡,該模型具有極強的擴展性,可以添加多任意模式的卷積神經網絡(如中文,日文等)。

圖2 多重卷積神經網絡字符識別示意圖

2.2 隨機對角Levenberg?Marquardt訓練方法

傳統(tǒng)的結構比較簡單、單一的卷積神經網絡多采用基本的Back Propagation(BP)規(guī)則訓練網絡,往往需要幾百次迭代,網絡的收斂速度較慢。本文采用LeCun博士提出的隨機對角Levenberg?Marquardt 算法對網絡作訓練,該算法需要的迭代次數明顯比基本的BP 算法少[4,9]。隨機對角Levenberg?Marquardt算法的公式為:

[ηki=ε?2E?w2ij+μ] (4)

式中[ε]是全局的學習率,一般取初始值0.01,太大會使網絡無法收斂,太小則會降低收斂速度,且使網絡更容易陷入局部極小值,訓練過程中可以用啟發(fā)式規(guī)則改變[ε]的值,本文取最下值為5e-005; [?2E?w2ij]是一個估計值,根據訓練集的大小可以調整樣本數量,文中隨機選取200個樣本估算它的值;[μ]用來避免[?2E?w2ij] 太小時[ηki]的變化過大 。

2.3 多重卷積神經網絡詞句識別

本文提出的多重卷積神經網絡對手寫詞語的識別方法可以簡單地描述為:首先對輸入的手寫圖像進行預處理和分割,然后通過多重卷積神經網絡模塊分別進行識別,最后采用單詞識別模塊對識別結果進行判斷,選擇最好的結果輸出。其過程如圖3所示。

圖3 多重卷積神經網絡聯(lián)機手寫詞句識別過程

本文提出的多重卷積神經網絡聯(lián)機手寫文字識別方法克服了傳統(tǒng)卷積神經網絡文字識別的對字符集的限制,每一重卷積神經網絡是一個針對小模式的卷積神經網絡,易于訓練和優(yōu)化,更重要的是此方案的靈活性非常好易于調節(jié)參數,可擴展性強。每一重卷積神經網絡都具有可重用能力,可以根據需要加載一個或多個網絡,可以根據新的模式添加新的網絡而不需改變或重建原來的網絡。

3 訓練和實驗

為了評估多重卷積神經網絡對基于大模式字符集的聯(lián)機手寫文字識別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫字符訓練集進行測試。UNIPEN數據庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創(chuàng)建一個大型的手寫體數據庫用于為在線手寫識別提供研究和開發(fā)的基礎,得到了多個知名公司或研究所的支持并完成了UNIPEN的規(guī)范設計。在進行數據比對實驗中,本文采用許多研究使用的MNIST手寫數字數據庫,該數據庫是NEC 研究中心設計的,是NIST(The National Institute of Standards and Technology)數據庫的一個子集,該訓練集中有大量訓練樣本和測試用例。本文默認用以下定義:

[識別率=正確識別數樣本總數×100%]

[失誤率誤識率=錯誤識別數樣本總數×100%]

實驗測試是在通用的臺式電腦上進行的。整個識別原型系統(tǒng)采用C#編寫,運行在.NetFrame 4.5平臺上。經測試對MNIST訓練集識別正確率可達[9]99%,對UNIPEN數字識別正確率可達97%,對UNIPEN數字和大寫字母識別正確率可達89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達89%(1c) 。圖4是對UNIPEN小寫字母3次訓練的均方誤差比較。

圖4 訓練的誤差數據

從圖4中可以看出,在開始的幾個訓練周期內,均方誤差(MSE)下降得很快,然后在第13個周期后神經網絡達到一個穩(wěn)定的值,約為0.148 5。也就是說,網絡在第13個周期后,改善程度就很小。所以修改訓練錯誤率的值為0.000 45后重新進行18代的第二次訓練,均方誤差有所降低。經過第三次的訓練后趨于穩(wěn)定,對UNIPEN小寫字母識別正確率可達89%。經測試,通過使用隨機對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經過68代訓練后識別正確率可達89%。

4 結 語

本文提出了基于多重卷積神經網絡的聯(lián)機手寫字符的識別方法,通過使用多個識別率高的卷積神經網絡和隨機對角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機手寫識別。經過實驗數據比較,該方法在大模式聯(lián)機手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實時性,總體效果很好。在當今觸摸屏應用遍及生產生活的各個方面的趨勢下,該方法有著廣闊的應用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。

注:本文通訊作者為潘立武。

參考文獻

[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識別問題的神經網絡算法[J].軟件學報,2001,12(6):851?855.

[2] 張輝.大規(guī)模聯(lián)機手寫漢字識別數據庫整理、統(tǒng)計與實驗分析[D].廣州:華南理工大學,2012.

[3] 徐姍姍,劉應安,徐,等.基于卷積神經網絡的木材缺陷識別[J].山東大學學報:工學版,2013,43(2):23?28.

[4] 呂剛.基于卷積神經網絡的多字體字符識別[J].浙江師范大學學報:自然科學版,2011,34(4):425?428.

[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.

[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.

[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.

篇2

關鍵詞:Deep Learning;多隱含層感知;DropConnect;算法

中圖分類號:TP181

Deep Learning是機器學習研究的新領域,它掀起了機器學習領域的第二次浪潮,并受到學術界到工業(yè)界高度重視。Deep Learning概念根源于人工神經網絡[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學習機制的多層次神經網絡,并通過這種網絡分析解釋數據,如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優(yōu)異的特征學習能力,而且學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經網絡在訓練上的難度。本文在對Deep Learning算法分析的基礎上,著重闡述了對Regularization of Neural Networks using DropConnect模型的改進。

1 Deep Learning算法分析

1.1 Deep Learning多隱含層感知架構

Deep Learning算法最優(yōu)秀特征是多隱含層感知器架構,這種架構通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實現對數據分布式表示。Deep Learning的多隱含層結構是由輸入層、隱層(多層)、輸出層組成的多層網絡(如圖1所示),只有相鄰層神經元之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個淺層機器學習模型(如logistic regression,Support Vector Machines)。

圖1 含多個隱含層的Deep Learning模型

Deep Learning的多隱含層感知結構模擬的是人腦的大腦皮層工作。人大腦皮層計算也是分多層進行[5],例如圖像在人腦中是分多個階段處理,首先是進入大腦皮層V1區(qū)提取邊緣特征,然后進入大腦皮層V2區(qū)抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構網絡主要優(yōu)勢在于它能以更簡潔的方式表達比淺層網絡大得多的函數關系(如圖2)。通過這種深層非線性網絡結構,Deep Learning可以實現復雜函數的逼近,表征輸入數據的分布式表示,并展現了強大的從少數樣本集中學習數據集本質特征的能力。

圖2 多層次實現復雜函數圖

1.2 Deep Learning訓練過程

(1)首先逐層構建單層神經元,使得每次都是訓練一個單層網絡。

(2)當所有層訓練完后,使用Wake-Sleep算法[6]進行調優(yōu)。

將除最頂層的其它層間的權重是雙向的。向上的權重用于“認知”,向下的權重用于“生成”。然后使用Wake-Sleep算法調整所有的權重。讓“認知”和“生成”達成一致,也就是保證生成的最頂層表示能夠盡可能正確的復原底層的結點。

1.3 Deep Learning數據處理一般過程

Deep Learning算法通過傳感器等方式獲得數據之后,首先對數據進行預處理。在數據預處理中,標準的第一步是數據歸一化處理,第二步是數據白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進行特征提取和特征選擇,直到學習到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動編碼、稀疏編碼、聚類算法、限制波爾茲曼機、卷積神經網絡等算法進行特征提取和特征選擇。然后用反向傳播算法、隨機梯度下降算法、批量梯度下降算法等進行調優(yōu)處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學習到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進行識別、推理或預測。

2 基于Regularization of Neural Networks using DropConnect模型改進

2.1 Regularization of Neural Networks using DropConnect模型[2]

該模型的四個基本組成成分是:

(1)特征提?。簐=g(x;Wg)。x是輸入層的輸入數據,Wg是特征提取函數的參數,v是輸出的提取特征,特征提取函數g()。其中g()為多層卷積神經網絡算法函數,而Wg卷積神經網絡的偏值。

(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權重矩陣,M是二進制掩碼矩陣,該矩陣的每個元素隨機的以1-p概率設置為0或以p概率設置為1,a()是一個非線性激活函數,r是輸出向量。M*W是矩陣對應元素相乘。

(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個k維的輸出矩陣(k是類的個數),Ws是softmax分類函數的參數。

(4)交叉熵損失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標簽,o是概率。

圖3 DropConnect示意圖

2.2 模型改進描述和分析

對DropConnect模型的改進主要集中在上面它的四個基本組成成分中的DropConnect層。由于該層以隨機方式讓掩碼矩陣M的每個元素Mij按1-p的概率設置為0,然后讓掩碼矩陣與層間的權重矩陣對應相乘即M*W。相對DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時也提高算法的泛化性。因為Dropconnect模型在權重W和v運算之前,將權重以一定的概率稀疏了,從運行結果看整體算法的錯誤率降低了。但是,由于是隨機的讓Mij按1-p的概率為0,并且這種隨機是不可以預測的,故可能會導致某些重要特征對應的權重被屏蔽掉,最終造成輸出ri的準確性降低。故就此提出了新的設計思想。

改進思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓練出一組最佳稀疏的特征。具體描述:讓經過多層卷積神經網絡提取到的特征v作為稀疏編碼的輸入,經過稀疏編碼重復訓練迭代,最終得到最佳的稀疏的特征r。因為稀疏編碼算法是一種無監(jiān)督學習方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數據。

總之任何對Deep Learning算法的改進,都是為了提取出最佳特征,并使用優(yōu)秀的分類算法來分類、預測或推理,最終降低算法的錯誤率。而對于怎樣改進算法,以何種方式降低錯誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標都是提高算法的正確率和效率。

3 結束語

Deep Learning使得語音、圖像和文本等的智能識別和理解取得驚人進展,如Google Brain項目和微軟推同聲傳譯系統(tǒng)。它極大地推動了人工智能和人機交互快速發(fā)展。隨著從學術界到工業(yè)界的廣泛重視,Deep Learning算法的改進依然在繼續(xù),Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發(fā)展將加快“大數據+深度模型”時代來臨。

參考文獻:

[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507

[2]湯姆?米切爾.機器學習[M].北京:機械工業(yè)出版社,2003:1-280.

[3]吳昌友.神經網絡的研究及應用[D].哈爾濱:東北農業(yè)大學,2007.

[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.

[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.

[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.

篇3

究竟深度學習、機器學習與人工智能的關系是什么?能為人類帶來怎樣的改變?《中國信息化》記者采訪到了IEEE的兩位專家,為讀者解答關于人工智能與機器學習的技術與應用趨勢。

常規(guī)人工智能幫助機器自學

首先,我們需要明確一個問題,深度學習和人工智能之間的關系是什么?

Steve Furber博士是IEEE會士,“歐盟人腦計劃”神經形態(tài)計算系統(tǒng)項目和SpiNNaker計劃的負責人,目前擔任英國曼徹斯特大學計算機科學學院教授。對于這個問題,Steve Furber表示,分清楚通用人工智能(AGI)和常規(guī)人工智能(或機器學習)之間的區(qū)別非常重要。前者是指機器能夠獲得像人類一樣的智慧和能力,而后者是指開發(fā)出各種算法來讓機器通過對數據進行深層次的統(tǒng)計分析以進行“自學”。

目前看來,通用人工智能的發(fā)展依然任重道遠。而深度學習是機器學習(常規(guī)人工智能)算法的其中一種,最初的發(fā)展來源于吉奧夫.辛頓(Goeff Hinton)的大力推動。大概十年前,吉奧夫.辛頓重新整理了他在上個世紀80年代的研究成果并將其拓展為深度神經網絡理論。他發(fā)現電子計算機技術經歷了這樣一段時間發(fā)展,已經取得了日新月異的進步,很多在上世紀無法實現的技術在當時已經能夠實現了。另外,他也在學習算法的一些分支領域中有了突破性的研究。

所以,現在很多在應用領域中性能最佳的機器學習算法都是基于模仿人類大腦結構的神經網絡設計而來的。

Kevin Curran博士是IEEE高級會員,IEEE互聯(lián)網安全領域專家,英國厄爾斯特大學計算機科學專業(yè)教授、智能環(huán)境與虛擬世界研究實驗室團隊總負責人,曾參與多個“歐盟框架計劃”科研項目及技術轉移項目。

Kevin Curran表示,人工智能涵蓋的領域十分廣泛,深度學習只是其中的一個分支,并隸屬于機器學習的范疇。至今為止,人工智能的概念仍是非常寬泛的。因此,為了實現多樣性的應用,人工智能需要有自主“思考”能力與機器學習技術的支持,深度學習便是幫助機器實現“獨立思考”的其中一種方式。

所謂深度學習,就是將數據輸入系統(tǒng)后,通過建模及模擬人腦的神經網絡從而進行學習的技術。

他說,我們可以這樣來比喻,像生物神經元一樣,神經網絡系統(tǒng)中有一系列分層排列的模擬神經元(信息傳遞的連接點),且經過每個神經元的響應函數(又稱“激活函數”)都會分配一個相應的“權值”,表示彼此間的連接強度。通過每層神經元相互“連接”,計算機就可以由達到最佳方案時所有神經元的加權和,從而可以即時實現這一決策方案。

當然,計算機也會參考類似的先例,在龐大的數據庫中調出對應的決策方案,如此復雜的決策過程都是由計算機在深度神經網絡內部自動完成的。不過對于這一點,人類更勝一籌,因為人類可以直接對比不同決策的測試結果,在總體上更直觀地評估深度學習推算的決策方案??梢灶A見,深度學習將與其它各項技術結合,持續(xù)深化人工智能的技術發(fā)展及應用領域。

深度學習解決社會難題

明確了深度學習和人工智能的關系,再來看看最近深度學習取得的技術突破體現在哪些方面?這些突破離商用或者離我們的生活有多遠?

Steve Furber表示,繼當初杰夫. 辛頓的突破之后,相關領域的科研毫無疑問已經取得了長足的發(fā)展。他認為其中最重大的一項成就,應該就是Yann LeCun在卷積神經網絡領域的研究成果。卷積神經網絡作為最有效的深層神經網絡,現在已經被越來越廣泛地運用到了很多智能應用之中,并且它們也越來越像人類大腦了。比如現在常常在用的Google, Siri和Facebook等都應用了卷積神經網絡。

Kevin Curran則表示,目前深度學習在計算機視覺,自動語音識別,自然語言處理,音頻識別和生物信息學等領域都取得了技術性突破,并在不同的應用領域都展示了深度學習的極佳效果。全球IT行業(yè)巨頭Google, Microsoft, Facebook等企業(yè)已經紛紛把深度學習作為重點項目,應用到他們的各種研究項目。

那么,對于深度學習和人工智能的商業(yè)化會首先應用在哪些領域?

Steve Furber表示,深度學習和人工智能的商業(yè)化應用已經率先在語音識別系統(tǒng)方面得到實現,例如Apple公司的Siri,微軟公司的Cortana等。

Kevin Curran則認為,深度學習可以用來解決任何具有對抗性的問題,例如需要用到策略的博弈,各種比賽,戰(zhàn)爭或金融交易。短期內,它可被用于智能手機助手,優(yōu)化其輔助功能;但從長遠來看,它將能夠幫助科學家攻克諸如氣候模擬、醫(yī)療疾病分析等社會難題。同時,深度學習也有助于研發(fā)反應更加迅速的機器人,可以更智能地應對改變環(huán)境因素時的情景。最終,深度學習將能迅速地推進科研進度。憑借其強大的運算性能及龐大的數據分析,科研人員可以產出更多研究碩果,有望在更短的時間內實現對現有技術的重要突破。

而對于在其他領域的應用發(fā)展,Kevin Curran認為,醫(yī)療領域是目前深度學習和人工智能取得重要成果的關鍵領域之一。他說,深度學習能夠探測未來個人健康的潛在風險。它可以通過一系列健康大數據中尋找疾病的致病機理,從而實現在健康和疾病相關研究領域的重大突破。這僅靠人工計算是永遠不可能實現的。

而對于中國目前非常關注的智能制造領域,Kevin Curran認為,制造機器人是深度學習在應用領域的經典案例。深度學習的機器人能夠自動適應外部環(huán)境變化。舉個例子,現階段的機器人都需要事先編程才能精準地完成相應的任務。一旦要讓它們完成程序以外的任務,就必須重新改寫程序代碼。例如,專門負責修理某車型的機器人面對一款完全不同的車型時便不能順利完成修理任務。而具備深度學習技術的機器人就不一樣了,即時讓它們去修理從來沒有“見”過的車型,它們也可以自動重新調整算法和技術,順利完成修理工作。

中國占據一席之地

人工智能研究的起步,一般被認為是在20世紀50年代。中國則遲至80年代,才實質性進入人工智能研究領域?,F在,在深度學習和人工智能領域,中國和世界的差距主要體現在哪些方面?

Steve Furber認為目前在深度學習方面最前沿的研究仍然主要集中在包括Google以及DeepMind和Facebook等為數不多的幾家大型科技公司的研發(fā)部門之中。但是,近年來美國也有致力于這一領域的創(chuàng)業(yè)公司如雨后春筍般不斷涌現??梢灶A見,在未來這領域內的技術研究將有突破性的進展。

篇4

關鍵詞:灰值動態(tài)學卷積模板卷積投影牌照識別

基于圖像理解的汽車牌照自動識別系統(tǒng)是智能交通系統(tǒng)一個重要分支,有著非常廣泛的應用前景,而把汽車牌照從復雜的汽車圖像中分割出來是汽車牌照自動識別系統(tǒng)必須解決的關鍵問題。在過去的十幾年中,各國的科研人員提出了不少提取汽車牌照的方法。Choi和Kim提出利用Hough變換尋找垂直邊緣提取汽車牌照的方法,此方法由于許多汽車前部散熱器產生的垂直邊緣和某些牌照邊框的扭曲或某些汽車牌照沒有邊框而魯棒性較差。S.K.Kim和H.J.Kim提出的基于遺傳算法分割提取汽車牌照的方法,最大缺點是耗時長,難以進行實時處理。S.H.Park提出的一種基于神經網絡提取汽車牌照的方法,使用二個時延神經網絡在水平和垂直方向對輸入圖像進行濾波,得到牌照的候選區(qū)域,然后利用牌照的長寬比、面積、面積與周長比來區(qū)分真正的牌照區(qū)域與類牌照區(qū)域。此方法要求圖像中的牌照尺寸基本不變,一旦圖像中的牌照尺寸發(fā)生了較大的變化,必須對神經網絡重新進行訓練。T.R.Crimmins提出了一種數字形態(tài)學方法,此方法用不同尺寸的每個可能字符作為結構元素,采用擊中擊不中方法先提取輸入圖像中的字符,再根據牌照字符的語法得到汽車牌照,這種方法計算量非常大且易受噪聲影響。C.H.Poon提出了一種灰值形態(tài)學方法,它通過檢測字符中的直線段和字符間的空間來提取牌照,這種方法耗時較多,且沒有利用版照的尺寸信息。C.M.Hwang提出了空間頻率方法,它利用牌照區(qū)域內空間頻率變化大的特性,對圖像進行一階差分。差分圖在牌照區(qū)域內形成多個峰,然后利用峰的幅度、寬度和密度區(qū)分真正的牌照區(qū)域與類牌照區(qū)域。這種方法具耗時少、抗噪能力強的優(yōu)點。本文提出的灰值形態(tài)學方法僅利用了牌照區(qū)域內空間頻率變化大的特性而且利用了牌照區(qū)域字符筆劃具有高曲的特性,因而比單純的空間頻率方法更加有效。通過建立牌照與卷積算子形態(tài)學結構元素尺寸的相互關系。本文提出的方法對不同尺寸牌照具有很好的魯棒性。

1數字形態(tài)學

數字形態(tài)學是一種重要的數字圖像處理方法和理論。在數字形態(tài)學中,兩種最基本的變換或運算是腐蝕和膨脹,其它形態(tài)學變換都可通過它們來定義。下面列出了一些灰值形態(tài)學變換的定義。

圖像f(x,y)平移(a,b)定義為:

f(a,b)(x,y)=f(x-a,y-b)

圖像f(x,y)相對于原點的反射為:

f^(x,y)=f(-x,-y)

二幅圖像f(x,y)和g(x,y)的最小記為(f∧g)(x,y)。

當(x,y)位于圖像f的定義域D(f)和圖像g的定義域D(g)的交集D(f)∩D(g)內時:

(f∧g)(x,y)=min{f(x,y),g(x,y)}

否則:

(f∧g)(x,y)=0

二幅圖像f(x,y)和g(x,y)的最大記為(f∨g)(x,y)。

當(x,y)位于圖像f的定義域D(f)和圖像g的定義域D(g)的交集D(f)∩D(g)內時:

(f∨g)(x,y)=max{f(x,y),g(x,y)}

當(x,y)∈D(f)且(x,y)∈D(g)時

(f∨g)(x,y)=f(x,y)

當(x,y)∈D(g)且(x,y)∈D(f)時

(f∨g)(x,y)=g(x,y)

f(x,y)被g(x,y)膨脹定義為:

(fg)(x,y)=max{f(x-a,y-b)+g(a,b)}

(a,b)∈D(g)

f(x,y)被g(x,y)腐蝕定義為:

(fg)(x,y)=max{f(x-a,y-b)-g(a,b)}

(a,b)∈D(g)

開運算定義:

fog=(fg)g

閉運算定義:

f·g=(fg)g

Top-Hat變換定義:

Hat(f,g)=f-fog

與Top-Hat變換相對的是波谷檢測器(Valley變換),其定義為:

Valley(f,g)=(f·g)-f

形態(tài)學梯度有下面三種形式:

Grad(f)=f-(fg)

Grad(f)=(fg)-f

Grad(f)={[(fg)-(fg)]}/2

2牌照提取算法

在牌照提取算法中,需要用到卷積、模板卷積和卷積投影等概念。下面對它們進行定義。

對于圖像[aij]m×n,i=0...m-1,j=0...n-1,模板[aij]p×q。p<m,q<n,其卷積、模板卷積和卷積投影都是一維數組。

水平模板卷積

垂直模板卷積投影vmp:

水平模板卷積投影hmp:

圖1中牌照區(qū)域的長為173象素、高為36象素。從左到右、從上到下的8條曲線依次為牌照區(qū)域灰度圖第10~17條水平方向的灰度值。通過觀察發(fā)現,在牌照區(qū)域的水平方向不令空間頻率變化大,而且具有許多陡峭的峰(欲)和高曲率點。而灰值形態(tài)學的梯度變換可以對圖像進行高通濾波,灰值形態(tài)學的Top-Hat變換和Valley變換可以撮高曲率點、波峰和波谷。

進行形態(tài)學變換,需要考慮二個因素:結構元素和變換類型。變換類型準備采用灰值形態(tài)學的梯度變換、Top-Hat變換和Valley變換。結果元素采用n×1的維水平結構,以提取水平方向上的高頻分量、波峰和波谷。結構元素的大小n對Top-Hat變換和Valley變換的結果結構元素的大小n對Top-Hat變換和Valley變換的結果有著很大的影響,因此問題的關鍵是怎樣確定n。

分析圖1中水平方向的灰度曲線,發(fā)現在穿過字符的水平線上,灰度曲線波峰的寬度與字符垂直筆劃的寬度存在著某種線性關系。根據中國汽車牌照的一般規(guī)范,牌照上字符的垂直筆劃寬度與牌照的寬度也存在著某種線性關系。結構元素的尺寸n與灰度曲線波峰的寬度又可建立一種線性關系。因此可建立n與牌照寬度w的一種近似線性的關系:

n=Integer{(w/k)+b}

式中的Integer()表示對括號內的值取整。w、b都為整數。根據經驗令w、b分別為25和0,則:

n=Integer(w/25)

由上式可知,當牌照的寬度w變化25個象素時,結構元素的大小n才變化1個單位,也就是說n對w不是很敏感。

牌照區(qū)域提取算法包括以下幾步:

(1)縮小圖像:對輸入的灰值汽車圖像進行隔行隔列抽樣,得到一幅大小為四分之一原因的新圖像。接下列抽樣,得到一幅大小為四分之一原圖的新圖像。接下來的處理均在新圖像上進行,這樣可以大大減少處理時間,提高算法的效率。根據形態(tài)學的尺度變換兼容性原理,對圖像縮?。ǚ糯螅┖笤龠M行形態(tài)學變換,只要對結構元素做相應的變換,結果不變。

(2)水平分割:對汽車圖像進行水平分割,得到幾個可能含牌照的水平區(qū)域。

(3)垂直分割:對第(2)步所得到的每一個水平區(qū)域進行垂直分割,得到一些牌照的候選區(qū)域。

(4)牌照區(qū)域甄別:分析各個候選區(qū)域得出真正的牌照區(qū)域。

2.1水平分割

分別對汽車圖像進行灰值形態(tài)學的梯度變換、Top-Hat變換和Valley變換,如圖2。一般來說,在大多數汽車車牌照自動識別系統(tǒng)應用中,CCD攝取的汽車圖像中牌照的大致寬度和高度是已知的。如果牌照的寬度為w∈(a,b),則取水平模板m×1,其中m=(a+b)/2。用模板分別對圖像的梯度圖、Top-Hat變換圖和Valley變換圖進行水平模板卷積。對每幀變換圖取每一行模板水平卷積的最大值,得到1個一維數組,3幅變換圖共得到3個一維數組g1,ti和vi,其中i大于等于1,而小于等于圖像的高度,其曲線如圖2的b、c、d。觀察圖2可以發(fā)現,由于受車體上其它字符和車前燈等因素的影響,僅僅依靠梯度圖較難對牌照進行水平定位,而結合Top-Hat變換圖和Valley變換圖,能更好地對牌照進行水平定位。據此,構成了1個一維數組pi。

pi=gi×ti×vi

其曲線如圖3。取圖3中最高峰的位置作為牌照的水平中線,為了確保不會出錯,把次高峰也作為牌照的另一備選位置。了高峰和次高峰的位置,分割出2個寬為汽車圖像寬度,高為牌照的最大可能高度b的區(qū)域,如圖4中的a和b。

2.2垂直分割

對圖4中的a和b二個區(qū)域分別進行灰值形態(tài)學的梯度變換、Top-Hat變換和Valley變換,并在垂直方向對變換圖進行卷積得到3個一維數組gi、ti和vi,其中i大于等于1,而小于等于圖像的寬度w,其曲線如圖5和圖6。qi=gi×ti×vi

的曲線如圖7。利用下面的公式分別對圖4中的a和b進行垂直分割。

{(m,n)|qi>kT,i=m...n,n-m+1∈(a,b)}

其中:T=Max(qi),k為一經驗值,(a,b)為牌照的寬度范圍。

i=l...w

分割結果如圖8所示。

2.3牌照區(qū)域甄別

篇5

【關鍵詞】Android平臺 人臉檢測 人臉識別系統(tǒng)

1 引言

近年來,信息安全越來越受到人們關注,身份驗證和識別技術成為眾人矚目的焦點,生物特征識別技術和人工智能技術不斷更新發(fā)展,其中,人臉識別技術因具有并發(fā)性、非接觸性、非強制性、操作簡單等特點,被越來越廣泛地運用到各個領域中。Android系統(tǒng)是目前移動設備的主流操作系統(tǒng)之一,在移動操作系統(tǒng)市場份額中占據了主導地位。隨著人們在移動領域信息安全意識的提高,在移動平臺上進行人臉識別具有廣闊的發(fā)展前景,同時也面臨諸多挑戰(zhàn)。本文結合Android移動終端的特點,研究基于Android的人臉識別系統(tǒng)的實現,更好地滿足移動領域信息安全方面的市場需求。

2 人臉識別原理

人臉識別技術是一種基于生理特征的識別技術,通過計算機提取人臉特征,并根據這些特征進行身份驗證的一種技術。廣義的人臉識別過程包括人臉圖像采集及預處理、人臉檢測與特征提取和人臉的對比與識別三大部分,其原理如圖1所示。

人臉檢測的算法有很多種,典型的有特征抽取算法、人臉小波檢測、基于模板匹配、神經網絡、支持向量機方法、Adaboost算法等。本文選擇Adaboost算法實現人臉檢測。人臉識別技術包括特征提取和特征識別,實現方法可概括為3類:基于幾何特征方法(歐式距離判別法)、基于模板方法(特征臉方法、神經網絡方法等)和基于模型方法(隱馬爾科夫方法)。本文選擇基于LDP的特征臉算法實現人臉特征提取與特征識別。

3 人臉識別算法

3.1 圖像預處理

現實生活應用人臉檢測與識別系統(tǒng)時,人臉的圖像是在各種隨機的場景下由攝像頭或照相機拍攝的,因此受到光照變化、背景色彩、設備質量以及人臉姿態(tài)等因素的影響,需要對其進行預處理,主要包括光照補償、濾波去噪處理和幾何歸一化的處理,經過這些處理,后期操作中將得到較好的識別效果。

首先定位人眼。為了提高定位效率,先確定人眼在人臉圖像中的大概位置,然后基于這個大致的范圍,采用灰度積分投影和灰度差分積分投影相結合的方法精確定位人眼:

M(y)=kphori(y)- Dhori(y)

其中,k為系數,K phori(y)為灰度積分投影,Dhori(y)為灰度差分積分投影。

其次是臉部圖像的幾何變換和剪裁,根據所檢測到的人眼位置,通過圖像旋轉、剪裁、縮放等手段,使得臉部圖像中人眼是對齊的且不包含背景、額頭、耳朵和下巴,并將處理后的臉部圖像縮放到70×70固定大小。

再次是分離直方圖均衡,這個過程能夠使得每一個臉部圖像都具有相同的對比度以及亮度。

最后是圖像平滑,圖像平滑能夠有效地減少圖像的噪聲。

3.2 人臉檢測

自適應增強(adaptive boosting,AdaBoost)是一種需要監(jiān)督的機器學習算法。特征選取和特征計算決定了AdaBoost算法的運行速度。Viola等人提出了基于Haar特征的AdaBoost人臉檢測算法。本文使用Haar 特征進行特征提取。

基于特征的檢測能對選定區(qū)域的狀態(tài)進行編碼。矩形特征是對輸入圖像使用矩形進行提取特征。Haar特征是一些由黑白矩形組成的特征,臉部的一些特性可以用矩形特征簡單地描述,矩形特征值是兩個不同的矩形區(qū)域像素和之差。如果圖像特征表示眼睛的顏色比臉頰上端的顏色深??梢杂锰卣髦祦砭幋a特征,特征值定義為:

V=Sum黑-Sum白

其中,Sum黑、Sum白分別表示黑色和白色矩形覆蓋區(qū)域的像素和。

使用Viola等人提出的積分圖像的概念,可加快矩形特征的計算速度。進而計算出Haar特征的特征值,定義積分圖中位置(x,y)處的值為待測圖像位置(x,y)處的上方和左側所有像素之和。

S(x,y)=s(x,y?1)+i(x,y)

C(x,y)=c(x?1,y)+s(x,y)

其中,c(x,y)為積分圖在(x,y)點處的值,i(x,y)為原圖像素點(x,y)處的灰度值,s(x,y)表示一行灰度值的累加和。初始時s(x,-1)=0,c(-1,y)=0。

弱分類器對正負樣本分類的準確率應大于 1/2,這樣訓練算法最終收斂。一個弱分類器 h(x,f,p,θ):其中 1 表示人臉,0 表示非人臉。

計算在每個特征f下的所有樣本特征值,并進行排序。然后掃描一遍排好序的特征值,從而確定特征f的一個最后閾值,最終訓練成一個弱分類器。所有迭代得到的弱分類器,并按照―定的權值疊加起來,得到一個強分類器。將多個強分類器連接起來,得到Adaboost級聯(lián)分類器。如圖2所示。

3.3 人臉特征的提取

局部二值模式LBP(Local Binary Patterns)是一種從局部紋理定義中衍生出來的算法,所謂的紋理是圖像分析中常用的鑒別特征,它所含有的信息能夠表征物體表面的變化。由于其優(yōu)秀的分類特性和計算的簡便性,使得其廣泛的運用于圖像檢索、人臉分析和工業(yè)檢測等領域。

Ojala等人提出的LBP算子的模板大小被定義為3x3,以此模板依次掃描圖像中的像素點,將該模板的中心點位置的灰度值與周圍位置的8個灰度值相比較,若鄰域位置的灰度值大于中心位置的灰度值則該鄰域位置標記為l,相反標記為0;將這中心像素點周圍的8個像素點順時針依次連接組成8位二進制數;將該二進制數轉換為十進制數,替代中心像素點位置的像素值。

gc代表中心像素位置的灰度值大小,P為該中心位置周圍鄰域像素點的個數,gi(i=O,l,...,P-1)是周圍第i個像素位置的灰度值。則以(xc,yc)為中心位置的一個局部鄰域的紋理特征可以表示為:

LDP算法結合了LBP的優(yōu)點,在其基礎上考慮到特征的方向性,能更有效和更為魯棒的描述人臉。與LBP碼相類似,我們需要對得到的卷積結果進行二值化處理,需要選定一個閾值。這里我們對返回的卷積結果的絕對值b0,b1,b2,b3,b4,b5,b6,b7從大到小進行排序,取其中第K個大小的值為閾值,大于該閾值的賦值為1,相反為0。

LDP算子對于存在噪聲和非均勻的光照變化的圖像具有更好的魯棒性。

4 Android平臺人臉識別系統(tǒng)設計

4.1 Android JNI技術

本文所研究的人臉識別算法是由C語言實現,并且調用了Opencv庫,這樣相對于使用Java語言實現有較高的執(zhí)行效率。Android系統(tǒng)應用層采用的Java語言,但Android系統(tǒng)中也提供了JNI接口使得在Android程序中能方便的調用C語言或其他語言。JNI位于本地庫與Java框架層之間,其結構如圖3所示。

4.2 系統(tǒng)功能模塊

Android平臺上的人臉檢測與識別系統(tǒng)主要由圖像采集模塊、人臉圖像預處理模塊、人臉檢測模塊、人臉注冊模塊和人臉識別模塊等共五個模塊組成。

圖像采集模塊:利用Android平臺攝像頭進行圖像采集,調用Opencv庫,實現調用攝像頭、對拍攝的物體進行自動對焦、連續(xù)拍照等功能,快速獲取圖像幀的信息。

人臉圖像預處理模塊:對采集到的圖像幀進行光照補償、濾波去噪處理和幾何歸一化的處理等處理。

人臉檢測模塊:經預處理的圖像采用Adaboost人臉檢測方法獲取人臉,并對裁剪出的人臉圖像進行標記。

人臉注冊模塊:經過訓練后可以輸入姓名,然后可連續(xù)錄制十張照片,并按照人臉檢測中的步驟提取出10張人臉照片保存到SD卡中,將人臉姓名和編號按順序寫入faceN.txt文件中。

人臉識別模塊:根據測試者人臉圖像計算人臉LDP特征,得到識別結果。如果測試者的人臉特征在我們設置的閾值的內則,輸出識別人臉的姓名,否則提示人臉庫中無此人,請擺正人臉配合識別。

本文設計并實現了基于Android的人臉識別系統(tǒng)。針對Android平臺的硬件能力有限的特點,開發(fā)了一種適用于Android平臺的系統(tǒng)資源消耗較少的人臉識別系統(tǒng)。系統(tǒng)開發(fā)過程中主要使用了Adaboost人臉檢測算法和基于LDP特征臉的人臉識別算法,采用OpenCV視覺開源庫在Android平臺上加以實現,目前該入臉識別系統(tǒng)已經達到較高的識別水平,具有很好的實用性和應用前景。

參考文獻

[1]陳會安,李強.Java和Android開發(fā)實戰(zhàn)詳解[M].北京:人民郵電出版社,2014.

[2]HUGHES A.Android mobile security:a comprehensive evaluationof its feats and flaws[D].UTICA COI.I.EGE,2015.

[3]趙麗紅,劉紀紅.人臉檢測方法綜述[J].計算機應用研究,2004,21(09):l-4.

[4]張恒喜,史爭軍.基于SQlJte的Android數據庫編程[J].電腦編程技巧與維護,2011(21):30-31.

篇6

關鍵詞:小波變換;多分辨率分析;諧波;電能質量

中圖分類號:TM714.3 文獻標識碼:B

文章編號:1004373X(2008)0313402

Application ofWaveletandMulti―resolution

Theory to the OilfieldDistributionNetworkHarmonic Detection

WEN Jiabin1,LI Jinghua1,ZONG Jidong2

(1.Electric & Electronic Engineering College,Harbin University of Science Technology,Harbin,150040,China;

2.The Seventh Oil―producing Factory,Daqing Oil Field Co.Ltd.,Daqing,163000,China)

Abstract:Regarding low voltage distribution network of The Seventh Oil―producing Factory,Daqing Oil Field as the research background,the power quality of multi―points in this factory is detected.In view of the harmonic situation,the wavelet and multi―resolusion theory with favorable retractility and translation characteristic is selected,using Matlab to analyze the harmonic current,according to the harmonic reconstruction and the error account,the method of harmonic detection is proved to have very good performance.

Keywords:wavelet transformation;multi―resolution analysis;harmonic;power quality

1 引 言

目前,油田鉆采系統(tǒng)與油氣集輸系統(tǒng)的驅動裝置逐步由恒速的交流電動機傳動改為可調速的電氣傳動系統(tǒng),油田電系統(tǒng)中電力半導體裝置日益增多,導致供配電網中諧波日益嚴重,這對用電設備和系統(tǒng)設備產生嚴重危害,必須對其進行研究并采取相應的措施。

本文對大慶油田有限責任公司第七采油廠葡三聯(lián)合站、敖包塔聯(lián)合站、葡四聯(lián)合站站內低壓配電網進行大量點的電能質量檢測,針對近年來應用變頻設備、無功補償裝置對電網及其用電設備產生的諧波影響這一問題,運用小波方法開展諧波檢測技術的研究。

從國內外的現狀來看,主要的諧波測量及分析方法有4種:基于傅里葉變換的諧波檢測方法;基于瞬時無功功率理論的諧波檢測方法;基于人工神經網絡的諧波分析、檢測方法;基于小波變換的諧波分析、檢測方法。本文主要選用小波變換的方法對諧波電流進行檢測分析。

2 小波變換與傅里葉變換

小波變換的思想來源于伸縮和平移方法,其概念是在1984年由法國地球物理學家J.MorLet正式提出[1]。小波變換作為一種新的數學工具,是傳統(tǒng)傅里葉變換的發(fā)展,在信號處理領域中有著巨大的潛在應用前景。傳統(tǒng)的快速傅里葉變換,是對信號在整個時間過程中變化情況的分析,所以盡管在頻域內是局部的,在時域內卻是全局的、非局部的。小波是一個時間函數,他的正負波動同時速降為零,其傅里葉變換也呈現為帶通濾波器的頻率特性,也就是說,小波在時域和頻域內都是局部化的。將小波函數伸縮和平移得到的一組函數稱為分析小波,他在時域和頻域內也是局部化的。與窗口傅里葉變換不同的是,小波變換的時間――頻率窗不是固定不變的,這也是小波變換與傅里葉變換相比最大的優(yōu)勢。因此小波變換非常適合于提取電力信號中的暫態(tài)信號。

3 小波多分辨率分析法

采用正交小波變換時,任意信號X(t)∈L2(R)可采用多分辨率分解公式表示為:

式中,φj,k=2-J/2φ(2-Jt-k)為尺度函數;Ψj,k=2-J/2為小波函數;{φj,k(t)}為尺度空間Vj的標準正交基;{Ψj,k(t)}為小波空間Wj的標準正交基。Vj-1=VjWj,其中Wj為Vj在Vj-1空間的正交補空間。J為尺度j的某個特定值,分解系數aj(k)和dj(k)分別稱為離散平滑近似信號和離散細節(jié)信號。其遞推公式如下:

式中,h0和h1分別是低通數字濾波器和高通數字濾波器的單位取樣響應。取h1(k)=(-1)kh0(k),構成正交鏡像對稱濾波器組。aj+1(k)和dj+1(k)分別是h0(-k)和h1(-k)卷積后再抽取得到的信號序列。多分辨率分解只是對低頻部分進一步分解,而高頻部分則不予以考慮。所以小波多分辨率信號分解可用多抽樣率子帶濾波器組來實現,在小波分解中,設采樣頻率為fs,則 x(n)占據的頻帶為0~fs/2 , 經過J級分解,得到d1(k),d2(k),…dj(k),aj(k)這J+1個號序列,所占據的頻帶依次為fs/4~fs/8,fs/8~fs/16,…,fs/2j+1~fs/2j,0~fs/2j+1,由此可以將所需的頻段提取出來,這就是用濾波器組實現小波多分辨率分析的原理[2]。

圖1 三層分辨率分解樹結構圖

Daubechies小波具備刻畫信號的全局和局部奇異性變化的特點,尤其是對局部奇異變化非常敏感。由前邊的分析可知多分辨率分析的實質是不同尺度下的帶通濾波器和低通濾波器的設計。

4 檢測實例分析

本文以大慶油田有限責任公司第七采油廠的三聯(lián)輸油崗2號外輸泵進變頻50 Hz電流為例進行分析,測量儀器選用日本日置電能質量分析儀,圖2為根據測量數據繪制出來的電流波形和基波波形。

根據所測的電流繪制的電流頻譜圖見圖3,測量數據表明在接入變頻器情況下電流諧波較為嚴重,以5次、7次為主且已超出GB/T14549―93《電能質量公用電網諧波》的標準。

在進行小波變換時,根據Daubechies小波的變換原理[3] ,選用db24小波進行4次分解,采樣頻率為3 kHz。經小波分解,得到不同頻帶分量,具體的各高頻、低頻部分如圖4所示。

圖2 測得的原始電流及其基波電流

圖3 2號外輸泵諧波電流頻譜分析

圖4 小波分解后的低頻、高頻部分

圖4為經過db24小波分解后的高頻及低頻部分,其中,a(4)~a(1),b(4)~b(1)的頻帶如表1所列:

其低頻系數為a(4),他所占據的頻帶為0~f/25,原始信號中占0~93.75 Hz范圍內的僅含基波,所以由a(4)重構即可得基波分量。

將提取基波波形放大(見圖5),與原基波波形比較,可以看到,低頻的第四層將正弦信號中的最低頻率組成清晰地分離出來了。

圖5 提取的基波放大波形

圖6為經dbN小波重構后的諧波波形及重構誤差,由圖6可知,重構后的波形與原波形誤差很小,僅為9.671 0e-8,重構效果較好。

圖6 經dbN小波重構后的波形及誤差

由于小波分析是基于多分辨率分析的信號處理理論,因而在上述諧波檢測仿真中,不同的尺度具有不同的時間和頻率分辨率,因而小波分解能將原始信號的不同頻率成分分開,所以諧波可以檢測出來。

5 結 語

本文對大慶油田有限責任公司第七采油廠變頻、無功補償裝置的諧波電流進行了檢測分析,運用具有良好的伸縮、平移特性的小波分析方法,對諧波進行了仿真研究。分析和仿真結果表明,小波多分辨分析法可以有效地檢測電力系統(tǒng)的電壓和電流中的諧波含量并分解出基波信號和諧波信號,故其可以應用于諧波的檢測和補償。

參考文獻

[1]胡昌華,張軍波.基于Matlab的系統(tǒng)分析與設計――小波分析[M].西安:西安電子科技大學出版社,2001.

[2]梁玉娟,李群湛,趙麗平.基于小波分析的電力系統(tǒng)諧波分析[J].電力系統(tǒng)及其自動化學報,2006,15(6):67―70.

篇7

關鍵詞:圖像 并行處理 研究 應用

中圖分類號:TP751 文獻標識碼:A 文章編號:1007-9416(2013)12-0060-02

1 并行處理技術在圖像處理領域的應用

數字圖像處理技術是現代信息處理技術中的一個重要內容,也是計算機應用領域中的主要內容,隨著我國信息技術的發(fā)展,廣大學者對于圖像的并行處理技術研究熱情也日漸高漲起來。

1.1 圖像分割技術

在圖像處理技術中,為有效實現對圖像信息的識別,分析以及數據編碼處理,圖像分割技術成為圖像處理中的重要組成部分。在圖像的分割處理過程中,對分割細節(jié)的處理提出了較高的要求,細節(jié)的精細化處理為之后的圖像處理奠定了穩(wěn)固的統(tǒng)計基礎。為有效提升圖像分割技術的精準性,在對圖像進行分割處理時,會利用并行處理量對分割計算作進一步加工。圖像分割方法的實際應用分為二階統(tǒng)計和三階統(tǒng)計兩種計量方式,而由于統(tǒng)計量的不同數據特點,又會將不同階的統(tǒng)計量分為不同階矩,以此保證圖像分割技術的精細化。在對圖形進行分割處理過程中,首先應對圖像局部進行非監(jiān)督非參數變化檢測,對于圖像中的不同區(qū)域進行邊緣數據的統(tǒng)計估算,以此實現對分割后圖像進行并行處理的目的。為保證并行處理的計算精度,在對圖像進行分割處理時,應進一步對圖像中不同紋理的并行處理方差進行計算,以此確定圖像的峰態(tài)和偏態(tài)特性,進而實現以并行處理技術對圖像的精確分割。

1.2 圖像濾波技術

在以并行處理量對圖像的高斯過程進行統(tǒng)計時,由于高斯過程會在圖像中形成高斯背景噪聲,并對圖像的濾波產生影響,因此將并行處理應用于圖像的高斯計算中,通過對高斯過程進行有效的噪聲控制,能夠在最大程度上減小圖像的濾波處理中高斯噪聲的影響。在將并行處理量應用于圖像的高斯過程中時,通常采用數學中迭代重建的計算方法,即通過在對圖像進行并行處理譜計算時,通過對圖像進行雙階譜相位的測定和幅值的測量,使圖像的空間域能夠有效避免噪聲的影響,進而得到去噪后的圖像信息。并行處理量在圖像的濾波技術應用中,實現了對并行處理譜域的重置和構建,有效實現了圖像的去噪處理,并在同時保留了圖像數據的細節(jié),最大限度的維護了圖像的高斯特性,保證了并行處理處理中圖像的完整性。

1.3 圖像的特性識別和提取

為有效解決圖像處理中不變性圖像識別和處理的問題,通過將并行處理應用于圖像的變量計算中,并對圖像中低階矩和頻域進行并行處理測定,能夠實現對問題的有效處理。圖形的特性識別和提取,即對圖像的局部特征和構造不變量的方式進行并行處理的統(tǒng)計計算,并通過獲取圖像的幅值信息,實現對圖像性信息的獲取。圖像特性識別和提取技術的發(fā)展是基于超光譜圖像的自動目標識別技術基礎上進一步深入而產生的,圖像處理學者通過結合并行處理量和數字虛擬維,將二維傅里葉精確的轉化為了圖像的一維投影,以此實現了對圖像平移和尺度的測量。而在對圖像進行旋轉系數測定時,由于圖像旋轉造成的圖形特性紊亂使得其并行處理矩在并行處理時失去常數的穩(wěn)定性,進而造成圖像的特定發(fā)生變化,無法實現有效的圖像特性識別和提取。為有效維護圖像特性的穩(wěn)定性,在對圖像內容進行分析時通常采用圖像內容識別技術,通過并行處理量和PCA技術相結合,加強圖并行處理技術中的線性判別能力,以此實現對圖像特性的識別和提取。

1.4 圖像檢測技術

所謂的圖像檢測技術就是通過一定的技術手段對于圖像中有價值信息進行獲取,實現圖像的高效利用,對于圖像的分析和使用更準確以及更具針對性,圖像檢測技術現階段主要有兩個方面的應用,其一就是圖像邊緣檢測技術,再者就是圖像中具體有價值信息技術檢測。比如交通管理中交管局對于交通狀況的分析,都是通過對于圖像中車輛以及行人數量和通行情況進行圖像檢測處理,還有遙測遙感技術領域中地理檢測對于某地段的土壤分析、大氣氣候條件分析等都是通過衛(wèi)星遙感技術獲取對應的圖像,在由圖像檢測技術獲取相關的信息來實現。利用并行處理量在處理圖像檢測技術時提取圖像邊緣信息,在圖像小模塊中利用并行處理技術綜合分析其非對稱分布的信息。再有就是利用HOS技術在生物醫(yī)學中對于病變組織實行檢測,其關鍵是要先對生物組織進行掃描確定,然后利用數字射頻技術對掃描空間的HOS進行分析。并行處理量在圖像檢測中的較為常見的應用還有對于乳腺的檢測,現階段X線圖像都是通過子帶分解濾波器進行處理,然后將帶子的圖像分解成為交替疊加的正方形區(qū)域,利用并行處理量中的并行處理矩估計各個區(qū)域的偏態(tài)數據,這些由并行處理量算出來的技術參數都能夠作為確定區(qū)域的非對稱性和脈沖幅度,實際應用效果表明并行處理量在檢測微鈣化方面有著較為明顯的效果。還有較為常見的利用是在機動車的檢測中,并行處理量在機動車檢測中,能夠通過掃描產生的HOS信號對于機動車進行車身進行檢測,并且在檢測前期并不需要了解待檢機動車的型號,就算檢測條件比較復雜,也能夠實現對于待檢車輛的檢測。

1.5 圖像復原技術

圖像復原技術的開發(fā)是為了改善有價值圖像的質量,比如在網絡傳輸中容易出現圖像質量損失的情況,或者是對于圖像要進行特效處理,再者就是對于失誤操作引起的圖像的恢復技術。圖像處理領域對于圖像的恢復技術從上世紀就開始了,當時在圖像處理領域掀起了較大的波瀾,許多研究者相繼發(fā)表了自己的圖像恢復技術,但是隨著圖像恢復要求的不斷增高,原有的圖像恢復技術已經不能夠滿足圖像復原的要求了,因此人們開始著力于并行處理量技術。通過研究發(fā)現,采用并行處理量對圖像進行修復,不用對于原始圖像進行評估來建立修復模型,并行處理技術能夠估計出原始圖像和現有圖像的模糊數據。尤其是后期盲圖像恢復技術的研究成功,為圖像復原技術帶來了新的技術革命。盲圖像恢復技術包括模糊投影技術和恢復投影技術兩部分內容。對于模糊投影處理技術而言,要首先對需要處理的圖像進行投影變換,將二維圖像轉換為一維圖片,然后再通過盲圖像處理技術進行點擴散估計。對于恢復投影技術,則是先利用并行處理量技術采用去卷積操作,是喜愛那投影回到原圖像中實現圖像復原的目的。目前還有更為先進的含噪模糊圖喜愛那個PSF技術來實現圖像的復原,這種技術能夠對圖像別細微的地方進行修復處理,并建立基礎的模型,圖像的基礎參數用并行處理圖像處理法來進行確定,主要是利用并行處理量中的并行處理累積量來確定,之前的使用模擬實驗驗證了該技術的可行性。還有研究人員將研究方向轉向模糊類型的并行處理量技術研究,從目前的研究進展來看,該技術在圖像恢復中有著較為明朗的應用前景。

2 并行處理中存在的問題及其前景展望

在并行處理技術的不斷進步中,由于其理論知識和實際應用仍存在一定差距,使得圖像的并行處理研究領域中仍存在技術瓶頸,如在圖像內容和信號處理的融合過程中,由于HOS理論仍側重于對圖像處理技術的討論,而導致圖像與信號處理無法實現有機融合,使得圖像和信號的轉化技術出現漏洞。在圖像和信號處理過程中,并行處理中存在的問題會對圖像的處理產生直接的影響,因此有效解決并行處理問題,是圖像處理技術發(fā)展的關鍵。在并行處理對圖像進行處理時,由于并行處理次的HOS技術開發(fā)仍不成熟,使得并行處理在對圖像進行多維處理時,無法做到精確的數據測量,進而影響到圖像的并行處理譜測定。

基于現階段的圖像并行處理技術基礎,在伴隨并行處理理論進步的同時,也會有力帶動實用并行處理技術的發(fā)展,HOS技術的成熟,會使得并行處理在圖像的分割,濾波及特性勢識別提取等技術中得到更為深入的應用,隨著圖像維數研究的進一步深入,圖像與信號處理會更為優(yōu)化,并通過高效結合有效完善并行處理技術。通過在圖像處理技術中應用并行處理,實現了HOS技術和其他信號處理理論的有機結合,使得圖像處理能夠應用到FPGA和DSP等技術的實際應用中,并伴隨并行處理的深入研究受到更為廣泛的應用,進一步提高圖像處理技術的高效性和完整性。

現階段對于并行處理的研究還有實現統(tǒng)一的理論能夠使HOS在信號濾波、檢測及獲取等全過程的較為完整的技術知識體系。伴隨著工業(yè)生產的要求越來越高,對于圖像處理技術的要求也越來越高,傳統(tǒng)的二維處理技術已經不能夠滿足圖像處理的要求,圖像處理會向著三維甚至是多維方向發(fā)展,圖像維數的增加會對并行處理圖像處理技術的數據處理量增高,進而導致數據處理時間變長,因此提高并行處理的算法速度是目前急需解決的技術難題之一。再者對于并行處理的圖像處理技術,目前為止還沒有完整的優(yōu)化修復技術標準,這對于并行處理技術在圖像處理方面的大范圍推廣和長久發(fā)展帶來了一定程度的困擾。因此并行處理的未來研究勢必會向著建立統(tǒng)一的優(yōu)化標準為方向,提高并行處理的適用范圍,為其進一步發(fā)展提供理論上的可能。現階段并行處理在小波變形、人工神經網絡分析等領域還沒有很好的應用,因此研究人員必須在小波變形等領域進一步挖掘并行處理的適用內容,提高并行處理的應用效率,進一步推廣并行處理在圖像處理領域的適用范圍。

3 結語

雖然現階段并行處理技術取得了較大的成就,但是現階段還沒有形成統(tǒng)一的使用方法,因此還不能建立有效完整的評價體系,因此必須在現有的科學技術水平上,繼續(xù)挖掘并行處理與其他學科和工業(yè)的內在聯(lián)系,將并行處理的應用更加的完善和健全,進一步提高我國工業(yè)生產及人們生活的水平。

參考文獻

[1]蘇光大.圖像并行處理技術[J].北京清華大學出版社,2013.

[2]汪潤生.圖像理解[J].長沙國防科技大學出版社,2013.

[3]朱述龍.遙感圖像獲取與分析[J].北京科學出版社,2013.

[4]趙忠明.基于小波提取邊緣特征點的遙感圖像配準技術[J].西北工業(yè)大學,2012.