卷積神經(jīng)網(wǎng)絡(luò)存在的問題范文
時(shí)間:2024-03-29 16:55:31
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)存在的問題,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:機(jī)器學(xué)習(xí);深度學(xué)習(xí);推薦算法;遠(yuǎn)程教育
深度學(xué)習(xí)(DeepLearning),也叫階層學(xué)習(xí),是機(jī)器學(xué)習(xí)領(lǐng)域研究的分支,它是學(xué)習(xí)樣本數(shù)據(jù)的表示層次和內(nèi)在規(guī)律,在學(xué)習(xí)的過程中獲取某些信息,對(duì)于數(shù)據(jù)的解釋有巨大幫助。比如對(duì)文字?jǐn)?shù)據(jù)的學(xué)習(xí),在網(wǎng)絡(luò)上獲取關(guān)鍵字,對(duì)圖像數(shù)據(jù)的學(xué)習(xí),進(jìn)行人臉識(shí)別等等。
一、深度學(xué)習(xí)發(fā)展概述
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域里一種對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。一句話總結(jié)三者之間的關(guān)系就是:“機(jī)器學(xué)習(xí),實(shí)現(xiàn)人工智能的方法;深度學(xué)習(xí),實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù)。深度學(xué)習(xí)目前是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域研究的主要方向,為計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺等領(lǐng)域帶來了革命性的進(jìn)步。機(jī)器學(xué)習(xí)最早在1980年被提出,1984年分類與回歸樹出現(xiàn),直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發(fā)展。在1990年至2012年,機(jī)器學(xué)習(xí)逐漸成熟并施以應(yīng)用,GeoffreyHinton在2006年設(shè)計(jì)出了深度信念網(wǎng)絡(luò),解決了反向傳播算法神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,正式提出了深度學(xué)習(xí)的概念,逐漸走向深度學(xué)習(xí)飛速發(fā)展的時(shí)期。隨后,各種具有獨(dú)特神經(jīng)處理單元和復(fù)雜層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)不斷涌現(xiàn),深度學(xué)習(xí)技術(shù)不斷提高人工智能領(lǐng)域應(yīng)用方面的極限。
二、深度學(xué)習(xí)主要模型
1、卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是指有著深度結(jié)構(gòu)又包含著卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò)。卷積物理上理解為系統(tǒng)某一時(shí)刻的輸出是有多個(gè)輸入共同疊加的結(jié)果,就是相當(dāng)于對(duì)一個(gè)原圖像的二次轉(zhuǎn)化,提取特點(diǎn)的過程。卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上就是一個(gè)不斷提取特征,進(jìn)行特征選擇,然后進(jìn)行分類的過程,卷積在CNN里,首先對(duì)原始圖像進(jìn)行特征提取。所以卷積神經(jīng)網(wǎng)絡(luò)能夠得到數(shù)據(jù)的特征,在模式識(shí)別、圖像處理等方面應(yīng)用廣泛。一個(gè)卷積神經(jīng)網(wǎng)絡(luò)主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,通過一系列對(duì)圖像像素值進(jìn)行的卷積運(yùn)算,得到圖像的特征信息,同時(shí)不斷地加深節(jié)點(diǎn)矩陣的深度,從而獲得圖像的深層特征;池化層的本質(zhì)是對(duì)特征圖像進(jìn)行采樣,除去冗雜信息,增加運(yùn)算效率,不改變特征矩陣的深度;全連接將層間所有神經(jīng)元兩兩連接在一起,對(duì)之前兩層的數(shù)據(jù)進(jìn)行分類處理。CNN的訓(xùn)練過程是有監(jiān)督的,各種參數(shù)在訓(xùn)練的過程中不斷優(yōu)化,直到得到最好的結(jié)果。目前,卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型也被廣泛研究,如全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNeuralNetworks,F(xiàn)CN)和深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環(huán)神經(jīng)網(wǎng)絡(luò)區(qū)別于卷積神經(jīng)網(wǎng)絡(luò)在圖片處理領(lǐng)域的應(yīng)用,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)主要應(yīng)用在自然語言處理領(lǐng)域。RNN最大的特點(diǎn)就是神經(jīng)元的輸出可以繼續(xù)作為輸入,再次利用到神經(jīng)元中循環(huán)使用。RNN是以序列的方式對(duì)數(shù)據(jù)進(jìn)行讀取,這也是RNN最為獨(dú)特的特征。RNN的串聯(lián)式結(jié)構(gòu)適用于時(shí)間序列的數(shù)據(jù),可以完好保持?jǐn)?shù)據(jù)中的依賴關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)主要有三層結(jié)構(gòu),輸入層,隱藏層和輸出層。隱藏層的作用是對(duì)輸入層傳遞進(jìn)來的數(shù)據(jù)進(jìn)行一系列的運(yùn)算,并將結(jié)果傳遞給輸出層進(jìn)行輸出。RNN可用于許多不同的地方。下面是RNN應(yīng)用最多的領(lǐng)域:1.語言建模和文本生成,給出一個(gè)詞語序列,試著預(yù)測下一個(gè)詞語的可能性。這在翻譯任務(wù)中是很有用的,因?yàn)樽钣锌赡艿木渥訉⑹强赡苄宰罡叩膯卧~組成的句子;2.語音識(shí)別;3.生成圖像描述,RNN一個(gè)非常廣泛的應(yīng)用是理解圖像中發(fā)生了什么,從而做出合理的描述。這是CNN和RNN相結(jié)合的作用。CNN做圖像分割,RNN用分割后的數(shù)據(jù)重建描述。這種應(yīng)用雖然基本,但可能性是無窮的;4.視頻標(biāo)記,可以通過一幀一幀地標(biāo)記視頻進(jìn)行視頻搜索。3、深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實(shí)也是指的一個(gè)東西,DNN有時(shí)也叫做多層感知機(jī)(Mul-ti-Layerperceptron,MLP)。DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。深度神經(jīng)網(wǎng)絡(luò)(DNN)目前作為許多人工智能應(yīng)用的基礎(chǔ),并且在語音識(shí)別和圖像識(shí)別上有突破性應(yīng)用。DNN的發(fā)展也非常迅猛,被應(yīng)用到工業(yè)自動(dòng)駕駛汽車、醫(yī)療癌癥檢測等領(lǐng)域。在這許多領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)技術(shù)能夠超越人類的準(zhǔn)確率,但同時(shí)也存在著計(jì)算復(fù)雜度高的問題。因此,那些能夠解決深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)準(zhǔn)確度或不會(huì)增加硬件成本高效處理的同時(shí),又能提升效率和吞吐量的技術(shù)是現(xiàn)在人工智能領(lǐng)域能夠廣泛應(yīng)用DNN技術(shù)的關(guān)鍵。
三、深度學(xué)習(xí)在教育領(lǐng)域的影響
1、學(xué)生學(xué)習(xí)方面通過網(wǎng)上學(xué)習(xí)的實(shí)時(shí)反饋數(shù)據(jù)對(duì)學(xué)生的學(xué)習(xí)模式進(jìn)行研究,并修正現(xiàn)有教學(xué)模式存在的不足。分析網(wǎng)絡(luò)大數(shù)據(jù),相對(duì)于傳統(tǒng)在線學(xué)習(xí)本質(zhì)區(qū)別在于捕捉學(xué)生學(xué)習(xí)過程,有針對(duì)性,實(shí)現(xiàn)學(xué)生個(gè)性化學(xué)習(xí)。舉個(gè)例子,在學(xué)習(xí)過程中,可以通過學(xué)習(xí)平臺(tái)對(duì)學(xué)生學(xué)習(xí)課程所花費(fèi)的時(shí)間,參與的程度,知識(shí)的偏好等等數(shù)據(jù)加以分析。也可以通過學(xué)生學(xué)習(xí)某門課程的次數(shù),鼠標(biāo)點(diǎn)擊次數(shù)、停留的時(shí)間等,來推斷學(xué)生學(xué)習(xí)情況。通過以上或類似數(shù)據(jù)匯總分析,可以正向引導(dǎo)學(xué)生學(xué)習(xí),并給予積極的學(xué)習(xí)評(píng)價(jià)。這種利用計(jì)算機(jī)收集分析出來的客觀數(shù)據(jù),很好展示了學(xué)生學(xué)習(xí)行為的結(jié)果,總結(jié)學(xué)習(xí)規(guī)律,而不需要教師多年的教學(xué)經(jīng)驗(yàn)來判斷。對(duì)于教育研究者而言,利用深度學(xué)習(xí)技術(shù)可以更客觀準(zhǔn)確地了解學(xué)生,使教學(xué)工作良好發(fā)展更進(jìn)一步。2、教學(xué)方面學(xué)習(xí)平臺(tái)的數(shù)據(jù)能夠?qū)虒W(xué)模式的適應(yīng)度進(jìn)行預(yù)測,通過學(xué)生的考試成績和對(duì)教師的線上評(píng)價(jià)等加以分析,能夠預(yù)測出某一階段的教學(xué)方式發(fā)發(fā)是否可行,影響如何。通過學(xué)生與教師的在線互動(dòng),學(xué)生測驗(yàn)時(shí)完成的時(shí)間與完成的結(jié)果,都會(huì)產(chǎn)生大量的有效的數(shù)據(jù),都可以為教師教學(xué)支持服務(wù)的更好開展提供幫助,從而避免低效率的教學(xué)模式造成教學(xué)資源的浪費(fèi)。
四、成人遠(yuǎn)程教育中深度學(xué)習(xí)技術(shù)的可應(yīng)用性
深度學(xué)習(xí)方面的應(yīng)用在眾多領(lǐng)域都取得了成功,比如電商商品推薦、圖像識(shí)別、自然語言處理、棋類博弈等等。在遠(yuǎn)程教育方面,深度學(xué)習(xí)的技術(shù)還有很大的發(fā)揮空間,智能網(wǎng)絡(luò)教育的實(shí)現(xiàn)是人們的眾望所盼。若要將深度學(xué)習(xí)技術(shù)應(yīng)用到遠(yuǎn)程教育平臺(tái),首先要清楚學(xué)生的需求和教學(xué)資源如何分配。1、針對(duì)學(xué)生的學(xué)習(xí)需求與學(xué)習(xí)特征進(jìn)行分析美國斯坦福大學(xué)克里斯皮希研究團(tuán)隊(duì)的研究成果顯示,通過對(duì)學(xué)生知識(shí)學(xué)習(xí)進(jìn)行時(shí)間建模,可以精確預(yù)測出學(xué)生對(duì)知識(shí)點(diǎn)的掌握情況,以及學(xué)生在下一次學(xué)習(xí)中的表現(xiàn)。深度學(xué)習(xí)的應(yīng)用可以幫助教師推測出學(xué)生的學(xué)習(xí)能力發(fā)展水平。通過學(xué)生與教學(xué)環(huán)境的交互行為,分析其學(xué)習(xí)風(fēng)格,避免教師用經(jīng)驗(yàn)進(jìn)行推斷而產(chǎn)生的誤差。2、教學(xué)資源的利用與分配深度學(xué)習(xí)技術(shù)能夠形成智能的分析結(jié)論。計(jì)算機(jī)實(shí)時(shí)采集數(shù)據(jù)集,對(duì)學(xué)生的學(xué)習(xí)情況加以分析,使教師對(duì)學(xué)生的學(xué)習(xí)狀態(tài)、情緒狀態(tài)等有更加清晰、準(zhǔn)確的了解。有了上面良好的教學(xué)模式,教師對(duì)學(xué)生的學(xué)習(xí)狀態(tài)有了更準(zhǔn)確的掌握,對(duì)學(xué)生的學(xué)習(xí)結(jié)果就有了更科學(xué)的教學(xué)評(píng)價(jià)。基于深度學(xué)習(xí)的人工智能技術(shù),還可以輔助教師實(shí)現(xiàn)智能閱卷,通過智能閱卷自動(dòng)總結(jié)出學(xué)習(xí)中出現(xiàn)的問題,幫助教師減少重復(fù)性勞動(dòng),減輕教師負(fù)擔(dān)。作為成人高校,遠(yuǎn)程教育是我們的主要教學(xué)手段,也是核心教學(xué)方式,學(xué)校的教學(xué)必定是在學(xué)生方便學(xué)習(xí)的同時(shí),以學(xué)生的學(xué)習(xí)效果為重。通過深度學(xué)習(xí)技術(shù),可以科學(xué)地分析出學(xué)生的學(xué)習(xí)效果,對(duì)后續(xù)教與學(xué)給予科學(xué)、可靠的數(shù)據(jù)支撐。我們可以在平臺(tái)上為每位同學(xué)建立學(xué)習(xí)模型,根據(jù)學(xué)生的學(xué)習(xí)習(xí)慣為其定制個(gè)性化方案,按他們的興趣進(jìn)行培養(yǎng),發(fā)揮他們專業(yè)的潛能。同時(shí),可以將學(xué)生正式在線參加學(xué)習(xí)和考試的學(xué)習(xí)行為和非學(xué)習(xí)時(shí)間瀏覽網(wǎng)站的行為結(jié)合到一起,更加科學(xué)地分析出學(xué)生在學(xué)習(xí)網(wǎng)站上感興趣的地方。采用深度學(xué)習(xí)算法,根據(jù)學(xué)生學(xué)習(xí)行為產(chǎn)生的海量數(shù)據(jù)推算出學(xué)生當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間的差距,做到精準(zhǔn)及時(shí)的學(xué)習(xí)需求反饋。有助于幫助學(xué)生明確學(xué)習(xí)目標(biāo),教師確立教學(xué)目標(biāo),真正做好因材施教。基于深度學(xué)習(xí)各種智能識(shí)別技術(shù),可以為教師的線上教學(xué)活動(dòng)增光添彩,在反饋學(xué)生學(xué)習(xí)狀態(tài)的同時(shí),采用多種形式的教學(xué)方法吸引學(xué)生的注意力,增強(qiáng)教學(xué)活動(dòng)的互動(dòng)性,達(dá)到良好的教學(xué)效果。
篇2
關(guān)鍵詞:圖像復(fù)原;盲復(fù)原;逆濾波;神經(jīng)網(wǎng)絡(luò)復(fù)原
1 圖像退化及復(fù)原模型
1.1 圖像降質(zhì)的數(shù)學(xué)模型
圖像復(fù)原處理的關(guān)鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經(jīng)過某個(gè)退化系統(tǒng)后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對(duì)圖像的影響一般作為加性噪聲考慮,這也與許多實(shí)際應(yīng)用情況一致,如圖像數(shù)字化時(shí)的量化噪聲、隨機(jī)噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對(duì)數(shù)方式將其轉(zhuǎn)化為相加形式。原始圖像f(x,y) 經(jīng)過一個(gè)退化算子或系統(tǒng)H(x,y) 的作用,然后和噪聲n(x,y)進(jìn)行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數(shù)學(xué)表達(dá)式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統(tǒng)計(jì)性質(zhì)的信息下圖表示退化過程的輸入和輸出的關(guān)系,其中H(x,y)包含了退化系統(tǒng)的物理過程,即所要尋找的退化數(shù)學(xué)模型。
1.2 圖像的退化恢復(fù)模型
數(shù)字圖像的圖像恢復(fù)問題可以看作是:根據(jù)退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計(jì)。
2 研究背景與意義
圖像復(fù)原是數(shù)字圖像處理技術(shù)的一個(gè)重要研究方向,在現(xiàn)實(shí)生活中,有著非常廣闊的應(yīng)用前景和市場。數(shù)字圖像處理研究很大部分是服務(wù)于數(shù)字圖像復(fù)原的,而運(yùn)動(dòng)模糊圖像的復(fù)原又是圖像復(fù)原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對(duì)衛(wèi)星所拍攝的圖像進(jìn)行復(fù)原,因?yàn)樾l(wèi)星相對(duì)地球是運(yùn)動(dòng)的,所拍出的圖像是模糊的(當(dāng)然衛(wèi)星所拍攝圖像的模糊原因不僅僅是相對(duì)運(yùn)動(dòng)而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進(jìn)實(shí)驗(yàn)室(JPL)對(duì)徘徊者飛行器發(fā)回的月球照片進(jìn)行了圖像恢復(fù)處理。傳統(tǒng)的圖像恢復(fù)方法可以很好地恢復(fù)出來原始圖像,但是需要事先知道系統(tǒng)的先驗(yàn)知識(shí)(例如系統(tǒng)的點(diǎn)擴(kuò)散函數(shù))。在先驗(yàn)知識(shí)不足的情況下,如何恢復(fù)出來原始圖像?這就需要模糊圖像盲恢復(fù)技術(shù)。根據(jù)不同的應(yīng)用背景和先驗(yàn)知識(shí),大致可以兩種方法恢復(fù)兩種類型的模糊圖像,以滿足不同的應(yīng)用要求。
第一種方法:如何快速恢復(fù)模糊圖像,進(jìn)行適時(shí)性圖像處理?這個(gè)技術(shù)在實(shí)際生活中有著廣泛應(yīng)用。
第二種方法:如何在事先不能確定模糊系統(tǒng)點(diǎn)擴(kuò)散函數(shù)的情況下,恢復(fù)模糊圖像,改善圖像的質(zhì)量,這就是圖像盲恢復(fù)的問題。
3 國際國內(nèi)研究發(fā)展和現(xiàn)狀
從歷史上來看,數(shù)字圖像處理研究有很大部分是在圖像恢復(fù)方面進(jìn)行的,包括對(duì)算法的研究和針對(duì)特定問題的圖像處理程序的編寫。數(shù)字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應(yīng)用于數(shù)字圖像恢復(fù)。這一階段對(duì)模糊圖像的研究主要是把因相對(duì)運(yùn)動(dòng)而拍攝的模糊圖像復(fù)原過來,從而增強(qiáng)人們的判讀能力。早期做圖像復(fù)原研究,主要強(qiáng)調(diào)盡可能使模糊圖像復(fù)原到原貌,增加它的判讀性,在此發(fā)展了很多的復(fù)原方法,諸如:差分復(fù)原、維納濾波等.這些方法各有特點(diǎn),較好的解決了運(yùn)動(dòng)模糊圖像的判讀問題,但是在應(yīng)用上均有一定的限制。
雖然經(jīng)典的圖象復(fù)原方法不少,但歸納起來大致可分為逆濾波法,或稱相關(guān)變換法( inv ersefiltering or t ransfo rm related techniques) 和代數(shù)方法( alg ebraic techniques) 兩種。
3.1 傳統(tǒng)復(fù)原法
3.1.1 逆濾波方法
逆濾波法大致有經(jīng)典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經(jīng)典逆濾波的變換函數(shù)是引起圖象失真的變換函數(shù)的逆變換,其雖在沒有噪聲的情況下,可產(chǎn)生精確的復(fù)原圖象,但在有噪聲時(shí),將對(duì)復(fù)原圖象產(chǎn)生嚴(yán)重的影響,雖然濾波函數(shù)經(jīng)過修改,有噪聲的圖象也能復(fù)原,但它僅適用于極高信噪比條件下的圖象復(fù)原問題; 維納濾波法是通過選擇變換函數(shù),同時(shí)使用圖象和噪聲的統(tǒng)計(jì)信息來極小化均方復(fù)原誤差,這雖然在一定程度上克服了逆濾波法的缺點(diǎn),但是維納濾波法需要較多有關(guān)圖象的先驗(yàn)知識(shí),如需要對(duì)退化圖象進(jìn)行滿足廣義平穩(wěn)過程的假設(shè),還需要知道非退化圖象的相關(guān)函數(shù)或功率譜特性等等,而在實(shí)際應(yīng)用中,要獲得這些先驗(yàn)知識(shí)有較大的困難,為此,Ozkan 等人在研究圖象序列的復(fù)原問題時(shí),提出了一種解決空間和時(shí)間相關(guān)性的多幀維納濾波法,是近年來維納濾波法的新發(fā)展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩(wěn)圖象的復(fù)原,但是因計(jì)算量過大,而限制了其實(shí)際應(yīng)用的效果。 Wu 和Kundu 又對(duì)卡爾曼濾波方法進(jìn)行了改進(jìn),不僅提高了速度,并考慮了應(yīng)用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對(duì)卡爾曼濾波方法進(jìn)行了改進(jìn),提出了塊卡爾曼濾波方法; Koch 等提出了擴(kuò)展卡爾曼濾波( extended Kalmam filter) 復(fù)原方法,該方法可以較好地復(fù)原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數(shù)估計(jì)濾波法,它實(shí)質(zhì)上是維納濾波法的變種. 20 世紀(jì)90 年代初,又提出了基于遞歸圖象濾波的自適應(yīng)圖象復(fù)原方法及合成濾波方法,它代表了濾波方法新的發(fā)展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進(jìn)行了改進(jìn),即在代價(jià)函數(shù)中增加了空間自適應(yīng)正則化項(xiàng),從而很好地抑制了噪聲,并減少了振鈴現(xiàn)象,較好實(shí)現(xiàn)了在低SNR 條件下的盲圖象復(fù)原. 2001 年,Eng 等人結(jié)合模糊集的概念,提出了自適應(yīng)的軟開關(guān)中值濾波方法,它能在有效地去掉脈沖噪聲的同時(shí),很好地保存圖象的細(xì)節(jié),是一種值得重視的新的圖象復(fù)原方法。
3.1 2 代數(shù)方法
Andrews 和Hunt 提出了一種基于線性代數(shù)的圖象復(fù)原方法。這種方法可能比較適合那些相對(duì)于積分運(yùn)算,則更喜歡矩陣代數(shù),而相對(duì)于分析連續(xù)函數(shù),又更喜歡離散數(shù)學(xué)的人的口味。它為復(fù)原濾波器的數(shù)字計(jì)算提供了一個(gè)統(tǒng)一的設(shè)計(jì)思路。代數(shù)方法可分為偽逆法、奇異值分解偽逆法、維納估計(jì)法和約束圖象復(fù)原方法等。 其中,偽逆法,實(shí)質(zhì)上是根據(jù)圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計(jì)算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進(jìn)行分解,由于簡化了計(jì)算,從而有利于模糊矩陣的估計(jì)計(jì)算,但在有噪聲存在時(shí),經(jīng)常會(huì)出現(xiàn)不穩(wěn)定的現(xiàn)象; 維納估計(jì)法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機(jī)過程,且已知其期望和協(xié)方差的情況。前面的方法僅把圖象看成是數(shù)字的陣列,然而一個(gè)好的復(fù)原圖象應(yīng)該在空間上是平滑的,其在幅度值上是正的,而約束圖象復(fù)原方法就是將這些因素作為約束條件,如基于維納估計(jì)法和回歸技術(shù)而提出的圖象復(fù)原方法就是一種約束圖象復(fù)原方法,而且通過選取不同的約束參數(shù)和回歸方法可以得到不同的圖象復(fù)原算法。傳統(tǒng)的圖象復(fù)原算法或面臨著高維方程的計(jì)算問題,或要求恢復(fù)過程滿足廣義平穩(wěn)過程的假設(shè),這就是,使得具有廣泛應(yīng)用價(jià)值的圖象復(fù)原問題沒有得到圓滿的解決的根本原因。
3.2 神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的方法
神經(jīng)網(wǎng)絡(luò)圖象復(fù)原方法的發(fā)展方向自從神經(jīng)網(wǎng)絡(luò)圖象復(fù)原首次提出十多年來,其研究在不斷地深入和發(fā)展,描述它的現(xiàn)狀已屬不易,展望它的未來更是困難,況且科學(xué)研究具有不確定性. 據(jù)筆者判斷,如下諸方面是亟待解決的問題,或研究活動(dòng)已有向這些方面集中的趨勢(shì)。
3. 2.1小波神經(jīng)網(wǎng)絡(luò)用于圖象復(fù)原將是研究的重點(diǎn)
自1992 年Zhang 提出小波神經(jīng)網(wǎng)絡(luò)以來,如今已提出了各種類型的小波網(wǎng)絡(luò),且小波與神經(jīng)網(wǎng)絡(luò)的結(jié)合成了一個(gè)十分活躍的研究領(lǐng)域。通過學(xué)者們的理論分析和模擬實(shí)驗(yàn)表明: 由于小波神經(jīng)網(wǎng)絡(luò)具有逼近能力強(qiáng)、可顯著降低神經(jīng)元的數(shù)目、網(wǎng)絡(luò)學(xué)習(xí)收斂的速度快、參數(shù)( 隱層結(jié)點(diǎn)數(shù)和權(quán)重) 的選取有理論指導(dǎo)、能有效避免局部最小值問題等優(yōu)點(diǎn),因此將其用于圖象復(fù)原是一個(gè)值得研究的方向。將小波的時(shí)頻域局部性、多分辨性等性質(zhì),與神經(jīng)網(wǎng)絡(luò)的大規(guī)模并行性、自學(xué)習(xí)特性等優(yōu)點(diǎn)結(jié)合起來,不僅將使用于圖象復(fù)原的小波神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)分辨性,也將使正則化參數(shù)的選取更具有自適應(yīng)能力. 最終使復(fù)原圖象既能保持圖象的細(xì)節(jié),又能很好地抑制圖象中的各種噪聲。
3.2.2細(xì)胞神經(jīng)網(wǎng)絡(luò)、BP 網(wǎng)絡(luò)、自組神經(jīng)網(wǎng)絡(luò)
值得進(jìn)一步研究細(xì)胞神經(jīng)網(wǎng)絡(luò)( CNN ) 由于其具有易于硬件實(shí)現(xiàn)的特點(diǎn),因而具有很強(qiáng)的商業(yè)價(jià)值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細(xì)胞神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)的進(jìn)一步完善及在此基礎(chǔ)上建立細(xì)胞神經(jīng)網(wǎng)絡(luò)中鄰域系統(tǒng)的概念; 與圖象數(shù)據(jù)局部相關(guān)性等概念結(jié)合起來研究,以建立新的圖象復(fù)原理論,形成新的圖象復(fù)原技術(shù)。BP 網(wǎng)絡(luò)對(duì)受污染或帶噪聲的訓(xùn)練樣本,不僅能進(jìn)行正確的映射,且與其純樣本仍相似。 正是BP 網(wǎng)絡(luò)的泛化能力強(qiáng),使它在解決圖象復(fù)原問題時(shí),可能比其他神經(jīng)網(wǎng)絡(luò)具有更好的潛在性能。 將BP 網(wǎng)絡(luò)用于圖象復(fù)原是很值得進(jìn)一步研究的.大家知道,人腦的學(xué)習(xí)方式是“自主的”,即有自組織和自適應(yīng)的能力的,即人腦能在復(fù)雜、非平穩(wěn)和有“干擾”的環(huán)境及其變化的情況下,來調(diào)整自己的思維和觀念,還能根據(jù)對(duì)外界事物的觀察和學(xué)習(xí),找到其內(nèi)在的規(guī)律和本質(zhì)屬性,并能在一定的環(huán)境下,估計(jì)到可能出現(xiàn)的情況以及預(yù)期會(huì)遇到和感覺到的各種內(nèi)容及情況。 自組織神經(jīng)網(wǎng)絡(luò)(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數(shù)據(jù)中,揭示出它們之間內(nèi)在關(guān)系的能力,因此將其用于“盲圖象”的復(fù)原將是非常有利的。
3.2.3 需要提出更適合圖象復(fù)原的新神經(jīng)網(wǎng)絡(luò)模型
小波神經(jīng)網(wǎng)絡(luò)是為逼近任意非線性函數(shù)而提出來的,但為了圖象復(fù)原的需要,可考慮針對(duì)圖象復(fù)原的特殊情況,提出新的神經(jīng)網(wǎng)絡(luò)模型。 如,因?yàn)榇蠖鄶?shù)圖象是由平滑區(qū)域和輪廓細(xì)節(jié)組成的,其圖象數(shù)據(jù)在平滑區(qū)域雖具有較強(qiáng)的相關(guān)性,但與輪廓細(xì)節(jié)相鄰的數(shù)據(jù)應(yīng)極不相關(guān),所以,提出一種專用于圖象復(fù)原的“相關(guān)性神經(jīng)網(wǎng)絡(luò)模型”是必然的期待; 再有,因?yàn)槎囗?xiàng)式具有較廣的擬合性和較好的收斂性,所以應(yīng)提出的“多項(xiàng)式神經(jīng)網(wǎng)絡(luò)”,將它們用于圖象復(fù)原也是值得研究的。
3.2.4 神經(jīng)網(wǎng)絡(luò)與其他理論的結(jié)合
研究是尋求新模型、新方法的重要途徑目前神經(jīng)網(wǎng)絡(luò)的研究正由單純的神經(jīng)計(jì)算轉(zhuǎn)向計(jì)算智能,并結(jié)合腦科學(xué)的研究向生物智能方向發(fā)展。 為此,神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的研究也應(yīng)考慮吸收模糊、分形、混沌、進(jìn)化計(jì)算、信息融合等交叉學(xué)科的研究成果。 與模糊系統(tǒng)的結(jié)合將是一個(gè)重要的研究方向,因?yàn)?,神?jīng)網(wǎng)絡(luò)與模糊系統(tǒng)有如下很多的相同之處: ( 1) 它們?cè)谔幚砗徒鉀Q問題時(shí),無需建立對(duì)象的精確數(shù)學(xué)模型,而只需要根據(jù)輸入的采樣數(shù)據(jù)去估計(jì)其要求的決策; ( 2) 在對(duì)信息的加工處理過程中,均表現(xiàn)出了很強(qiáng)的容錯(cuò)能力; ( 3) 它們都可以用硬件來實(shí)現(xiàn). 由此可見,將神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)結(jié)合,用于圖象復(fù)原將是有意義的研究工作。
4 未來展望
圖像恢復(fù)發(fā)展到現(xiàn)在,已經(jīng)有了許多成熟的算法,但是還是存在許多問題,等待著我們?nèi)ソ鉀Q。目前圖像恢復(fù)的最新發(fā)展有:
1. 非穩(wěn)圖像復(fù)原,即空間可變圖像復(fù)原。
2. 退化視頻信號(hào)的復(fù)原問題,以及攝像機(jī)拍照?qǐng)D像復(fù)原,這是一個(gè)需要進(jìn)一步研究的領(lǐng)域。
3. 運(yùn)動(dòng)補(bǔ)償時(shí)空復(fù)原濾波,同時(shí)將時(shí)間相關(guān)應(yīng)用到運(yùn)動(dòng)補(bǔ)償中。
4. “Telemedicine“的出現(xiàn),遠(yuǎn)程診斷極大的依賴于遠(yuǎn)程接受的圖像質(zhì)量,圖像恢復(fù)在醫(yī)學(xué)領(lǐng)域中有相當(dāng)重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個(gè)困難的問題,尤其在空間可變的 PSF 的估計(jì)中。
6. 空間可變恢復(fù)方法,可以利用 Wavelets 和 Markov 隨機(jī)場等方法進(jìn)行復(fù)圖像恢復(fù),這是一個(gè)具有發(fā)展?jié)摿Φ难芯糠较颉?/p>
參考文獻(xiàn)
1 馮久超,黃海東. 基于神經(jīng)網(wǎng)絡(luò)的盲圖象恢復(fù)[ J ] . 計(jì)算機(jī)科學(xué),2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
篇3
關(guān)鍵詞:視覺注視;移動(dòng)端;數(shù)據(jù)集;行為推測
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴S著計(jì)算機(jī)軟硬件性能和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大規(guī)模的并行計(jì)算技術(shù)突飛猛進(jìn),不斷地發(fā)展使各種現(xiàn)有技術(shù)變得越來越成熟,同時(shí)機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域也都得到了飛速發(fā)展。視覺技術(shù)的發(fā)展變得越來越重要,并且可以應(yīng)用到實(shí)際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計(jì)算機(jī)來輔助處理,并完成相關(guān)的一些工作。相對(duì)于生物信息識(shí)別技術(shù)這一計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)技術(shù)來說,也已廣泛應(yīng)用于日常生活中[1]。比如指紋識(shí)別器,人臉考勤器等平時(shí)在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報(bào)警系統(tǒng)以及近期炒得火熱的運(yùn)用支付寶進(jìn)行刷臉而完成的支付技術(shù)等,這些都是運(yùn)用了生物信息識(shí)別技術(shù)?,F(xiàn)實(shí)中的種種跡象已經(jīng)表明運(yùn)用生物信息識(shí)別的計(jì)算機(jī)技術(shù)已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時(shí)下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個(gè)體差異性和自身穩(wěn)定性特點(diǎn),從用戶的角度來看該特征具有便攜和低侵入等一些優(yōu)點(diǎn)。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因?yàn)檠劬χ刑N(yùn)含著表情、意圖等多種信息。因此,眼睛注視的行為預(yù)測受到了國內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時(shí)在生物信息識(shí)別領(lǐng)域中也具有重要的研究意義[2]。
2 注視預(yù)測問題
2.1 問題的背景
在心理、認(rèn)知和用戶交互研究中的注視跟蹤最近已朝向移動(dòng)解決方案發(fā)展,因?yàn)樗鼈兪沟每梢灾苯釉u(píng)估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關(guān)于用戶的動(dòng)作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態(tài)下非結(jié)構(gòu)化的任務(wù)中注視行為是相當(dāng)復(fù)雜的,并且不能使用在受控的實(shí)驗(yàn)室環(huán)境中創(chuàng)建的模型來得到令人滿意的解釋。自然條件下和實(shí)驗(yàn)室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對(duì)注視行為的推斷,需要一種更加整體的方法,將從認(rèn)知科學(xué)到機(jī)器學(xué)習(xí)的許多學(xué)科結(jié)合在一起[3]。
從人機(jī)交互技術(shù)到醫(yī)學(xué)診斷到心理學(xué)研究再到計(jì)算機(jī)視覺,眼睛注視跟蹤在許多領(lǐng)域都有應(yīng)用。注視是外部可觀察的人類視覺注意的指標(biāo),許多人試圖記錄它。對(duì)于眼睛視線方面的研究可以追溯到十八世紀(jì)后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個(gè)或多個(gè)方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實(shí)中的自然條件下,這些因素對(duì)實(shí)際的應(yīng)用會(huì)造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(jī)(例如,智能手機(jī)或網(wǎng)絡(luò)攝像頭)的人應(yīng)該可以使用的普及技術(shù)。如何才能使得這種技術(shù)普及并且得到應(yīng)用,提出了一種解決方案。
2.2問題的提出
研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數(shù)據(jù)推斷用戶動(dòng)作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實(shí)時(shí)交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動(dòng)設(shè)置中設(shè)置各種條件進(jìn)行補(bǔ)救。商業(yè)化定制化的解決方案都有其獨(dú)自的閉合性質(zhì),因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復(fù)雜的現(xiàn)象,涉及認(rèn)知過程的相互作用。這些過程在設(shè)置計(jì)算上的建模是非常困難的,尤其是涉及一些未知因素,使得構(gòu)建實(shí)驗(yàn)設(shè)置成為一個(gè)很大的挑戰(zhàn)。此外,來自跟蹤實(shí)驗(yàn)的數(shù)據(jù)因?yàn)槠渖虡I(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨(dú)立的實(shí)驗(yàn)條件。這些方面的問題都阻礙了跨學(xué)科方法在分析和利用注視數(shù)據(jù)和實(shí)驗(yàn)的相關(guān)研究與發(fā)展。
2.3 解決問題的研究方向
對(duì)基于注視的推斷的個(gè)體貢獻(xiàn)通常保持孤立,不能形成更大的整體以促進(jìn)對(duì)注視動(dòng)作行為的研究。隨著這方面的技術(shù)發(fā)展和應(yīng)用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應(yīng)用和用戶界面中使用注視已經(jīng)相當(dāng)有限,但是移動(dòng)注視跟蹤的新穎應(yīng)用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動(dòng)注視跟蹤來推斷用戶動(dòng)作的問題是高度多學(xué)科的,需要深入理解各個(gè)研究領(lǐng)域,包括人眼的功能,數(shù)學(xué)建模,計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí),信息技術(shù),認(rèn)知過程,用戶交互以及心理學(xué)。任何一個(gè)研究員或甚至任何研究小組都不可能擁有所有研究領(lǐng)域的專家,因此需要相互的協(xié)作共同推進(jìn)技術(shù)的發(fā)展[5]。
目前的研究主要是從以下幾個(gè)方面進(jìn)行:
1)研究移動(dòng)注視跟蹤的認(rèn)知方面,例如增強(qiáng)對(duì)任務(wù)中的注視行為的理解或識(shí)別不同任務(wù)的特征和階段;
2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動(dòng)作的計(jì)算方法,諸如應(yīng)用機(jī)器學(xué)習(xí)用于行為推斷,優(yōu)選地實(shí)時(shí)地;
3)增強(qiáng)用于改善移動(dòng)注視跟蹤方法和性能的技術(shù)軟件/硬件解決方案,并使得設(shè)備更容易訪問;
4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強(qiáng)現(xiàn)實(shí)應(yīng)用中的潛在用途,以及定義任務(wù),其中注視可以是用戶動(dòng)作的有用的預(yù)測器。
3 解決方案
首先選擇移動(dòng)端進(jìn)行研究,因?yàn)槟壳氨容^普遍的移動(dòng)設(shè)備比如智能手機(jī)、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動(dòng)設(shè)備相對(duì)于其他平臺(tái)具有以下優(yōu)勢(shì):
1)使用的廣泛性。據(jù)估計(jì),到2019年,世界上超過三分之一的人口擁有智能手機(jī),遠(yuǎn)遠(yuǎn)超過臺(tái)式機(jī)/筆記本電腦用戶;
2)軟硬件技術(shù)升級(jí)的采用率較高。大部分的移動(dòng)設(shè)備具有允許使用擁有計(jì)算復(fù)雜數(shù)據(jù)方法的實(shí)時(shí)的最新軟硬件;
3)移動(dòng)設(shè)備上相機(jī)的大量使用已經(jīng)導(dǎo)致相機(jī)技術(shù)的快速開發(fā)和部署;
4)相機(jī)相對(duì)于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準(zhǔn)跟蹤應(yīng)用。
3.1 注視類型分析
注視估計(jì)方法可以分為基于模型或基于外觀[6]?;谀P偷姆椒ㄊ褂醚劬Φ膸缀文P?,并且可以被細(xì)分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質(zhì)量和可變的照明條件。基于外觀的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認(rèn)為需要更大量的用戶特定的訓(xùn)練數(shù)據(jù)。通過使用深度學(xué)習(xí)和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實(shí)現(xiàn)準(zhǔn)確的無校準(zhǔn)注視估計(jì)。這種方案提出建立一個(gè)基于外觀的數(shù)據(jù)模型,而不使用任何手工設(shè)計(jì)的功能,例如頭部姿勢(shì)或眼球中心位置。
3.2 技術(shù)方案
深度學(xué)習(xí)的最近成功在計(jì)算機(jī)視覺的各種領(lǐng)域中是顯而易見的,但是它對(duì)改善眼睛跟蹤性能的影響還是相當(dāng)有限。因?yàn)樯疃葘W(xué)習(xí)是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的稻菁比較有限,最大的數(shù)據(jù)集通常只是具有50個(gè)受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學(xué)習(xí)進(jìn)行研究的一套方案,就是構(gòu)造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡(luò)資源構(gòu)造一個(gè)大規(guī)模的基于移動(dòng)的眼動(dòng)跟蹤數(shù)據(jù)集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運(yùn)動(dòng)下記錄[7]。運(yùn)用現(xiàn)有的智能算法得到一個(gè)可以進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)端到端的注視預(yù)測的后臺(tái)決策網(wǎng)絡(luò)。不依賴任何預(yù)先存在的系統(tǒng),不需要頭部姿態(tài)估計(jì)或其他手動(dòng)設(shè)計(jì)的特征用于預(yù)測。使用只有雙眼和臉部的特征訓(xùn)練網(wǎng)絡(luò),在這個(gè)領(lǐng)域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡(luò)在精度方面實(shí)現(xiàn)了很先進(jìn)的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動(dòng)設(shè)備上實(shí)時(shí)使用。 為了解決這個(gè)問題,需要培養(yǎng)學(xué)習(xí)得到一個(gè)更小更快的網(wǎng)絡(luò),在移動(dòng)設(shè)備上實(shí)現(xiàn)實(shí)時(shí)性能,使得精度損失進(jìn)一步降低。
3.3 大規(guī)模數(shù)據(jù)集
為了達(dá)到這一方案的預(yù)測效果,首先要進(jìn)行的是數(shù)據(jù)集的建立。網(wǎng)絡(luò)上相關(guān)的研究中有許多公開的注視數(shù)據(jù)集[8]??偨Y(jié)對(duì)比這些相關(guān)的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢(shì)變化或具有粗略的注視點(diǎn)采樣密度。需要對(duì)這些數(shù)據(jù)進(jìn)行篩選,使得到的數(shù)據(jù)具有隨機(jī)分布特點(diǎn)。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當(dāng)有限。大多數(shù)現(xiàn)有的眼動(dòng)追蹤數(shù)據(jù)集已經(jīng)由邀請(qǐng)實(shí)驗(yàn)室參與者的研究人員收集,這一過程導(dǎo)致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進(jìn)行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過卷積神經(jīng)網(wǎng)絡(luò)有效地識(shí)別人臉(他們的眼睛)上的細(xì)粒度差異,從而做出準(zhǔn)確的預(yù)測。
收集眼動(dòng)跟蹤數(shù)據(jù)應(yīng)該注意的方面:
1)可擴(kuò)展性。數(shù)據(jù)應(yīng)該是自然條件下的使得用戶具有靈活性;
2)可靠性。運(yùn)用現(xiàn)有的智能移動(dòng)設(shè)備真實(shí)的應(yīng)用圖像而非設(shè)計(jì)處理過的圖像;
3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應(yīng)各種環(huán)境下的操作。
4 結(jié)束語
文章介紹了一種針對(duì)移動(dòng)設(shè)備的用戶注視行為推測解決方案。首先建立一個(gè)大規(guī)模眼動(dòng)跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓(xùn)練用于眼睛跟蹤的魯棒模型。然后,訓(xùn)練得到一個(gè)深層卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測注視。通過仔細(xì)的評(píng)估,利用深度學(xué)習(xí)可以魯棒地預(yù)測注視,達(dá)到一個(gè)較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個(gè)世紀(jì),相信這種新方案的策略可以作為下一代眼動(dòng)跟蹤解決方案的關(guān)鍵基準(zhǔn)。希望能通過這方面的研究,使人機(jī)交互得到更好的發(fā)展。
參考文獻(xiàn):
[1] 崔耀 視控人機(jī)交互系統(tǒng)技術(shù)研究與實(shí)現(xiàn)[D].西安,西安電子科技大學(xué),2013.
[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機(jī)械工業(yè)出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術(shù)研究 [D].山東:山東大學(xué),2012.
篇4
關(guān)鍵詞: 機(jī)器人視覺; 定位跟蹤系統(tǒng); 系統(tǒng)設(shè)計(jì); 控制模塊
中圖分類號(hào): TN802.4?34; TP242 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)14?0080?04
Design and implementation of robot vision locating and tracking system
CAO Qingmei1, WANG Xuelian2, MA Zhanfei3
(1. Vocational and Technical College of Inner Mongolia Agricultural University, Baotou 014100, China;
2. College of Public Administration, Inner Mongolia Normal University, Hohhot 010000, China;
3. School of Information Science and Technology, Normal College of Inner Mongolia University of Science and Technology, Baotou 014030, China)
Abstract: In view of the problems existing the design of the traditional robot locating and tracking system, such as incomplete tracking region acquired by image preprocessing module and incomplete noise elimination, a tracking system location according to robot vision was designed and implemented. In the system, the tracking region is acquired with the image preprocessing module, various modules of the whole system are coordinated and controlled with the control module to acquire the image of the target in the region, and then the acquired information is sent to the image processing module to complete the information exchange among the system modules. In the process of software design, the system locating program code is given while image processing to realize the robot visual positioning and tracking. The experimental results show that the designed system has the high feasibility and practicability.
Keywords: robot vision; locating and tracking system; system design; control module
0 引 言
近年來,機(jī)器人視覺被廣泛應(yīng)用在工業(yè)、圖像處理等眾多領(lǐng)域,而在定位跟蹤領(lǐng)域的使用是最好的,也是最突出的[1?2]。隨著科學(xué)技術(shù)的發(fā)展,設(shè)計(jì)并實(shí)現(xiàn)了很多定位跟蹤系統(tǒng),如基于人臉特征設(shè)計(jì)的定位跟蹤系統(tǒng),通過體型特征設(shè)計(jì)的定位跟蹤系統(tǒng),通過DNA檢測設(shè)計(jì)的定位跟蹤系統(tǒng)以及通過機(jī)器人視覺設(shè)計(jì)的定位跟蹤系統(tǒng)。其中,最常用、效果最好的就是通過機(jī)器人視覺設(shè)計(jì)的定位跟蹤系統(tǒng)[3?5],相比其他的定位跟蹤系統(tǒng),該系統(tǒng)應(yīng)用前景廣泛,跟蹤效果好,已經(jīng)成為很多學(xué)者研究的重點(diǎn)課題,受到越來越廣泛的關(guān)注,是相關(guān)領(lǐng)域的前沿方向[6?9]。
本文設(shè)計(jì)并實(shí)現(xiàn)了一種通過機(jī)器人視覺進(jìn)行定位的跟蹤系統(tǒng),通過機(jī)器人視覺進(jìn)行區(qū)域目標(biāo)信息的采集及分析,為視覺監(jiān)控等領(lǐng)域提供有效依據(jù)。
1 機(jī)器人視覺定位跟蹤系統(tǒng)總體設(shè)計(jì)
設(shè)計(jì)的機(jī)器人視覺定位跟蹤系統(tǒng)主要由控制模塊、圖像預(yù)處理模塊、信號(hào)采集模塊、通信模塊和視覺定位模塊構(gòu)成。首先通過圖像預(yù)處理模塊將需要的區(qū)域圖像中的噪聲進(jìn)行干擾去除,經(jīng)過控制模塊對(duì)整個(gè)系統(tǒng)各個(gè)模塊進(jìn)行協(xié)調(diào)和控制,將區(qū)域圖像信息進(jìn)行采集及存儲(chǔ),并通過通信模塊進(jìn)行信息的傳輸,最后通過機(jī)器人視覺進(jìn)行定位,最終根據(jù)定位完成跟蹤。其中,圖像預(yù)處理的好壞,直接影響后面機(jī)器人視覺定位的準(zhǔn)確度,定位出現(xiàn)誤差,跟蹤效率就會(huì)降低,因此圖像預(yù)處理模塊是整個(gè)機(jī)器人視覺定位跟蹤系統(tǒng)的基礎(chǔ)。詳細(xì)的機(jī)器人視覺定位跟蹤系統(tǒng)結(jié)構(gòu)如圖1所示。
2 機(jī)器人視覺定位跟蹤系統(tǒng)硬件設(shè)計(jì)
2.1 控制模塊
控制模塊是本文設(shè)計(jì)系統(tǒng)的核心,主要用來協(xié)調(diào)和控制整個(gè)機(jī)器人視覺定位跟蹤系統(tǒng)各個(gè)模塊,其主要由C8051F206單片機(jī)、UART和SPI串行接口、片內(nèi)FLASH存儲(chǔ)器等構(gòu)成。選擇C8051F206單片機(jī)為系統(tǒng)的核心芯片,它是集成的MCU芯片,具有12位多通道ADC,依據(jù)系統(tǒng)整體設(shè)計(jì)的需求,選用UART和SPI的串行接口,該串行接口共有32個(gè)通用I/O引腳,部分引腳用于數(shù)字外設(shè)接口。所有端口引腳均能夠被配置ADC模擬輸入,片內(nèi)還集成有VDD監(jiān)視器、硬件看門狗定時(shí)器以及時(shí)鐘振蕩器。片內(nèi)FLASH存儲(chǔ)器還可用于部分?jǐn)?shù)據(jù)存儲(chǔ)。通過設(shè)計(jì)的這個(gè)控制模板可以及時(shí)有效地對(duì)其余各個(gè)模塊進(jìn)行調(diào)控并獲取區(qū)域圖像,為定位跟蹤提供了先決條件。
2.2 圖像預(yù)處理模塊
獲取區(qū)域圖像之后,需要進(jìn)一步對(duì)圖像進(jìn)行預(yù)處理,圖像預(yù)處理模塊主要負(fù)責(zé)獲取相對(duì)比較完整的、最大程度的不含陰影與噪聲的區(qū)域圖像。其中,圖像信息主要通過LT1959CS8、視頻解碼芯片、SRAM進(jìn)行預(yù)處理。SRAM需采用精度和穩(wěn)定性較高的雙電源供電,以消除機(jī)器人視覺定位跟蹤系統(tǒng)各模塊存在的電磁噪聲,因此,本文選用兩片Linear公司生產(chǎn)的LT1959CS8進(jìn)行供電。視頻解碼芯片選用Trident Microsystem公司生產(chǎn)的SAA7113H芯片。圖像存儲(chǔ)選擇兩片IDT71V424異步SRAM芯片實(shí)現(xiàn),其芯片容量是512 KB。這樣通過圖像預(yù)處理模板,可以去除噪聲對(duì)定位跟蹤產(chǎn)生的干擾,為信息采集模塊提供最“純凈”的信息。
2.3 信息采集模塊
信息采集模塊主要用于對(duì)經(jīng)過處理后的目標(biāo)圖像信息進(jìn)行采集,同時(shí)將采集的信息發(fā)送至通信模塊進(jìn)行處理。信息采集模塊主要包括MMA7260QT芯片、信息調(diào)理、單極低通濾波器以及溫度補(bǔ)償單元等。設(shè)計(jì)該模塊時(shí),將MMA7260QT芯片作為核心,對(duì)處理后的圖像信息進(jìn)行采集。該模塊不但需達(dá)到信息采集的功能要求,同時(shí)體積需盡可能的小,以節(jié)省資源。MMA7260QT是美國Freescale公司生產(chǎn)的一款低成本的單芯片,該芯片融合了信息調(diào)理、單極低通濾波器以及溫度補(bǔ)償技術(shù),同時(shí)可提供四種采集范圍,具有噪音低、靈敏度高的優(yōu)點(diǎn)。因此,該模塊使用MMA7260QT芯片可達(dá)到更好、更全面的圖像信息。
2.4 通信模塊
通信模塊主要用于整個(gè)系統(tǒng)模塊之間的信息交換,是整個(gè)系統(tǒng)設(shè)計(jì)成敗的關(guān)鍵樞紐,因此,本文選擇CAN總線進(jìn)行通信。和其他總線相比,CAN總線具有節(jié)點(diǎn)間不分主次,通信速率高的特點(diǎn)。除此之外,該模塊還采用Microchip公司的MCP2515控制器和TJA1040驅(qū)動(dòng)器輔助實(shí)現(xiàn),不僅能夠達(dá)到系統(tǒng)所需的要求,還能節(jié)約成本。
2.5 機(jī)器人視覺定位模塊
機(jī)器人視覺定位模塊是整個(gè)系統(tǒng)的關(guān)鍵模塊,采集到的信息通過預(yù)處理去除噪聲干擾,再經(jīng)過通信模塊傳輸?shù)揭曈X定位模塊,在此模塊經(jīng)過圖像智能化定位處理,使得要跟蹤的信息更加清楚、明了,增加了跟蹤的精度。
3 機(jī)器人視覺定位跟蹤軟件算法的設(shè)計(jì)
3.1 算法的設(shè)計(jì)思路
在上述機(jī)器人視覺定位跟蹤系統(tǒng)各個(gè)模塊的設(shè)計(jì)的基礎(chǔ)上,設(shè)計(jì)軟件算法,具體步驟如下:
(1) 獲取定位圖像特征,為動(dòng)態(tài)估計(jì)提供依據(jù)。假如,區(qū)域圖像信息集為[φkζ],[k=1,2,…,M],則第[k]個(gè)圖像的特征可通過下式求出:
式中:[Fkx;pk]用于描述圖像信息的動(dòng)態(tài)變化;[vkx;pk]用于描述圖像不確定項(xiàng);[pk]用于描述各參數(shù)向量。
(2) 動(dòng)態(tài)估計(jì)值的計(jì)算,為獲取定位誤差值提供有利條件。通過利用RBF神經(jīng)網(wǎng)絡(luò)對(duì)一般動(dòng)態(tài)信息圖像特征[φkx;pk=Fkx;pk+vkx;pk]進(jìn)行局部分類,同時(shí)將獲取的信息用常值神經(jīng)網(wǎng)絡(luò)[WkTSx]權(quán)值的形式進(jìn)行保存,并獲取[M]階的動(dòng)態(tài)估計(jì)值:
式中:[k=1,2,…,M]用于描述第[k]個(gè)參數(shù);[χk=χ1k,χ2k,…,χnkT]用于描述圖像信息個(gè)數(shù);[B=diagb1,b2,…,bn]用于描述對(duì)角矩陣。
(3) 定位誤差值的計(jì)算及誤差范數(shù)的獲取。在測試過程中,通過式(2)獲取的動(dòng)態(tài)估計(jì)值,即可獲取定位誤差值,計(jì)算公式如下:
式中,[χki=χki-xi]用于描述狀態(tài)估計(jì)誤差。
通過式(4)求出誤差[χkit]的[L1]范數(shù):
式中,[TC]用于描述圖像信息獲取周期。
(4) 完成機(jī)器人視覺定位,其基本思想為:若信息動(dòng)態(tài)模式為[s]([s∈1,2,…,k]),則動(dòng)態(tài)模式[s]中常值RBF的神經(jīng)網(wǎng)絡(luò)[WkTiSix]值,可通過定位誤差值獲取。所以,相應(yīng)的誤差[χsit1]在全部誤差[χsit1]中最小。依據(jù)最小誤差原則,實(shí)現(xiàn)快速定位。
依據(jù)上述定位過程給出系統(tǒng)用于定位的主流程圖,如圖2所示。
(5) 在定位的基礎(chǔ)上完成跟蹤,則具體的跟蹤結(jié)果如下:
式中:[Ii,j]代表目標(biāo)圖像邊緣上的像素點(diǎn);[S]代表圖像邊緣梯度向量;[t]代表目標(biāo)濾波值。
3.2 源代碼設(shè)計(jì)
本文設(shè)計(jì)的機(jī)器人視覺定位跟蹤系統(tǒng)軟件,是在Windows XP環(huán)境下,通過Visual C++ 6.0實(shí)現(xiàn)的,其關(guān)鍵跟蹤部分的源代碼如下:
4 仿真實(shí)驗(yàn)分析
為了驗(yàn)證本文設(shè)計(jì)的機(jī)器人視覺定位跟蹤系統(tǒng)的有效性,需要進(jìn)行相關(guān)的實(shí)驗(yàn)分析。實(shí)驗(yàn)將基于確定學(xué)習(xí)的跟蹤系統(tǒng)作為對(duì)比進(jìn)行分析,本文實(shí)驗(yàn)在Windows XP環(huán)境下,LabVIEW構(gòu)建系統(tǒng)平臺(tái)上完成。分別采用本文系統(tǒng)和基于確定學(xué)習(xí)的跟蹤系統(tǒng)對(duì)測試區(qū)域目標(biāo)進(jìn)行跟蹤,測試區(qū)域目標(biāo)圖像如圖3所示,兩種系統(tǒng)測試得到的結(jié)果分別如圖4、圖5所示。
由圖4、圖5可知,改進(jìn)算法進(jìn)行多人視覺定位中的防丟失效果要優(yōu)于傳統(tǒng)算法,這主要是因?yàn)楸疚脑O(shè)計(jì)的跟蹤系統(tǒng),通過控制模塊對(duì)整個(gè)系統(tǒng)的各個(gè)模塊進(jìn)行協(xié)調(diào)和控制,再經(jīng)過圖像預(yù)處理模塊對(duì)目標(biāo)區(qū)域圖像進(jìn)行處理,并對(duì)區(qū)域目標(biāo)圖像信息進(jìn)行采集,將采集的信息發(fā)送至圖像預(yù)處理模塊進(jìn)行處理,完成整個(gè)系統(tǒng)模塊之間的信息交換,最終達(dá)到跟蹤的目的。采用本文系統(tǒng)對(duì)區(qū)域目標(biāo)圖像進(jìn)行跟蹤,從側(cè)面視角的角度,對(duì)本文系統(tǒng)和基于確定學(xué)習(xí)的跟蹤系統(tǒng)的跟蹤準(zhǔn)確率進(jìn)行比較,得到的結(jié)果如表1所示。分析表1可以看出,本文系統(tǒng)的準(zhǔn)確率一直高于基于確定學(xué)習(xí)的跟蹤系統(tǒng),且準(zhǔn)確率一直在90%以上,說明本文系統(tǒng)具有很高的跟蹤性能。
5 結(jié) 論
本文設(shè)計(jì)并實(shí)現(xiàn)了一種機(jī)器人視覺定位跟蹤系統(tǒng)??刂颇K作為系統(tǒng)的核心,主要負(fù)責(zé)整個(gè)系統(tǒng)各個(gè)模塊的協(xié)調(diào)和控制,通過圖像預(yù)處理模塊進(jìn)行處理,再用信息采集模塊對(duì)目標(biāo)圖像信息進(jìn)行采集;并通過通信模塊在整個(gè)系統(tǒng)模塊之間進(jìn)行信息的交換。在軟件設(shè)計(jì)過程中,在圖像處理的同時(shí)給出定位跟蹤程序代碼,實(shí)現(xiàn)目標(biāo)的定位跟蹤。仿真實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的系統(tǒng)具有很高的可行性和實(shí)用性。
參考文獻(xiàn)
[1] 梁棟,高瑋瑋,張艷,等.基于足底壓力圖像的靜態(tài)觸覺步態(tài)識(shí)別[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(10):25?29.
[2] 王欣,唐俊,王年.基于雙層卷積神經(jīng)網(wǎng)絡(luò)的步態(tài)識(shí)別算法[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(1):32?36.
[3] 賁燁,張鵬,潘婷婷,等.線性插值框架下矩陣步態(tài)識(shí)別的性能分析[J].智能系統(tǒng)學(xué)報(bào),2013(5):415?425.
[4] 范玉紅,梁棟,鮑文霞.改進(jìn)的譜特征和足底邊緣距離的步態(tài)識(shí)別[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(6):37?43.
[5] 李一波,李昆.雙視角下多特征信息融合的步態(tài)識(shí)別[J].智能系統(tǒng)學(xué)報(bào),2013,8(1):74?79.
[6] 王蒙,孫運(yùn)強(qiáng),姚愛琴.基于PCA和BP神經(jīng)網(wǎng)絡(luò)的步態(tài)識(shí)別系統(tǒng)研究[J].電子質(zhì)量,2014(3):83?85.
[7] 鄭偉南,曲娜,程鳳芹,等.基于步態(tài)識(shí)別技術(shù)的熱釋電紅外安防預(yù)警系統(tǒng)研究[J].中國新通信,2014(23):96?97.
篇5
本文結(jié)合計(jì)算機(jī)行業(yè)的發(fā)展,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)進(jìn)行了分析研究,希望能為計(jì)算機(jī)技術(shù)的進(jìn)步提供一定的理論支持。
一、計(jì)算機(jī)網(wǎng)絡(luò)的云計(jì)算技術(shù)概念
美國的網(wǎng)絡(luò)公司最早提出計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的概念,隨著科學(xué)的進(jìn)步與發(fā)展已經(jīng)逐漸成為了一門成熟的技術(shù),有著豐富的理論基礎(chǔ)與實(shí)踐經(jīng)驗(yàn)?,F(xiàn)在的“云計(jì)算”技術(shù)是指能將網(wǎng)絡(luò)、硬件、設(shè)備相融合,同時(shí)實(shí)現(xiàn)規(guī)模性、安全性、虛擬性的技術(shù)。目前來看,對(duì)計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算的定義還沒有統(tǒng)一的趨勢(shì),每一名研究人員都有自己的研究與看法,通過研究與分析,本文對(duì)云計(jì)算的觀點(diǎn)是:首先,每一個(gè)“云”都是獨(dú)立的計(jì)算機(jī)分布體系,基于網(wǎng)絡(luò)化、虛擬化的計(jì)算機(jī)服務(wù)層,與計(jì)算機(jī)中的資源保持一定的節(jié)奏,實(shí)現(xiàn)計(jì)算機(jī)資源的同步。其次,計(jì)算機(jī)網(wǎng)絡(luò)云是一個(gè)綜合體,并非是獨(dú)立的,計(jì)算機(jī)軟件的開發(fā)中離不開云計(jì)算的環(huán)節(jié),其重點(diǎn)就是網(wǎng)絡(luò)云計(jì)算特征的研究。對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)的使用者來說,計(jì)算機(jī)集成軟件層面,能被接受與理解的就是云計(jì)算,在本文重點(diǎn)突出的就是云計(jì)算的屬性。最后,計(jì)算機(jī)網(wǎng)絡(luò)的使用者沒有進(jìn)行長期的規(guī)劃后使用,很容易出現(xiàn)浪費(fèi)現(xiàn)象,目前的云計(jì)算技術(shù)可以實(shí)現(xiàn)分或秒內(nèi)的數(shù)據(jù)計(jì)算,可以很好地避免資源過載或資源浪費(fèi)現(xiàn)象。
通過研究可以看出,計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)可以定義成計(jì)算機(jī)網(wǎng)絡(luò)中進(jìn)行的某種服務(wù)形式,其中相關(guān)的硬件設(shè)施與軟件系統(tǒng)統(tǒng)稱為計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算。定義中包括網(wǎng)絡(luò)計(jì)算機(jī)、超級(jí)計(jì)算機(jī)、集成技術(shù)等,相關(guān)的技術(shù)既有區(qū)別又有聯(lián)系。計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的原理是:大量的數(shù)據(jù)分布于分布式計(jì)算機(jī)中,同時(shí)保證用戶的數(shù)據(jù)系統(tǒng)與計(jì)算機(jī)同步運(yùn)行,進(jìn)而實(shí)現(xiàn)及時(shí)將需要的資源切換到相應(yīng)的應(yīng)用中,根據(jù)使用者的訪問需求進(jìn)行存儲(chǔ)系統(tǒng)與計(jì)算機(jī)系統(tǒng)的定位。計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)可以基于用戶服務(wù)需求及時(shí)提供所需的網(wǎng)絡(luò)信息資源。計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)適應(yīng)性強(qiáng),彈性好,專業(yè)技術(shù)性高,發(fā)展前景十分好,應(yīng)用越來越廣泛。
二、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的分類
基于多樣化的標(biāo)準(zhǔn),計(jì)算機(jī)云計(jì)算的分類也有多種方式。比較常見的是:根據(jù)服務(wù)方式的不同,云計(jì)算可以分為私有云和公有云。私有云是根據(jù)用戶的自身情況進(jìn)行獨(dú)立使用,同時(shí)建立平臺(tái),操作性與實(shí)用性十分好。公有云是ζ淥用戶的資源進(jìn)行開發(fā)利用。在選擇私有云與公有云時(shí),應(yīng)該考慮的主要因素是:
1.服務(wù)的延續(xù)性
大部分情況下,公有云提供的服務(wù)容易受外界影響,如網(wǎng)絡(luò)故障等情況,而私有云則不會(huì)出現(xiàn)這種問題。
2.數(shù)據(jù)安全性
如果對(duì)于穩(wěn)定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對(duì)于計(jì)算資源要求不高可以選用公有云,如果對(duì)于計(jì)算資源要求較高則比較適合建立自己的私有云平臺(tái)。
4.監(jiān)控能力
公有云可以將使用用戶對(duì)系統(tǒng)的監(jiān)控能力屏蔽起來,這對(duì)于金融保險(xiǎn)投資行業(yè)是十分有必要的。
三、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)的實(shí)現(xiàn)
為了將計(jì)算機(jī)系統(tǒng)的系統(tǒng)處理過程進(jìn)行簡化,通常將該過程劃分為預(yù)處理過程與功能實(shí)現(xiàn)過程兩大部分。對(duì)系統(tǒng)的各項(xiàng)功能進(jìn)行分解,得到一些不需要進(jìn)行功能實(shí)現(xiàn)過程與預(yù)處理過程的功能。對(duì)于可以進(jìn)行預(yù)先處理過程的功能通常是一次性處理,在執(zhí)行過程中,可以將預(yù)處理過程得到的結(jié)果直接使用,以此完成特點(diǎn)的系統(tǒng)功能。該方法與原則的采用,極大地簡化了系統(tǒng),大幅度提高了系統(tǒng)運(yùn)行效率。計(jì)算的云化中的系統(tǒng)就是計(jì)算云化系統(tǒng),它的計(jì)算量十分巨大,系統(tǒng)計(jì)算運(yùn)行效率極高。但因?yàn)橛?jì)算云化系統(tǒng)為一次處理系統(tǒng),只要計(jì)算云規(guī)則生成,計(jì)算云化系統(tǒng)的使命與任務(wù)也就完成,而不是在對(duì)計(jì)算機(jī)加以應(yīng)用時(shí)需要該系統(tǒng)。通常在計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算中形成的系統(tǒng)就是云計(jì)算系統(tǒng),是一個(gè)十分簡單的系統(tǒng),對(duì)計(jì)算機(jī)的處理能力沒有過高要求,同時(shí)應(yīng)用于各類計(jì)算機(jī)系統(tǒng)計(jì)算中。
四、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算的計(jì)算與優(yōu)勢(shì)
建立計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算過程的第一步是服務(wù)器架構(gòu)的建立,其對(duì)計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)中的IAAS部分進(jìn)行充當(dāng)。目前來看,仍沒有關(guān)于網(wǎng)絡(luò)云計(jì)算服務(wù)器架構(gòu)的專門、統(tǒng)一的標(biāo)準(zhǔn)出現(xiàn),這需要一定的相關(guān)技術(shù)進(jìn)行支持,例如計(jì)算區(qū)域網(wǎng)SAN和附網(wǎng)NAS等,這都是應(yīng)用比較多的服務(wù)器架構(gòu)技術(shù)。NAS文件計(jì)算系統(tǒng)是松散結(jié)構(gòu)型的集群,它的架構(gòu)有很明顯的分布式特征。NAS文件系統(tǒng)集群中的各個(gè)節(jié)點(diǎn)具有互補(bǔ)與相互影響的特點(diǎn),文件是最小的單位,因?yàn)橹灰诩捍鎯?chǔ)文件就可以計(jì)算出文件的數(shù)據(jù)信息,直接減少了很多計(jì)算的冗余性。它的拓展性很高,同時(shí)成本較低,安全控制系統(tǒng)安全穩(wěn)定。如果客戶發(fā)出過多的請(qǐng)求,NAS系統(tǒng)的限制就表現(xiàn)出來,二級(jí)計(jì)算就可以通過NAS的云服務(wù)完成。
SAN是一種緊密結(jié)合類型的集群,在集群中存儲(chǔ)文件之后,可以分解成很多個(gè)數(shù)據(jù)塊。相比于集群之中的節(jié)點(diǎn),各數(shù)據(jù)塊之間能夠進(jìn)行相互訪問。節(jié)點(diǎn)可以借助于訪問文件間的數(shù)據(jù)塊針對(duì)客戶的請(qǐng)求進(jìn)行處理。SAN系統(tǒng)之中可以通過節(jié)點(diǎn)數(shù)量增減來響應(yīng)請(qǐng)求,同時(shí)提升界定本身的性能。為了能夠?qū)⒁許AN為基礎(chǔ)的OBS發(fā)展起來,就需要更好的性能與更低的成本。而SAN計(jì)算建構(gòu)的硬件價(jià)格十分高,同時(shí)依托于SAN的服務(wù)價(jià)格,因此可以適當(dāng)?shù)亟档鸵幌滦阅?,保證更好的性能與更低的成本。
五、實(shí)例――基于谷歌云計(jì)算技術(shù)的AlphaGo亮點(diǎn)分析
AlphaGo通過谷歌云計(jì)算技術(shù),擁有與人類棋手類似的“棋感”,其技術(shù)遠(yuǎn)勝于1997年IBM公司研制的超級(jí)電腦“深藍(lán)”?!吧钏{(lán)”面對(duì)的是相對(duì)圍棋簡單多的國際象棋,設(shè)計(jì)理念為根據(jù)棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計(jì)算技術(shù),可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運(yùn)算能力都集中在“棋感策略”網(wǎng)絡(luò)中最有可能的情況上。其背后的深層算法,具備三大亮點(diǎn):(1)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù):“棋感策略”網(wǎng)絡(luò)的本質(zhì)學(xué)習(xí)人類圍棋大師走法思維。AlphaGo藉此擁有強(qiáng)大的盤面評(píng)估能力。(2)增強(qiáng)學(xué)習(xí)算法技術(shù):此算法可通過自我對(duì)弈來持續(xù)提升AlhpaGo的棋感策略和盤面評(píng)估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術(shù):“評(píng)價(jià)網(wǎng)絡(luò)”的核心,可以融合棋感策略和盤面評(píng)估能力,修正落子選擇而最終給出落子方案。
六、計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)發(fā)展遇到的問題
在目前計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)廣泛地運(yùn)用到各個(gè)領(lǐng)域的過程中,云計(jì)算技術(shù)也存在一些缺陷與不足還需要引起我們的重視,同時(shí)在云計(jì)算的應(yīng)用過程中應(yīng)采用足夠的措施來對(duì)數(shù)據(jù)信息的安全性進(jìn)行可靠的保障,這是計(jì)算機(jī)網(wǎng)絡(luò)云計(jì)算技術(shù)發(fā)展過程中十分重要的一項(xiàng)課題?,F(xiàn)在的大部分云端是通過瀏覽器進(jìn)行接入的,瀏覽器是計(jì)算機(jī)系統(tǒng)中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時(shí),用戶證書與認(rèn)證密鑰特別容易因?yàn)闉g覽器漏洞而產(chǎn)生泄密。同時(shí)由于不同的應(yīng)用都需要在云端中進(jìn)行認(rèn)證,這就需要保證認(rèn)證機(jī)制的高效性與安全性。在應(yīng)用服務(wù)層之中,應(yīng)該采取安全有效的措施來保護(hù)用書的隱私安全,在基礎(chǔ)設(shè)施層中要采取安全可靠的方法保C數(shù)據(jù)的安全性。
七、采取措施保障網(wǎng)民數(shù)據(jù)安全
如果數(shù)據(jù)的安全不能得到保障,就會(huì)對(duì)云計(jì)算的發(fā)展產(chǎn)生不利影響,所以為了能夠保障網(wǎng)民數(shù)據(jù)的安全。就需要采取切實(shí)可行的手段來保證數(shù)據(jù)的安全性。
1.隔離操作系統(tǒng)與數(shù)據(jù)
為了能夠切實(shí)有效地保障網(wǎng)民信息的安全,就需要充分使用Hypervisor,從而將網(wǎng)民的操作系統(tǒng)與數(shù)據(jù)資源隔離起來,從而有效地保證了計(jì)算資源的安全性,避免了網(wǎng)民操作系統(tǒng)所帶來的可能的不利影響。
2.重置API保護(hù)層
服務(wù)商提供給用戶API,用戶根據(jù)需要進(jìn)行應(yīng)用。但同時(shí)第三方也有可能對(duì)這些API進(jìn)行使用。為了保證數(shù)據(jù)的安全性,就需要你安裝API保護(hù)層,重疊保護(hù)API。
3.嚴(yán)格身份認(rèn)證
服務(wù)商應(yīng)嚴(yán)格的執(zhí)行身份認(rèn)證,防范冒充網(wǎng)民身份的行為,加強(qiáng)對(duì)賬號(hào)與密碼的管理控制,確保網(wǎng)民只訪問自己的程序與數(shù)據(jù),從而保證數(shù)據(jù)資源的安全性。
篇6
關(guān)鍵詞: 車牌定位;圖像處理;HSV顏色模型;邊緣檢測;數(shù)學(xué)形態(tài)學(xué)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)32-0184-03
Vehicle License Plate Locating Method Based On Color Positioning and Edge Detection
WU Lei, WANG Xiao-fei, LI Yan*
(School of Information Engineering,Hubei University for Nationalities, Enshi 445000, China)
Abstract:License plate recognition technology is one of the key technologies of intelligent traffic management system, license plate location is the basis for the realization of license plate recognition. Fast, accurate and robust license plate location technology can give a great help to the license plate recognition. In view of the problem of license plate location, this paper proposes a color location method based on HSV color model and the edge detection method based on vertical edge detection. Combined with the use of the two methods not only to achieve a fast, accurate positioning, but also for the license plate recognition follow the character segmentation, character positioning and other steps to lay a solid foundation.
Key words:vehicle license plate recognition; image processing; HSV color model;edge detection; mathematical morphology
1 引言
S著當(dāng)今社會(huì)經(jīng)濟(jì)的飛速發(fā)展,車輛的數(shù)量也變得與日聚增起來。高速增長的汽車數(shù)量和落后的停車場管理模式形成了鮮明的矛盾沖突。于是,智能車輛管理系統(tǒng)的實(shí)現(xiàn)變得尤為重要。實(shí)現(xiàn)智能車輛管理系統(tǒng)的核心內(nèi)容就是能夠自動(dòng)化識(shí)別車輛車牌,而作為車牌識(shí)別核心技術(shù)的第一步――車牌定位技術(shù)的好壞極大程度上決定了車牌識(shí)別的性能。
目前車牌定位的實(shí)現(xiàn)方法大體分為兩類,一類是基于灰度圖像的車牌區(qū)域定位方法,另一類是基于彩色圖像的車牌區(qū)域定位方法。前者主要有基于紋理特征法、基于數(shù)學(xué)形態(tài)學(xué)法、基于小波分析法等方法。后者主要有基于RGB顏色法、基于神經(jīng)網(wǎng)絡(luò)法等。本文結(jié)合兩類不同的方法,先采用改良的RGB顏色法――HSV顏色模型來識(shí)別車牌,可以定位出大部分顏色鮮明的車牌,由于此方法受圖片質(zhì)量影響較大,我們?cè)陬伾ê蟛捎眠吘墮z測定位法,通過垂直邊緣檢測,將圖片中垂直邊緣較多的區(qū)域定位出來,兩種方法的結(jié)合可以獲得車輛圖片中車牌所在的區(qū)域,判斷出真正的車牌位置。
2 顏色定位
采用RGB顏色定位方法需要RGB的3個(gè)分量(Red分量--紅色,Green分量--綠色,Blue分量--藍(lán)色)共同確定一個(gè)顏色標(biāo)準(zhǔn),我國大部分車牌都是藍(lán)色,我們要從Blue分量中找到分量的閾值確定藍(lán)色的范圍,這本就不是一件容易的事。但是我們往往不只有3原色構(gòu)成的車牌,遇到像黃色的車牌時(shí)情況會(huì)更加復(fù)雜,需要考慮Red分量和Green分量的配比問題。這些問題讓單純選擇RGB顏色定位變得分外困難。
為了解決這些問題我們采用HSV顏色模型,如圖1所示。HSV模型是根據(jù)顏色的直觀特性創(chuàng)建的一種圓錐模型。與RGB顏色模型中的每個(gè)分量都代表一種顏色不同的是,HSV模型中每個(gè)分量并不代表一種顏色,而分別是:色調(diào)(H),飽和度(S),亮度(V)。
H分量是代表顏色特性的分量,用角度度量,取值范圍為0~360,從紅色開始按逆時(shí)針方向計(jì)算,紅色為0,綠色為120,藍(lán)色為240。S分量代表顏色的飽和信息,取值范圍為0.0~1.0,值越大,顏色越飽和。V分量代表明暗信息,取值范圍為0.0~1.0,值越大,色彩越明亮。我們可以從一種純色彩開始,即指定色彩角H,并讓V=S=1,然后我們可以通過向其中加入黑色和白色來得到我們需要的顏色。增加黑色可以減小V而S不變,同樣增加白色可以減小S而V不變。這就意味著通過保持V,S不變來找表示顏色的H的范圍,再反過來通過H的范圍確定V,S的取值范圍,從而可以確定出我們需要的顏色范圍,如圖2所示。
采用顏色定位我們首先需要將圖像顏色空間從RGB轉(zhuǎn)換為HSV,再遍歷圖像的所有像素,將滿足HSV范圍內(nèi)的像素點(diǎn)標(biāo)記為白色,其余部分標(biāo)記為黑色。所得圖片中白色部分為車牌位置。再采用閉操作,取輪廓等操作獲取目標(biāo)車牌。
3 邊緣檢測定位
邊緣檢測是圖像處理和計(jì)算機(jī)視覺中的基本問題,邊緣檢測的目的是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn)。而本文采用的是基于垂直邊緣的檢測方法。因?yàn)橐话愕能嚺茍D片在沒經(jīng)過一定的處理之前車牌邊緣都有很多垂直邊緣,那么就可以以此來判定車牌的位置。
車牌定位準(zhǔn)確率的高低與圖片的好壞有著密不可分的關(guān)系,如圖片的天氣,環(huán)境等外界環(huán)境因素直接影響圖片的識(shí)別率。所以在進(jìn)行識(shí)別之前必須對(duì)車輛圖片進(jìn)行預(yù)處理,消除干擾并突出車牌特征。
這里對(duì)車輛圖片進(jìn)行車牌邊緣檢測定位的流程如圖3所示:
3.1 高斯模糊
對(duì)車輛圖片先進(jìn)行高斯模糊就是把圖片中某一點(diǎn)周圍的像素色值按高斯曲線統(tǒng)計(jì)起來,采用數(shù)學(xué)上加權(quán)平均的計(jì)算方法得到這條曲線的色值,最后能夠留下物體的輪廓。高斯模糊使圖片變得更平滑,去除了干擾的噪聲對(duì)后面車牌的判斷打下了堅(jiān)實(shí)的基礎(chǔ)。
3.2 灰度化
將彩色圖像轉(zhuǎn)化成為灰度圖像的過程稱為圖像的灰度化處理。彩色圖像中的每個(gè)像素的顏色有R、G、B三個(gè)分量決定,而每個(gè)分量有255中值可取,這樣一個(gè)像素點(diǎn)可以有255*255*255種顏色的變化范圍。而灰度圖像是R、G、B三個(gè)分量相同的一種特殊的彩色圖像,也正因?yàn)槿绱?,?duì)圖像的灰度化處理存在的最大爭議就是圖像信息的丟失,圖像信息的丟失可能使得對(duì)車牌的識(shí)別變得更加復(fù)雜。但對(duì)于計(jì)算機(jī)而言,處理灰度化圖像相比于處理彩色圖像要更加容易,同時(shí),現(xiàn)在已研究的很多處理圖像的算法和技術(shù)僅支持對(duì)灰度化圖像的處理,在現(xiàn)今的科技狀況下對(duì)圖像灰度化處理使我們更便捷地獲取所需要的信息。但無疑,對(duì)彩色圖像直接進(jìn)行判斷更符合人眼識(shí)別的規(guī)律,更趨近人工智能的本質(zhì),也是今后研究的方向與趨勢(shì)。一般有以下四種方法對(duì)彩色圖像進(jìn)行灰度化處理:分量法,最大值法,平均值法,加權(quán)平均法。
(1)分量法:將彩色圖像中的三分量的亮度作為三個(gè)灰度圖像的灰度值,可根據(jù)應(yīng)用需要選取一種灰度圖像。
f1(i,j) = R(i,j)f2(i,j) = G(i,j)f3(i,j) = B(i,j)
其中fk(i,j)(k=1,2,3)為轉(zhuǎn)換后的灰度圖像在(i,j)處的灰度值。
(2)最大值法:將彩色圖像中的三分量亮度的最大值作為灰度圖的灰度值。
f(i,j) = max(R(i,j), G(i,j), B(i,j))
(3)平均值法:⒉噬圖像中的三分量亮度求平均得到一個(gè)灰度值。
f(i,j) = ( R(i,j) + G(i,j) + B(i,j) ) /3
(4)加權(quán)平均法:根據(jù)重要性及其他指標(biāo),將三個(gè)分量以不同的權(quán)值進(jìn)行加權(quán)平均。由于人眼對(duì)綠色的敏感最高,對(duì)藍(lán)色敏感最低,因此,按下式對(duì)RGB三分量進(jìn)行加權(quán)平均能得到較合理的灰度圖像。
f(i,j) = 0.30 R(i,j) + 0.59 G(i,j) + 0.11 B(i,j))
3.3 Sobel算子
Sobel算子是邊緣檢測定位中的核心算法,用于檢測圖像的垂直邊緣,便于區(qū)分車牌。
Sobel算子是一階導(dǎo)數(shù)的邊緣檢測算子,在算法實(shí)現(xiàn)過程中,通過3×3模板作為核與圖像中的每個(gè)像素點(diǎn)做卷積和運(yùn)算,如下所示,其中A為原圖像,然后選取合適的閾值以提取邊緣。
許多學(xué)者已經(jīng)提出了很多圖像檢測算子,如Sobel算子、Laplace算子、Canny算子等。比較常用的有Sobel算子和Laplace算子。Sobel算子求圖像的一階導(dǎo)數(shù),Laplace算子則是求圖像的二階導(dǎo)數(shù),在通常情況下,也能檢測出邊緣,不過Laplace算子的檢測不分水平和垂直。
3.4 二值化
圖像的二值化,就是將圖像上的像素點(diǎn)的灰度值設(shè)置為0或255,也就是將整個(gè)圖像呈現(xiàn)出明顯的只有黑和白的視覺效果。一幅圖像包括目標(biāo)物體、背景還有噪聲,要想從多值的數(shù)字圖像中直接提取出目標(biāo)物體,最常用的方法就是設(shè)定一個(gè)閾值T,用T將圖像的數(shù)據(jù)分成兩部分:大于T的像素群和小于T的像素群,然后分別設(shè)置為黑白兩種顏色,實(shí)現(xiàn)了整個(gè)圖像的二值化。
3.5 閉操作
對(duì)二值化圖像先進(jìn)行膨脹運(yùn)算,其次進(jìn)行腐燭運(yùn)算,此組合運(yùn)算即為圖像的閉運(yùn)算。對(duì)二值化圖像先進(jìn)行腐燭運(yùn)算,其次進(jìn)行膨脹運(yùn)算,此組合運(yùn)算即為圖像的開運(yùn)算。閉操作可使輪廓線更光滑,但與開操作相反的是,閉操作通常消除狹窄的間斷和長細(xì)的鴻溝,消除小的空洞,并填補(bǔ)輪廓線中的斷裂。使用結(jié)構(gòu)元素B對(duì)集合A進(jìn)行閉操作,數(shù)學(xué)表達(dá)為:
這個(gè)公式表明,使用結(jié)構(gòu)元素B對(duì)集合A的閉操作就是用B對(duì)A進(jìn)行膨脹,然后用B對(duì)結(jié)果進(jìn)行腐蝕。
3.6 取輪廓,篩選,角度與尺寸判斷
經(jīng)過上述一系列的圖像操作我們可以得到一張包含許多獨(dú)立圖塊的圖像,取輪廓操作就是將圖像中的所有獨(dú)立的不與外界有交接的圖塊取出來。然后根據(jù)這些輪廓,求這些輪廓的最小外接矩形。尺寸判斷操作是對(duì)外接矩形進(jìn)行判斷,以判斷它們是否是可能的候選車牌的操作。經(jīng)過尺寸和角度判斷,會(huì)排除大量由輪廓生成的不合適尺寸的最小外接矩形。接下來需要對(duì)剩下的圖塊進(jìn)行旋轉(zhuǎn)操作,將傾斜的車牌調(diào)整為水平,為后面的車牌判斷與字符識(shí)別提高成功率的關(guān)鍵環(huán)節(jié)。最后確定我們要識(shí)別的車牌的尺寸。
4 結(jié)論
本文提出了兩種關(guān)于車牌識(shí)別中車牌定位的方法,采用改進(jìn)的HSV顏色模型,準(zhǔn)確,快速地對(duì)顏色鮮明的車牌進(jìn)行定位,簡化了車牌定位中一些圖片處理和特征判斷的過程。而另一種方法是邊緣檢測中垂直邊緣定位的方法,垂直邊緣的選擇讓此方法能獲得更高的準(zhǔn)確率,同時(shí)采用圖像處理,數(shù)學(xué)形態(tài)學(xué)等多種算法強(qiáng)化了圖片中的許多特征量,極大提高了垂直邊緣的判斷。
雖然采用兩種定位方法的結(jié)合,極大提高了車牌定位的準(zhǔn)確率,但仍然有不足之處,需要進(jìn)一步完善。兩種方法都需要較高的圖片質(zhì)量,大量的光暗區(qū)域和嚴(yán)重的雨雪天氣都會(huì)對(duì)車牌定位的準(zhǔn)確率產(chǎn)生較大的影響。還有如顏色定位中一旦車輛的顏色與車牌的顏色一致,那判斷的準(zhǔn)確率會(huì)大大降低。而第二種方法如果遇到大量垂直邊緣的車輛也會(huì)造成較大的誤差。
參考文獻(xiàn):
[1] 魏平順.智能交通系統(tǒng)中車標(biāo)圖像識(shí)別技術(shù)研究[D].南京:南京理工大學(xué),2013.16-25.
[2] 李俠.車標(biāo)定位技術(shù)研究[D].大連:遼寧師范大學(xué),2011,16-26.
[3] 張闖, 孫興波, 陳瑤,等. 常用邊緣檢測技術(shù)的對(duì)比[J].傳感器世界, 2013,19(11):20-23.