計算機視覺的前景范文

時間:2024-01-04 17:48:29

導語:如何才能寫好一篇計算機視覺的前景,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

篇1

關(guān)鍵詞:雙目視覺;匹配算法;計算機視覺;立體匹配;相位一致性

1.計算機視覺系統(tǒng)分析研究

1.1計算機視覺技術(shù)及雙目立體視覺

計算機視覺是通過計算機技術(shù)實現(xiàn)對視覺信息處理的整個過程,是一門新的學科。視覺是人們認知事物的重要途徑,視覺是人們對視覺信息獲取、處理和存儲的過程。隨著計算機技術(shù)的發(fā)展,信號處理技術(shù)的應(yīng)用,人們通過照相機來把實際的事物拍攝下來轉(zhuǎn)變?yōu)閿?shù)字信息,并通過計算機信號處理技術(shù)隊獲取的視覺信號進行處理。計算機視覺技術(shù)對圖像的處理分為獲取圖像、特征抽象選取、事物識別及分類和對三維信息的理解。獲取圖像主要是通過攝像機和紅外線等技術(shù)對周圍視覺事物進行獲取,并通過計算得到和真實事物相應(yīng)的二維圖像,二維圖像主要是數(shù)字圖像。計算機視覺系統(tǒng)的最基本的功能是數(shù)字圖像的獲取??梢钥闯鲇嬎銠C視覺研究最基本內(nèi)容是三維場景距離信息的獲取。在計算機被動測量距離方法中,有一種重要的距離感知技術(shù)叫作雙目立體視覺。雙目立體視覺技術(shù)是其他計算機視覺技術(shù)無法取代的一種技術(shù),對雙目立體視覺技術(shù)的研究在計算機視覺技術(shù)和工程應(yīng)用方面都是非常重要的。

1.2計算機視覺理論框架

第一個視覺系統(tǒng)理論框架的提出是以信息處理為基礎(chǔ),綜合了圖像處理和神經(jīng)生理學等研究內(nèi)容而建立的。這個視覺系統(tǒng)理論框架是計算機視覺系統(tǒng)的基本框架,與計算機視覺技術(shù)有著密切的關(guān)系。視覺系統(tǒng)的研究是以信息處理為基礎(chǔ)的,從理論層次、算法層次和硬件層次3個層次進行研究。計算機理論層次主要是表達系統(tǒng)各個部分計算的目的和方法,對視覺系統(tǒng)的輸入和輸出進行規(guī)定,輸入作為二維圖像,輸出是以二維圖像為基礎(chǔ)建立起來的三維物體,視覺系統(tǒng)的目的就是對三維物體進行分析和識別,通過計算對二維物置和形狀進行重新建立。算法層次對計算機規(guī)定的目標進行計算,算法和計算機表達有關(guān),不同的表達可以通過不同的算法進行實現(xiàn),在計算機理論的層次上,算法和表達比計算機理論的層次要低。硬件層次是通過硬件來實現(xiàn)算法的一種表達方法。計算機理論層次在計算機信息處理中時最高的層次,取決于計算機的本質(zhì)是解決計算機的自身問題,不是取決于計算問題的計算機硬件。要更好地對計算機系統(tǒng)和框架進行理解最好的方法就是要區(qū)分3個不同的層次,計算機理論的含義和主要解決的問題是計算機的目的,表達算法含義和主要解決的問題是實現(xiàn)計算理論的方法和輸入輸出的表達,硬件的實現(xiàn)的含義和主要解決的問題是如何在物理上對表達和算法進行實現(xiàn)。計算機視覺處理的可以分為3個階段,對視覺信息的處理過程從最初的二維圖像的原始數(shù)據(jù),到三維環(huán)境的表達。第一階段基元圖的構(gòu)成,基元圖是用來表示二維圖像中的重要信息,主要是圖像中亮度變化位置及其幾何分布和組織結(jié)構(gòu),圖像中每點的亮度值包括零交叉、斑點、端點和不連續(xù)點、邊緣等。第二階段2.5維圖描述,在以觀測者為中心的坐標中,表示可見表面的方向、深度值和不連續(xù)的輪廓,基元是局部表面朝向離觀測者的距離深度上的不連續(xù)點表面朝向的不連續(xù)點。第三階段三維模型表示,在以物體為中心的坐標系中,有由體積單元和面積單元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式,分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎(chǔ)上構(gòu)成的,所有體積單元或面積形狀基元都附著在軸線上。視覺理論框架圖如圖1所示。

2.基于計算機的視覺立體匹配算法研究

視覺立體匹配算法是基于人類視覺系統(tǒng)的一種計算機算法。立體匹配算法作為計算機立體視覺問題研究的重點,快速地實現(xiàn)圖像對應(yīng)點的匹配來獲得視差圖是當今研究的熱點問題。立體視覺匹配算法根據(jù)基元匹配的不同可以分為相位匹配、區(qū)域匹配和特征匹配3種,其中區(qū)域匹配算法可以減少計算負擔,區(qū)域匹配算法實時性高,應(yīng)用前景廣闊。計算機立體視覺通過對人的雙眼進行模仿,在雙眼的立體感知中獲得信息,從攝像機拍攝的圖像中獲取物體的三維深度信息,這就是深度圖的獲取,把深度圖經(jīng)過處理得到三維空間信息數(shù)據(jù),二維圖像到三維空間實現(xiàn)轉(zhuǎn)換。深度的獲取在雙目立體成像視覺系統(tǒng)中分為兩步,首先在雙目立體圖像與圖像之間建立點對點的對象關(guān)系,雙目立體視覺算法研究的重點問題是解決對應(yīng)點之間的匹配問題。其次以對應(yīng)點之間的視差為依據(jù)對深度值進行計算。雙目成像是獲取同一場景中兩幅不同的圖像,兩個單目成像模型構(gòu)成一個雙目成像模型。雙目成像示意圖如圖2所示。系統(tǒng)的基線B是兩個鏡頭中心的連接線,空間點w(z,y,z)作為世界坐標的值由(x1,y1)與(x2,y2)進行確定,如果攝像機的坐標位置和空間點w世界坐標的位置重合,圖像平面和世界坐標軸xY的平面就是平行的。如果兩個攝像機在坐標系統(tǒng)中的原點不同但是它們的光軸平行,那么雙目成像計算人們可以看圖3所示,圖3表示的是兩個攝像頭連線在平臺xY的示意。

立體視覺的成像過程是成像的逆過程,具有一定的不確定性。大量的數(shù)據(jù)信息在從三維影像向二維圖像進行投影的過程會出現(xiàn)丟失的現(xiàn)象,所以視覺系統(tǒng)要通過自然的約束條件才能保證獲取正確的解。這些約束條件在減少匹配的計算量方面可以提供有利的幫助。針對基于區(qū)域匹配快速算法,還可以應(yīng)用基于視差梯度的匹配算法,這種匹配算法應(yīng)用較大的搜索范圍在邊緣的特征點上進行搜索,采用視差梯度在非邊緣區(qū)減少搜索范圍。應(yīng)用計算機視覺立體匹配算法可以減少成像匹配時間,大大提高了工作效率。計算機立體匹配算法征點的提取是算法的關(guān)鍵問題,今后的研究方向重點是對有效特征點提取方法的研究。

篇2

(1)課程內(nèi)容方面:工程應(yīng)用價值較小的內(nèi)容居多;具備工程應(yīng)用價值的方法,如基于結(jié)構(gòu)光的3D信息獲取,在課程內(nèi)容中卻極少出現(xiàn)。

(2)課程定位方面:現(xiàn)有課程體系中未能體現(xiàn)最新研究成果,而掌握世界最新工程應(yīng)用成果是卓越工程師的基本要求之一。

(3)教學形式方面:傳統(tǒng)計算機視覺課程側(cè)重基本原理,盡管范例教學被引入到課堂教學中,在一定程度上幫助學生理解,但卓越工程師培養(yǎng)目標是培養(yǎng)學生解決實際工程問題的能力。針對卓越工程師培養(yǎng)目標,以及目前計算機視覺課程中存在的問題,本文提出工程應(yīng)用導向型的課程內(nèi)容、面向最新成果的課程定位、理論實例化與工程實踐化的教學形式,以培養(yǎng)具有扎實理論基礎(chǔ)及工程實踐能力的卓越工程師。

1工程應(yīng)用導向型的課程內(nèi)容傳統(tǒng)計算機視覺課程圍繞Marr理論框架展開教學,其中部分原理僅在理想狀態(tài)或若干假設(shè)下成立,不能直接運用到工程實踐中。近年來已具備工程應(yīng)用基礎(chǔ)的原理及方法,在傳統(tǒng)課程內(nèi)容中較少出現(xiàn),如已在工業(yè)測量、視頻監(jiān)控、游戲娛樂等領(lǐng)域中應(yīng)用的主動式三維數(shù)據(jù)獲取方法等。我們對工程應(yīng)用價值高的課程內(nèi)容,增加課時,充分講解其原理及算法,并進行工程實例分析;對工程應(yīng)用價值較低內(nèi)容,壓縮課時,以介紹方法原理為主。例如,在教授3D信息獲取部分時,課時主要投入到工程應(yīng)用價值較大的內(nèi)容,如立體視覺、運動恢復(fù)結(jié)構(gòu)、基于結(jié)構(gòu)光的3D信息獲取等;而對于基于陰影的景物恢復(fù)等缺乏應(yīng)用基礎(chǔ)的內(nèi)容主要介紹其基本原理,并引導學生進行其工程應(yīng)用的可行性分析,培養(yǎng)學生縝密的思維習慣,訓練學生辯證的分析能力。

2面向最新成果的課程定位計算機視覺近十年來發(fā)展迅速,新方法和新理論層出不窮,在現(xiàn)有課程體系中未能得以體現(xiàn)。跟進世界最新成果是卓越工程師的基本要求之一,因此計算機視覺課程定位應(yīng)當面向國際最新成果。為實現(xiàn)這一目標,我們主要從以下兩方面入手。

(1)選用涵蓋最新成果的教材。我們在教學中加入國際最新科研成果及應(yīng)用范例,在教材選取上采用2010年RichardSzeliski教授所著《Computervision:algorithmsandapplications》作為參考教材。該書是RichardSzeliski教授在多年MIT執(zhí)教經(jīng)驗及微軟多年計算機視覺領(lǐng)域工作經(jīng)驗基礎(chǔ)上所著,涵蓋計算機視覺領(lǐng)域的主要科研成果及應(yīng)用范例,參考文獻最新引用至2010年。這是目前最新的計算機視覺著作之一,條理清晰,深入淺出,特點在于對計算機視覺的基本原理介紹非常詳盡,算法應(yīng)用緊跟國際前沿。

(2)強化學生調(diào)研及自學能力?!笆谥贼~”,不如“授之以漁”。在教授學生的同時,更重要的是培養(yǎng)學生調(diào)研、跟蹤、學習并分析國際最新科研及工程應(yīng)用成果的能力。為強化學生的知識結(jié)構(gòu),培養(yǎng)學生跟蹤國際前沿的能力,我們在教學中加入10%的課外學時,指導每位學生完成最近三年本領(lǐng)域的國際最新文獻調(diào)研及工程應(yīng)用新技術(shù)調(diào)研,并撰寫相關(guān)調(diào)研論文。同時,設(shè)置2學時課內(nèi)學時,讓每位學生介紹調(diào)研成果,并進行課堂討論。在調(diào)研基礎(chǔ)上,選擇相關(guān)算法進行了實驗證明,進一步強化學習成果。實踐證明,由于學生能夠根據(jù)自己的興趣,選擇本領(lǐng)域感興趣的課題進行深入調(diào)研,極大地調(diào)動了學生的積極性,強化了學生調(diào)研、跟蹤、學習并分析國際最新科研及工程應(yīng)用成果的能力。

3工程實踐化的教學形式我們在教學中提出工程實踐化的教學形式,即以人類視覺功能為背景,由相應(yīng)工程實例引出相關(guān)理論,并最終將理論運用到工程實例中的算法和方法傳授給學生。

篇3

【關(guān)鍵詞】攝影測量;計算機視覺;數(shù)字化

科技迅速發(fā)展,攝影測量技術(shù)經(jīng)過多次改革,到目前已經(jīng)進入數(shù)字化的攝影測量技術(shù)階段,這個新技術(shù)對整個攝影測量專業(yè)理論知識教學、科學研究和企業(yè)生產(chǎn)都有重要的影響,這些影響不僅僅是表現(xiàn)在表面,它已經(jīng)使攝影測量的概念和涉及到的專業(yè)的知識都有影響。從測繪學科的角度來說,數(shù)字測量技術(shù)已經(jīng)從傳統(tǒng)的攝影測量技術(shù)發(fā)展到現(xiàn)在新型數(shù)字化測量技術(shù),簡便快捷;從攝影測量學科來說,數(shù)字攝影測量技術(shù)已經(jīng)從經(jīng)典的攝影測量轉(zhuǎn)化到現(xiàn)在與計算機相結(jié)合的高科技技術(shù)。數(shù)字測量技術(shù)既給人們帶來機遇,又給技術(shù)人員帶來挑戰(zhàn),但是其在發(fā)展中還存在很多問題。作為新時代的我們,應(yīng)努力抓住機遇,勇敢的面對挑戰(zhàn),提高自身的知識儲備量和技術(shù),使自己能在快速發(fā)展的經(jīng)濟市場中站住腳步。

一、攝影測量發(fā)展現(xiàn)狀

由于攝影測量生產(chǎn)的轉(zhuǎn)型,影像掃描儀已被大量地應(yīng)用,全國掃描儀數(shù)量已超過100臺。同時航空攝影機(如RC30)也在加速引進。應(yīng)用于航空攝影過程中的GPS/IMU系統(tǒng)也已引進,Z/I公司的數(shù)字航空攝影機DMC已開始在中國應(yīng)用。與此同時,高分辨率的遙感影像以及其定位參數(shù)(RPC)文件的應(yīng)用,只要極少量的外業(yè)控制點,就能迅速生成正射影像圖,它已在城市、土地的變遷、規(guī)劃中得到愈來愈廣泛的應(yīng)用。航空激光掃描Lidar也愈來愈成熟。

由于新一代傳感器、定位系統(tǒng)的迅速發(fā)展與應(yīng)用,以及數(shù)字攝影測量工作站的發(fā)展及其大規(guī)模的推廣,這樣對攝影測量自身發(fā)展提出一個非常嚴峻而又現(xiàn)實的問題:攝影測量向何處去,除了攝影測量與新一代遙感傳感器、GIS、GPS 更進一步地結(jié)合外, 攝影測量自身從理論到實際將如何發(fā)展,還有沒有發(fā)展前景,在國際上同樣對攝影測量發(fā)展提出了疑慮,美國Ohio大學Schenk教授在其著作“數(shù)字攝影測量學”的序言中指出:攝影測量與貓一樣,他們有一個共同的特點,他們都有幾次生命,攝影測量的終結(jié)已經(jīng)被多次預(yù)測。但是他對此問題作了明確的回答:數(shù)字攝影測量是一門相對年輕的、并且迅速發(fā)展的學科。它的許多基本概念與方法來自影像處理與計算機視覺。但是不管它們對它的影響有多強烈, 數(shù)字攝影測量還是一門有自己特色的學科。

二、數(shù)字攝影測量給學科帶來的機遇與挑戰(zhàn)

攝影測量與遙感是一門“從影像重建被攝物體表面”的學科,攝影測量側(cè)重于重建物體的幾何表面,并進行“量測”;而遙感則側(cè)重于重建物體的物理表面,恢復(fù)問題表面的物理屬性。因此,從本質(zhì)而言, 攝影測量與遙感是研究影像的獲取、理解、加工、處理的科學與技術(shù),使人們更容易直觀地理解與應(yīng)用有關(guān)信息。從測繪學科的角度來理解,攝影測量是一門“量測的學科”,著名的攝影測量學者HeIva (1995)就認為“攝影測量的范疇是量測”;而從信息科學和計算機視覺科學來看,它是從影像來重建三維表面模型的科學與技術(shù)―計算機立體視覺。但是,人們一般并沒有將攝影測量與計算機立體視覺聯(lián)系在一起。這是由于攝影測量在上世紀攝影技術(shù)出現(xiàn)不久就被學者發(fā)現(xiàn)其測量功能,并被使用,而計算機立體視覺實在新世紀環(huán)境下創(chuàng)造并被使用的,因此攝影測量的歷史要比計算機立體視覺的歷史長得多,并早已成為測繪產(chǎn)業(yè)的重要組成部分;而且,長期以來,攝影測量是依賴于精密的光學機械儀器,特別是在模擬攝影測量時代, 攝影測量以模擬攝影測量儀器為代表, 與計算機沒有任何聯(lián)系。我們必須清楚地認識到,攝影測量發(fā)展到今天,已經(jīng)超越了傳統(tǒng)攝影測量的范疇,它已經(jīng)不屬于攝影測量工作者“獨家所有”。這是攝影測量工作者面臨的最嚴峻的挑戰(zhàn)。

同時,數(shù)字攝影測量也為我們帶來了發(fā)展機遇。在模擬攝影測量時代, 攝影測量的教學、科研以及生產(chǎn)的組織與流程,一切均以模擬攝影測量儀器的制造者為中心。攝影測量儀器的理論、結(jié)構(gòu),各種控制器、儀器的定向理論與操作方法,變換光束測圖的理論等,均以相應(yīng)的儀器為中心。進人了解析攝影測量時代,由于計算機引人了攝影測量,大大地拓寬了攝影測量教學、科研的領(lǐng)域,這也提供給學者們更多的研究方向。

三、數(shù)字近景攝影測量――攝影測量發(fā)展的嶄新領(lǐng)域

到目前為止數(shù)字攝影測量的發(fā)展,無論在理論上還是在實際上,,主要還是圍繞著利用航空(航天)攝影測量測繪地形圖展開的,而對于數(shù)字近景(地面)攝影測量的研究甚少。同時隨著數(shù)碼相機的廣泛應(yīng)用,價格愈來愈低廉。數(shù)碼相機在測量中的應(yīng)用將是攝影測量發(fā)展的必然趨勢。

在此領(lǐng)域數(shù)字近景攝影測量與計算機視覺有著天然的密切聯(lián)系,因為計算機視覺的研究目標是使計算機具有通過2維圖像認知3維環(huán)境信息的能力,這種能力將不僅使機器感知3維環(huán)境中物體的幾何信息,包括它的形狀、位置、姿態(tài)、運動等,而且能對它們進行描述、存儲, 識別與理解,兩者之間有很多相似之處,但兩者間又有明顯的差異。不論差異大小,不可否認的是,數(shù)字近景攝影測量已成為數(shù)字攝影測量發(fā)展的必然趨勢。

四、結(jié)束語

數(shù)字攝影測量在目前還是一個較為年輕的學科,主要采用計算機技術(shù),將獲取到到信息數(shù)字化,通過計算機進行測繪和分析,提取出對人們有用的信息,這一改變,使數(shù)字攝影測量很快被企業(yè)所接受并得到快速發(fā)展。總而言之,數(shù)字攝影測量技術(shù)的出現(xiàn)不能僅視為簡單的科學進步而已,應(yīng)該透過現(xiàn)象看本質(zhì),深刻認識到他已經(jīng)從概念開始改變,并影響到科學研究領(lǐng)域,正在逐漸改變企業(yè)的生產(chǎn)產(chǎn)品水平。面對這些情況,我們應(yīng)該努力提高自己的理論知識儲備量,提升專業(yè)素養(yǎng),及時抓住一閃而過的機會,迎接各種挑戰(zhàn),在激烈的競爭不斷進步。

參考文獻

[1] 李利,馬頌德. 從2維輪廓線重構(gòu)3維二次曲面形狀[J].計算機學報,1996,19(6):401.

[2] 馬頌德,張正友.計算機視覺-計算理論與算法基礎(chǔ)[J].北京:科學出版社1998.

篇4

【關(guān)鍵詞】 運動目標檢測 視頻圖像 OpenCV

一、緒論

隨著計算機技術(shù)日新月異的發(fā)展,計算機視覺,模式識別,人工智能,多媒體技術(shù),越來越受到人們的重視的快速發(fā)展。廣泛地被定位對象使用運動跟蹤和檢測,監(jiān)測和智能人機交互和分析他們的行為,一旦發(fā)現(xiàn)有異常行為的對象,監(jiān)控系統(tǒng)發(fā)出警報,提醒人們注意和及時的治療,改善人類的人工監(jiān)督注意力浪費資源等問題。計算機視覺是通過計算機代替人的眼睛和大腦感知外部環(huán)境,分析和理解。

1.1 OpenCV技術(shù)介紹

視覺處理算法的OpenCV提供了非常豐富的,它部分是用C寫的,有它的開源特性,妥善處理,無需添加新的外部支持進行編譯和鏈接,生成程序的完整實現(xiàn),所以很多人們用它做算術(shù)移植,OpenCV的可正常運行的系統(tǒng)DSP和MCU系統(tǒng)正常重寫代碼。

二、運動目標檢測

運動目標的檢測在整個視頻監(jiān)控系統(tǒng)的底層,各種高級應(yīng)用,如目標跟蹤,目標分類,目標行為的隨訪,了解互惠的基礎(chǔ)。運動對象檢測裝置,從在實時目標視頻流中提取,目標通常設(shè)置面積和顏色特性。結(jié)果運動目標檢測是描述一些靜態(tài)功能的“靜態(tài)”的目標前景。根據(jù)上下文,其中環(huán)境可分為兩大類靜態(tài)背景下運動目標檢測和動態(tài)背景運動目標檢測,本章與實際紙工作主攝像機靜態(tài)背景運動目標運動結(jié)合,不會發(fā)生前景對象的運動目標檢測檢測算法。

2.1運動目標檢測的基本方法

目標檢測和提取已在目標跟蹤應(yīng)用程序中的重要地位。目標檢測和提取的精度直接影響結(jié)果和準確性的跟蹤。一個良好的各種環(huán)境動目標檢測算法的應(yīng)能適用于監(jiān)測,在正常情況下,移動體檢測算法可以根據(jù)場景被監(jiān)視在室內(nèi)或室外監(jiān)測算法被分成室內(nèi)和室外監(jiān)視算法,則可以按照使用特定算法的方法分為連續(xù)幀差分方法,背景減除法和光流法。

2.1.1幀間差分法

對于許多應(yīng)用,圖像的連續(xù)幀之間的差檢測出圖像的順序是非常重要的一步。場景中的任何可觀察到的運動將反映在場景圖像序列的變化,如果能檢測到這種變化,我們可以分析的運動特性。

2.1.2背景差法

基于該原理的背景差分方法非常簡單,基本操作過程示于(4.2)如下:首先使用式(4.3)來計算背景圖像之間的差fbk當前幀fk,然后根據(jù)下式(4.4)是差分圖像的Dk值化和形態(tài)學濾波處理,并獲得當該區(qū)域的通信區(qū)域比給定的閾值RK進行連通區(qū)域分析的結(jié)果,它成為檢測對象,并且該區(qū)域是區(qū)域目標在區(qū)間的,你能確定的最小邊界矩形的目標。

其中T 是二值化設(shè)定閥值。

2.1.3光流法

光流是指在圖像模式(或表觀的)運動的表觀亮度。用“表觀運動”,主要是由于光流的運動圖像不能有部分信息只以確定,例如,區(qū)域性或亮度輪廓點更均勻的亮度不能唯一確定的運動對應(yīng)的點,但觀察到的運動。這解釋了光流和該流不一定是由物體的運動所產(chǎn)生的光,而運動的主體不一定會產(chǎn)生光流體育場不一定是唯一的。

三、目標跟蹤算法的研究

目標對象的運動信息的條件的先驗知識下跟蹤,通過從信息源的實時數(shù)據(jù)來估計所述目標狀態(tài),以實現(xiàn)所述目標位置和運動趨勢判定。運動目標跟蹤問題是一個復(fù)雜的估計。研究精度高,性能穩(wěn)定,目標跟蹤方法的適用性仍面臨巨大挑戰(zhàn),具有重要的理論意義和實用價值。

3.1圖像匹配法

通過圖像匹配方法可以識別要跟蹤的運動對象,并確定它們的相對位置。早期跟蹤涉及的目標位置的變化的兩個圖像之間的測量計算出的相關(guān)函數(shù),跟蹤點是,這兩個圖象相匹配的最佳位置,這是相關(guān)函數(shù)的峰值。

3.2基于團塊的目標跟蹤

基于團塊(BLOB)的基本原理是用于圖像分割候選像素跟蹤算法,它決定像素是否屬于背景或?qū)儆诙ㄎ换驅(qū)儆谄渌麉^(qū)域?;诟櫵惴ǖ馁|(zhì)量也可稱為基于圖像分割的跟蹤,分割結(jié)果剛夠目標和背景之間的區(qū)分,而傳統(tǒng)的圖像分割算法需要目標輪廓的精確顯示。分裂臺球在目標,紋理特征和圖像的深度信息的一般特性。

四、結(jié)語

隨著在軍事領(lǐng)域的計算機視覺,智能交通監(jiān)控,視頻運動目標檢測與跟蹤的發(fā)展必將得到更廣泛的應(yīng)用和發(fā)展。在本文中,歷時四個月中,主要研究的OpenCV實現(xiàn)運動目標檢測與跟蹤的應(yīng)用,實驗結(jié)果表明,該系統(tǒng)具有良好的魯棒性和準確性,實現(xiàn)畢業(yè)設(shè)計的預(yù)期目標,在工作和問題結(jié)合起來實際應(yīng)用中。

參 考 文 獻

[1]劉瑞禎, 于仕琪. OpenCV教程基礎(chǔ)篇[M]. 北京: 北京航空航天大學出版社,2007.

[2]彭達. Visual C++多媒體編程技術(shù)[M]. 北京: 人民郵電出版社, 1999.

[3]丁金鑄. 基于圖像處理的運動目標檢測跟蹤系統(tǒng)的設(shè)計與實現(xiàn)[D]. 華中師范大學, 2007.

[4]王建中, 姜昱明. 基于塊匹配的運動對象檢測算法[J]. 微電子與計算機, 2005, 22(1): 10-12.

[5]林少丹. VC++程序設(shè)計基礎(chǔ)[M]. 北京: 人民交通出版社, 2009.

[6]唐雙發(fā). 基于OpenCV的車輛視頻檢測技術(shù)研究[D]. 華中科技大學, 2009.

[7]李慶忠,陳顯華,王立紅. 視頻監(jiān)視中運動目標檢測與識別方法[J]. 計算機工程, 2004, 30(16):30-33.

[8]胡曉峰, 吳玲達, 老松楊, 司光亞. 多媒體技術(shù)教程[M]. 北京: 人民郵電出版社, 2002.

[9]韓鴻哲, 王志良, 劉冀偉, 李郴, 韓忠濤. 陰影消除的自適應(yīng)背景建模[C]. 第二屆全國智能視覺監(jiān)控學術(shù)會議論文集, 2003, 35-39.[10]張玲, 葉海炳, 何偉. 一種基于邊緣信息的改進車輛檢測方法[J]. 重慶大學學報(自然科學版), 2004, 27(11): 56-58.

[11] J.B.Kim, H.J.Kim. Efficient Region―based Motion Segmentation for Video Monitoring System [J]. Pattern Recognition Letters, 2003, 3(24):113-128.

[12]王春平, 朱元昌,黃允華. 基于圖像信息的跟蹤算法分析[J]. 火力與指揮控制, 2000, 25(1): 64-67.

[13]楊枝靈, 王開. Visual C++數(shù)字圖像獲取處理及實踐應(yīng)用[M].北京: 人民郵電出版社, 2003.

篇5

關(guān)鍵詞:計算機視覺;行人檢測方法;改進;級聯(lián)分類器

中圖分類號:TP391.41文獻標識碼:A文章編號:1009-3044(2012)22-5341-03

Computer Vision—Improvement in Pedestrian Detection

DU Wen-lu

(Colledge of Japanese & Software Engineering, Dalian Jiaotong University, Dalian 116052, China)

Abstract: This passage is about pedestrian detection and its improvement concerning its main idea, scope and method. The pedestrian detection based on statistical methods are analyzed and combined with the characteristics. The method of merged classifiers which can improve the detection rate on the condition that the performance will not decrease is used in this experiment. A marking foreground method is proposed that the foreground is extracted and marked, so that only the foreground pixels are detected instead of all of the image at the detection stage, which can improve the accuracy of detection, and make the detection speed more faster.

Key words: computer vision; pedestrian detection; improvement; merged classifiers

計算機視覺對于人類的影響是重大的,它伴隨著計算機的蓬勃發(fā)展成為了一個不可或缺的分支。毫無疑問視覺信息在我們的日常生活中具有重要的地位。如果計算機能夠像人類那樣理解攝像機捕捉到的視覺信息,則會給我們的生活帶來巨大的影響和幫助。然而目前對于計算機視覺的研究還不是很成熟的,比如小孩到了4、5歲的時候就能在輕易地分辨出圖像卡片中的樹、人、車等不同類別的物體,還能區(qū)別不同的樹,如楊樹、柳樹、果樹等,在這方面,計算機明顯還存在著巨大的不足之處。

該文針對計算機視覺中的行人檢測部分做了深入的研究,力求能讓計算機能夠高速高質(zhì)量的辨別一段視頻中的人。下面詳細的對所做的實驗的方法以及結(jié)果做以介紹。

1行人檢測方法改進的主要思路

實驗的主要思路為在行人檢測研究時,根據(jù)現(xiàn)有的級聯(lián)分類器的不足之處,提出了融合兩個級聯(lián)分類器來進行行人檢測的方法。具體采用了表觀特征向量來描述人體,并結(jié)合統(tǒng)計學習的分類方法來檢測視頻中的行人。為了保證融合分類器的檢測性能和實時性,融合的兩個分器分別選取了類Haar特征分類器和Shapelet特征分器,前者作為第一級分類器,后者作為第二級分類器。提出了使用Haar-like結(jié)合人體頭肩的特征和Shapelet結(jié)合人體頭肩的特征來描述人體;在分類器訓練時,采用的是Gentle-Adaboost機器學習算法;并且為提高分類器檢測速度,首先對視頻序列進行了前景標注,采用背景差分將前景點標注出來,這樣在檢測時只需檢測前景點即可,減少了大量背景上的檢測時間。該文檢測方法的具體流程如圖所示。

圖1行人檢測具體流程圖

2研究的范圍與方法

2.1本實驗主要研究的是靜態(tài)背景下的行人檢測

根據(jù)拍攝的攝像頭的情況,可以將運動目標檢測的研究主要分為兩大類:動態(tài)背景情況下的目標檢測與靜態(tài)背景下的目標檢測。前者主要是在拍攝的過程中,攝像頭是跟著目標前進,后退等方式移動的,背景環(huán)境因此也是不斷變化的;后者情況下,攝像頭是固定的,相對于目標場景來說是靜止的,因此背景環(huán)境是相對不變的。而視頻監(jiān)控系統(tǒng)中使用的大多數(shù)方式便是固定攝像頭,所以本實驗主要研究的是靜態(tài)背景下的目標檢測。

另外此實驗是基于統(tǒng)計方法的行人目標檢測。采用統(tǒng)計分類學習來研究目標檢測問題。該方法通過統(tǒng)計學習獲得的分類器某個類別目標的檢測器(例如人臉、汽車和行人等),然后根據(jù)得到的檢測器來進行目標檢測。基于統(tǒng)計方法的目標檢測方法一般被分為兩個階段:離線檢測模型的訓練和在線目標檢測階段,在離線訓練階段,首先要收集大量的樣本,包括與正樣本和負樣本,正樣本指包含著目標類別的圖像,負樣本指不包含目標類別的圖像;接著對收集好的正負樣本做標記(用y表示),與正樣本標為+1,負樣本標為-1;然后對樣本進行配準、對齊和大小歸一化;再接著在歸一化后的正負樣本上提取出特征向量x (x∈Rd),和對應(yīng)的標簽 y一起組成最終用以統(tǒng)計訓練學習的特征向量集合S={(x1,y1),…(xN,yN)};最后使用選定的統(tǒng)計學習方法根據(jù)訓練數(shù)據(jù)集S訓練分類器的參數(shù)以供檢測階段使用。

在線檢測階段首先需要在待檢測圖像上提取得到與訓練階段使用的相同的特征向量,然后與離線階段的分類器對該特征向量進行分類差別。由于不知道目標在圖像中的大小和位置,因此在檢測時需要在不同的尺度和位置對目標進行檢測,即需要在不同的尺度位置空間中逐窗口進行遍歷判斷。。尺度空間通過對圖像逐級縮放做金字塔分解(Pyramid decomposition)實現(xiàn);位置空間通過遍歷每個尺度下圖像中的每個空間位置實現(xiàn)。因此檢測目標時某個尺度下對于目標大小為w×h,圖像尺寸為W×H時,需要分類判斷的窗口數(shù)目約是WH個,數(shù)量巨大。在不同的尺度與位置空間進行窗口遍歷時,如果該窗口被判別為目標類別,則記錄其位置和當前的尺度,否則丟棄,最后將不同尺度和位置上得到的檢測結(jié)果進行聚類或者最大化抑制輸出最終的檢測結(jié)果。

2.2本實驗采用的是基于部件的行人檢測方法

行人統(tǒng)計學習算法根據(jù)檢測方式的不同基本可以分為兩類:基于人體整體的統(tǒng)計學習方法和基于人體部件的統(tǒng)計學習方法。前者將整個人體作為特征進行分類器訓練,對于待檢測圖像,其進行整個人體的特征提取,然后再用分類器進行分類即可,而后者則將人體的各個部件均看作是人體的一個特征,然后分別進行分類器訓練,得到各自的分類器,在檢測時,先檢測各個部件,然后根據(jù)分析各個部件的相互約束關(guān)系來最終做出判決。

本采用的便是第二種方式,基于部件的行人檢測方法,但區(qū)別于以上的方法,該文采用的是用兩種不同的特征分別訓練相同的一個部件的方法,最后綜合兩個分類器的結(jié)果做出決策

人體檢測中的特征是對目標的描述,是用來有效的區(qū)分目標與非目標的,是目標檢測的基礎(chǔ),在檢測目標的過程中,如果能夠提取出有效區(qū)分目標類與非目標類的特征,那么檢測的性能就會有巨大的提升,相反,如果一個特征不能區(qū)分目標類與非目標類,那么有檢測時,便不能與待檢測的目標很好的匹配,或是與其他物體相似,便可能造成誤檢。所以,提取什么樣的特征來描述目標是目標檢測中和首要問題。接下來介紹的是該文主要使用的是類Haar特征和Shapelet特征。

Shapelet特征是通過先局部,后整體的思想,先在局部提取小特征集作為最基本的低層特征,然后通過統(tǒng)計學習算法得出中層特征,最后再由中層特征構(gòu)成分類器,層層進行篩選,把分類能力較弱的特征一層層篩掉,最后得到包含更多有用信息的特征用來分類,特征的維數(shù)相對來說是非常低的,計算也簡單;而且特征是由低層特征訓練而來,類間的區(qū)別能力更強,在基于行人的檢測方面,性能尤其卓越,比Dalel的HOG特征算法的誤檢測率降低了整整10倍。實驗已經(jīng)證明,通過自適應(yīng)學習而來的Shapelet特征相比其他的固定特征來說,能捕捉到更多有用的用于判別的信息,因而訓練出的檢測器性能可以達到非常優(yōu)秀的水平。類Haar特征可以快速的進行行人檢測,但是在檢測的過程中,由于該特征主要描述的是行人與背景之間的差異性,對于人體內(nèi)部的差異性描述的精度不夠,所以該文采用融合分類器進行行人檢測時,先使用類Haar特征訓練人體頭肩生成的分類器進行檢測,可以快速的對非人體目標進行排除。

對于級聯(lián)分類器來說,級聯(lián)分類器在檢測率,漏檢率,虛警率,和時間等性能上的變化,通過一系列實驗我們可得知隨著分類器級數(shù)的增加,在分類器的后面幾級中被過濾掉的樣本中正樣本所占的比率呈直線上升的方式增加。

3行人檢測方法改進具體步驟

該文的設(shè)計方法均是在OpenCV的基礎(chǔ)上,采用Visual Studio 2010實現(xiàn)的。本實驗的參數(shù)設(shè)置如下:正樣本和負樣本在級聯(lián)Adaboost分類器中的單級通過率分別為99%和50%。分類器在尺度空間上對檢測窗口搜索的步長設(shè)定為1.05(經(jīng)驗值)。在實驗過程中,Haar特征級聯(lián)分類器和Shapelet特征級聯(lián)分類器分別采用了900張正樣本和2000張負樣本,并對人體的頭肩部分做了人工標注,作為訓練數(shù)據(jù)集,訓練數(shù)據(jù)集的歸一化大小為20*20。為了增加訓練數(shù)據(jù)集,該文對標準數(shù)據(jù)庫中的正樣本進了豎直方向的鏡像對稱,使正樣本的數(shù)量增倍。Haar特征級聯(lián)分類器由20級Adaboost分類器構(gòu)成,Shapelet特征分類器由10級Adaboost分類器構(gòu)成。

3.1本實驗采用一種新的級聯(lián)分類器的融合方式

筆者提出一種新的級聯(lián)分類器的融合方式,以期隨著分類器級數(shù)的增加,檢測率不斷提升的前提下,能有效的遏制正樣本被過濾掉的概率的增加,以此來增強分類器的性能,使分類器的檢測率更加提升。

根據(jù)之前的分析類Haar特征運算簡單,快速,采用它訓練的分類器可以在分類器的前幾級快速的排除掉大量的背景區(qū)域,但是類Haar特征描述的主要是人體與背景之間的差異性,因此在分類器隨著性能的增加,分類器復(fù)雜度提高的情況下,在分類器的后幾級,類Haar特征對區(qū)別與行人輪廓類似的物體時,非常不敏感,很容易將這二者混淆,將行人誤判為非行人,或?qū)⒎切腥苏`判為行人,導致分類器的虛警率和漏檢率的增加;而Shapelet特征在基于行人的檢測方面,性能則尤其卓越,通過自適應(yīng)學習而來的Shapelet特征相比其他的固定特征來說,能捕捉到更多有用的用于判別的信息,特別是人體的頭肩部分,Shapelet的描述更加的精確,對于區(qū)分與行人非常類似的物體,具有很高的性能。

為此,我們采用基于人體頭肩部件的類Haar特征和Shaplet特征來訓練分類器,根據(jù)二者各自的性能,該文先用類Haar特征級聯(lián)分類器對檢測窗口進行分類,在分類器的前面就快速的排除掉大量的背景區(qū)域,然后,在分類器的后面幾級,對于分類器的排除掉的樣本,再用Shapelet分類器來進行分類,將在Haar特征分類器中被漏掉的目標區(qū)域檢測出來。最后根據(jù)兩個分類器的結(jié)果進行決策。這樣就對那些在Haar特征分類器中被錯誤過濾掉的目標樣本進行了二次分類,降低了分類器漏檢率的增加。

3.2本實驗采用前景標注的方法為了提高分類器的檢測速度

我們會在待檢測的視頻圖像上對前景進行標注,在檢測的過程中根據(jù)標注只需要在前景部分進行行人檢測即可,不必在全局圖像中進行搜索匹配,這樣既可以減少檢測的數(shù)量,又可以節(jié)約檢測計算時占用的空間,對于視頻分析中時間和空間進行了雙重的優(yōu)化。該文的前景標注的過程主要是:采用背景差分法得到圖像的前景,然后對于得到的前景建立一張標注表,與原圖像進行對應(yīng),在檢測時,標注為前景的像素點則在原圖像上進行目標檢測,若標注為背景,則不進行檢測。

圖2低分辨率監(jiān)控視頻下的部分實驗結(jié)果:上層為行走的行人,下層為騎車的行人

4結(jié)論

該文通過對行人檢測所使用的統(tǒng)計方法和特征進行了分析比較,并分析了級聯(lián)分類器的特點,得出級聯(lián)分類器級數(shù)越高,在最后幾級中被排除掉的樣本中正樣本的比率上升很快,會引起分類器漏檢率的急劇增高,因此,該文提出了基于融合分類器的行人檢測算法,該融合方法選擇兩個級聯(lián)分類器(分別為類Haar特征分類器和Shapelet特征分類器)進行級聯(lián)融合;根據(jù)監(jiān)控視頻領(lǐng)域中一般情況下都是靜態(tài)背景,而且為了提高檢測的速度與避免背景的干擾,該文提出了在檢測前先進行前景標注的方法,然后再在帶標注的圖像上進行行人檢測。

參考文獻:

[1]賈慧星,章毓晉.車輛輔助駕駛系統(tǒng)中基于計算機視覺的行人檢測研究綜述[J].自動化學報, 33(1):84-90, 2007.

篇6

關(guān)鍵詞: 計算機視覺; 手指特征識別; 動態(tài)閾值算法; 矩形模版

中圖分類號: TN911?34; TP37 文獻標識碼: A 文章編號: 1004?373X(2017)12?0113?04

Abstract: In order to improve the accuracy and speed of the finger feature recognition in video image, a dynamic threshold algorithm based on rectangle template is proposed. The rectangle template is used in the algorithm to smooth the image, and the gray threshold method is used to extract the edge of the target to recognize the finger feature accurately. The Matlab simulation results show that the algorithm is lightly influenced by environmental noise, and can segment the edge of the finger clearly and accurately. A finger feature recognition system based on computer vision was designed on FPGA platform. Its real?time performance, finger recognition accuracy and other performances were tested. The test results show that the running speed of the system is synchronous with the speed of capturing the image by camera, which can meet the real?time requirement of the system. The coordinates deviation of the finger position recognized by the system is about 3 pixels, which can basically meets the accuracy requirement of the system.

Keywords: computer vision; finger feature recognition; dynamic threshold algorithm; rectangle template

S著科學技術(shù)的飛速發(fā)展,人與計算機之間的交互活動越來越密切,并逐漸成為人們?nèi)粘I畹闹匾M成部分。傳統(tǒng)觸摸屏是現(xiàn)階段一種最常見,也是最重要的人機交互方式,其是通過一種附加在顯示器表面的透明介質(zhì),依賴使用者的手指觸摸該介質(zhì)來實現(xiàn)對計算機的輸入控制[1?2]。目前,這種觸摸屏技術(shù)已經(jīng)相當成熟,但是,技術(shù)上不容易做到大尺寸,且成本相對較高,也易于破損。為了突破傳統(tǒng)觸摸屏這種人機交互方式的局限,把任何成像平面變成可用手指進行交互的系統(tǒng),本文提出了一種基于計算機視覺的手指特征識別算法,并在FPGA平臺上建立了一套基于計算機視覺的手指特征識別硬件系統(tǒng)。這種基于計算機視覺的手指特征識別方法可為基于視覺的人機互動提供一種新的技術(shù)解決途徑。其與傳統(tǒng)觸摸屏的區(qū)別在于,不需要在成像屏幕上安裝任何特殊介質(zhì),使用壽命得到大幅延長,應(yīng)用范圍有了很大擴展。

1 圖像采集平臺

本文所采用的圖像采集平臺如圖1所示,在任何與計算機連接的顯示設(shè)備(如投影屏幕、等離子電視等)的左上角、右上角安裝兩個攝像頭,通過這兩個攝像頭便可確定手指在屏幕上的二維坐標信息(x1,x2)。然后,將此坐標點傳至計算機,并與Windows系統(tǒng)的鼠標程序關(guān)聯(lián)即可實現(xiàn)人機交互功能。圖2是圖像采集平臺的側(cè)視圖。其中虛線框表示攝像頭視野中系統(tǒng)需要處理的區(qū)域,即手指出現(xiàn)的區(qū)域。

2 手指特征識別算法及仿真

在系統(tǒng)實現(xiàn)過程中,如何從攝像頭所拍攝的畫面中準確地識別并提取出手指信息是其難點之一。在目前的圖像處理技術(shù)中,用于識別背景圖案中目標物體的算法很多,本文在分析基于色彩聚類的膚色識別算法的基礎(chǔ)上,結(jié)合課題特殊需求,提出一種基于矩形模板的動態(tài)閾值算法,并在Matlab中對上述算法的處理效果進行了仿真。

從圖像采集平臺可以看出,本系統(tǒng)只關(guān)心距屏幕很近的小視野內(nèi)是否出現(xiàn)區(qū)別于背景的目標物體。因此,只需從攝像頭拍攝的圖像當中截取一部分,如圖3中的小矩形框所示。

2.1 基于色彩聚類的膚色識別算法

膚色是人體區(qū)別于其他物體的一個重要特征,人體膚色特征不受位置、角度、大小等因素影響,具有較強的穩(wěn)定性。因此,本文首先選定基于色彩聚類的膚色提取識別算法進行研究。在色彩聚類方法中,Anil K.Jain的Cb,Cr橢圓聚類方法最為典型[3?4]。采用非線性分段膚色分割得到的膚色區(qū)域在Cb,Cr空間中近似于橢圓,如下:

由圖5可知,利用該算法分割手指信息的效果尚可,能從比較友好的環(huán)境中迅速準確地識別出手指信息。圖6為利用橢圓聚類膚色分割算法對從圖像采集平臺讀取圖像的手指識別效果??梢?,該算法在普通環(huán)境下對手指的識別效果良好。但當屏幕上的顏色影響手指膚色時,該算法的識別能力就會有所降低。可見,該算法對皮膚顏色的純度要求較高,適用范圍受限。圖7為屏幕出現(xiàn)大面積藍色時對手指識別造成的影響效果。

2.2 基于正方形模板的動態(tài)閾值算法

基于正方形模板的動態(tài)閾值算法,即采用灰度閾值法,用正方形模板平滑圖像[5?6]。圖8(a)是3×3模板動態(tài)閾值算法平滑圖像的過程。

應(yīng)用基于3×3模板的動態(tài)閾值算法對原圖4進行邊緣提取的仿真效果如圖9(a)所示??梢姡瑧?yīng)用3×3模板可以提取出目標物體的邊緣,但不夠清晰。雖然可以通過增大模板取得比較理想的效果(圖9(b)為采用基于101×101模板的動態(tài)閾值算法的處理效果),但會使計算量劇增,同時也縮小了模板所能完全覆蓋的范圍,使圖像邊緣產(chǎn)生無效的白色區(qū)域。

2.3 基于矩形模板的動態(tài)閾值算法

根據(jù)課題實際需要,即所要處理的目標區(qū)域為長方形窄條區(qū)域(如圖3所示),本文提出一種基于矩形模板的動態(tài)閾值算法。該算法與基于正方形模板算法的區(qū)別在于,平滑圖像時所用的模板為窄條形,如3×5模板,3×15模板,3×41模板等。圖8(b)是3×9模板動態(tài)閾值算法平滑圖像的過程。

圖10給出了采用基于3×9模板、3×14模板、3×81模板、3×101模板動態(tài)閾值算法對原圖4進行手部邊緣提取的仿真效果。由仿真效果可知,基于矩形模板的動態(tài)閾值算法在模板取值為3×9的情況下,便能夠清晰提取出目標物體的邊緣。而且,隨著模板取值的增加,目標物體邊緣的提取效果更加清晰準確。與基于正方形模板的動態(tài)閾值算法相比,基于矩形模板的動態(tài)閾值算法計算量較小,節(jié)約了系統(tǒng)的計算資源。

3 基于FPGA的手指特征識別算法的系統(tǒng)測試

為了驗證本文所提出的基于矩形模板的動態(tài)閾值算法能否滿足屏幕交互系統(tǒng)的整體要求,本文通過編寫軟件程序在FPGA開發(fā)板上對這種算法進行了硬件實現(xiàn)和系統(tǒng)測試。

3.1 硬件實現(xiàn)

本文所采用的硬件實現(xiàn)系統(tǒng)主要是基于美國Altera公司生產(chǎn)的型號為EFA?CY1C12的“紅色颶風”(Red Cyclone)系列FPGA開發(fā)板,并另外集成了用Ommvison公司的型號為OV9655的CMOS數(shù)字攝像頭,以及ISSI公司的型號為IS61LV25616AL的SRAM存儲器[7?10]。最終搭建的硬件系統(tǒng)如圖11所示。

3.2 系統(tǒng)測試

本文主要對系統(tǒng)的實時性、手指提取精度、資源占用情況等影響系統(tǒng)運行的重要技術(shù)指標進行了測試。

(1) 實時性

OV9655攝像頭在1 280×1 024分辨率下,能提供15 f/s的圖像采集速率,課題所設(shè)計的軟件程序可以在一幀圖像的處理時間內(nèi)完成了數(shù)據(jù)的采集、手指邊緣的識別等運算,實現(xiàn)了系統(tǒng)執(zhí)行速度與攝像頭拍攝速度的同步,達到了系統(tǒng)對實時性要求。

(2) 手指識別精度

由于課題在軟件設(shè)計過程中編入了圖像采集防抖動處理程序,提高了圖像采集的穩(wěn)定性,也提高了手指識別的精度。經(jīng)過測試,本系統(tǒng)得到的手指位置信息的坐標偏差為3個像素,基本滿足大屏幕交互系統(tǒng)對識別精度的需求。

(3) 資源占用情況

從Quartus Ⅱ的編譯報告中可以看出,本系統(tǒng)的軟件運行已占用FPGA的9 702個邏輯單元,占邏輯單元總數(shù)的80%??梢?,該硬件系統(tǒng)的FPGA運算資源基本能滿足系統(tǒng)的實際需要。

4 結(jié) 語

本文通過對基于矩形模板的動態(tài)閾值算法的研究和基于FPGA的手指特征識別硬件系統(tǒng)的實現(xiàn),建立了一套基于計算機視覺的手指特征識別系統(tǒng)。該算法受環(huán)境噪聲影響較小,能清晰準確地分割出手指邊緣,且隨著矩形模版取值的增大,算法的識別效果會更加良好。該系統(tǒng)的實時性、手指識別精度及資源占用情況均可滿足系統(tǒng)要求。這種基于計算機視覺的手指識別方法成本低、靈活性好,為基于視覺的人機交互提供了一種新的技術(shù)途徑。

參考文獻

[1] 呂明,呂延.觸摸屏的技術(shù)現(xiàn)狀、發(fā)展趨勢及市場前景[J].機床電器,2012,39(3):4?7.

[2] 陳康才,李春茂.電阻式觸摸屏兩點觸摸原理[J].科學技術(shù)與工程,2012,12(18):4525?4529.

[3] MAITRE H.現(xiàn)代數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2006:79.

[4] 帕科爾,景麗.圖像處理與計算機視覺算法及應(yīng)用[M].2版.北京:清華大學出版社,2014:104.

[5] GONZALEZ R C,WOODS R E,EDDINS S L.數(shù)字圖像處理的Matlab實現(xiàn)[M].2版.北京:清華大學出版社,2013:301.

[6] RUSS J C.數(shù)字圖像處理[M].6版.北京:清華大學出版社,2014:216.

[7] 于楓.Altera可編程輯器件應(yīng)用技術(shù)[M].北京:科學出版社,2014:68.

[8] 姚智剛,付強.基于低成本CMOS攝像頭智能監(jiān)控系統(tǒng)的設(shè)計[J].現(xiàn)代電子技術(shù),2006,29(3):126?128.

篇7

【關(guān)鍵詞】課程 計算機視覺 圖像檢索

1.課程設(shè)置、建設(shè)與改革自述

1.1 綜合基礎(chǔ)與應(yīng)用,精選教研內(nèi)容

從專業(yè)學位教育的高層次應(yīng)用型人才培養(yǎng)目標出發(fā),我以學生專業(yè)應(yīng)用能力的培養(yǎng)作為教研的重點,同時,考慮到“計算機視覺”是一門數(shù)學要求較高、理論性較強的專業(yè)基礎(chǔ)課程。課程的基礎(chǔ)理論教研十分重要,我在規(guī)劃教案時,綜合安排基礎(chǔ)理論與應(yīng)用實踐的教研內(nèi)容。

1.2 強調(diào)學生應(yīng)用能力,優(yōu)化教研方法

將啟發(fā)式教研方法融入到整個教研過程中,將課堂講授的重點放在問題由來、概念形成、研究思路與方法上,并通過介紹人工智能與計算機視覺學科交叉中出現(xiàn)的最新研究與應(yīng)用。把新理念、新思路、新方法和新問題引入課堂,調(diào)動學生學習的積極性和主動性,拓寬他們視野和思路。

通過較為熟悉的分析,“計算機視覺”課程中的教研方法較為新穎,使他們從一開始就建立了所學理論與實際工程控制問題的聯(lián)系。

按“計算機視覺”的基礎(chǔ)理論和知識內(nèi)容分環(huán)節(jié)來實施教研,每個環(huán)節(jié)以實際工程問題開始,以理論學習為基礎(chǔ),各教研環(huán)節(jié)之間既是工程問題的系統(tǒng)化深入,也是理論知識體系的循序推進。

按“計算機視覺”的基礎(chǔ)理論和知識內(nèi)容分環(huán)節(jié)來實施教研。每個環(huán)節(jié),以理論學習為基礎(chǔ),以提出和解決實際實驗案例中的識別問題為結(jié)束,各教研環(huán)節(jié)之間既是三維重建問題的系統(tǒng)化深入,也是理論知識體系的循序推進。

他們都十分贊同我以強調(diào)學生自主學習和應(yīng)用能力為目的的啟發(fā)式和交互式教研方法。尤其是以論文報告和答辯形式提交作業(yè)。強調(diào)了理論和應(yīng)用的結(jié)合。每一次的作業(yè)貫穿整個教研環(huán)節(jié),使他們對問題的發(fā)現(xiàn)、理解和解決成為一個逐漸明確、細化和深入的過程,因此。雖然作業(yè)要求較高、工作量較大,但做起來并不會感到壓力和困難。同時,他們大多之前沒有撰寫科研論文和報告的經(jīng)歷,通過作業(yè)也可以使他們在這方面的能力得到鍛煉和提高,最后考試結(jié)業(yè)。

與此同時。研究生們也暢談了他們對課程教研中一些問題的看法.研究生們十分重視專業(yè)應(yīng)用能力和實際動手能力的培養(yǎng)與提高。也非??粗卦鷮嵗碚摶A(chǔ)的必要性,都認為理論學習與專業(yè)應(yīng)用能力培養(yǎng)應(yīng)該沒有矛盾,但在有限的2年時間內(nèi),如何實現(xiàn)兩者的全面提高,他們大多存在疑慮。同時,他們也認為目前大多數(shù)的課程教研具有明顯的理論或?qū)嵺`的偏向性,缺乏科學合理的平衡。

針對我在教研中所提出的案例和問題,學生們反映,盡管十分熟悉,但對問題的本質(zhì)和要求仍只是停留在理性認識上。無法建立與實際對象的對應(yīng)關(guān)系。另外,他們提出,案例僅從單一課程角度講授,在有限課時內(nèi)難以從多學科的角度介紹濾波,三維重建,運動恢復(fù),圖像檢索案例,雖然是實際科研項目,但課堂不可能展示整體實物,學生缺乏工業(yè)現(xiàn)場的實際感受。使得學生對案例的整體理解難以跳出課堂的思維界域。

針對此,我計劃在加強現(xiàn)代化教育手段方面進行一些建設(shè)與探索,努力向?qū)W生提供信息容量大、表現(xiàn)形式豐富的綜合性輔助認識手段。考慮到“計算機視覺”通常需要運用計算機技術(shù)解決工程問題,我們將在以后教研中,增加計算機輔助教研的功能。如利用Matlab工具對所學內(nèi)容及實際視覺問題進行可視化仿真演示。我們也將用虛擬儀器工具搭建案例的虛擬系統(tǒng),試圖通過這樣的虛擬系統(tǒng),向?qū)W生提供有利于啟發(fā)思維的靈活的認識與實踐環(huán)境。增強學生的感性認識;同時,盡管采用了多媒體教研。計劃在以后的教案中增加更多的現(xiàn)場視頻材料以及圖形和圖像資料,使學生更容易理解和記憶,增強抽象理論的可接受性。這些工作都需要我們在教研和科研工作之余投入大量的熱情和精力。

2.教研手段(課程建設(shè)中積極營造數(shù)字化、信息化環(huán)境和外語教研環(huán)境,網(wǎng)絡(luò)教研和網(wǎng)上教研資源的開發(fā)與建設(shè)情況)

2.1本課程的主要特色

體現(xiàn)機器視覺與機器聽覺融合。①機器視覺:圖像處理、圖像與視頻壓縮、模式識別和機器學習、生物特征識別、三維視覺信息處理。②機器聽覺:聽覺計算模型、語音信號處理、口語信息處理。此外還在同濟大學開設(shè)計算機視覺,和圖像處理方面課程,該課程構(gòu)成本課程基礎(chǔ), 及對大量應(yīng)用實例介紹設(shè)計方法,系統(tǒng)性能,并對結(jié)果進行祥細分析和點評。學生通過聽課可以跟隨教師本人了解和掌握計算機視聽覺。充分領(lǐng)略數(shù)字技術(shù)用于語音通信這一廣闊的領(lǐng)域神奇魅力。腦、 機接口的研究有廣闊的應(yīng)用前景, 正成為腦科學、康復(fù)工程、神經(jīng)工程及人機交互( puter interface, HCI) 領(lǐng)域的一個研究熱點。

2.2本課程的建設(shè)總目標和成果

以后開展圖像,圖形,語音處理,多媒體的內(nèi)容的檢索,三維景物物體的重建,自然語言理解的研究方向:視覺與聽覺的生理學和心理學基礎(chǔ),從生理與心理學的角度探索視覺與聽覺的感覺和知覺機理,為視覺與聽覺信息處理提供基本理論和方法,完成同濟大學研究生精品課程建設(shè)。以近幾年為研究生講授“計算機視覺”課程講義的電子教案為基礎(chǔ),結(jié)合開發(fā)科研項目,并參考相關(guān)文獻資料和最新動態(tài)編寫計算機視聽覺電子教案,和教材。

機器視覺:圖像處理、圖像與視頻壓縮、模式識別和機器學習、生物特征識別、三維視覺信息處理。

機器聽覺:聽覺計算模型、語音信號處理、口語信息處理、自然語言處理、智能人機交互。

2.3 本課程的建設(shè)分年度目標和步驟

教材內(nèi)容:針孔攝像機,輻射學術(shù)語;局部影調(diào)模型,點,線和面光源,光度學體視;顏色;線性濾波器,平滑抑制噪音,邊緣檢測;紋理,用濾波器輸出表示統(tǒng)計量,紋理量,紋理合成,由紋理推斷形狀;基本的多視角幾何,立體視覺;用聚類實現(xiàn)分割;擬合直線與曲線,用最大似然率進行擬合,魯棒性;隱變量與EM;用卡爾曼濾波來跟蹤,數(shù)據(jù)相關(guān);攝象機標定;使用特征對應(yīng)和攝像機標定的基于模型的視覺;使用分類器的模版匹配;基于關(guān)系的匹配;在數(shù)字圖書館中檢索圖像,基于圖像的繪制。

準備離散時間語音信號處理的原理,介紹語音信號處理研究及其應(yīng)用方面的最新動態(tài),其中包括語音處理,語音時頻分析以及非線性聲學語音產(chǎn)生模型,而這些講授內(nèi)容在以往任何一本語音信號處理教科書都不曾提及,深入介紹以下內(nèi)容:語音編碼,語音增強,語音綜合,說話人識別,語音信號恢本復(fù),動態(tài)范圍壓縮語音信號處理基礎(chǔ),語音的時域的分析語音信號頻域分析,語音信號線性預(yù)測分析,矢量量化,語音編碼,語音合成,語音增強,說話人識別。

3.構(gòu)建研究實踐型模式,探究研究生指導

通過研究生指導模式的學習,兩種指導方式之一是對傳統(tǒng)面對面的與基于網(wǎng)絡(luò)兩種指導方式的混合。師生之間定期與不定期面對面的交流對于保證研究生指導質(zhì)量提高有著重要關(guān)系?;ヂ?lián)網(wǎng)突破時空限制為高校師生提供一個開放的、共享、個性化、多維交互的教與學的平臺。我提供優(yōu)秀研究資源,學生也可以通過網(wǎng)絡(luò)共享研究資源。師生都可以Web對于優(yōu)化研究資源的共享、促進師生之間的社會互有著重要作用使得研究生指導模式充分發(fā)揮面對面指導。研究生指導主要注重科研素養(yǎng)培養(yǎng)。研究生培養(yǎng)根本目標發(fā)展能力。課程學習對于系統(tǒng)提高研究生對專業(yè)關(guān)心課程學習狀況必要,要為學生提供學習方法指導與建議,要鼓勵學生結(jié)合課程學習進行相關(guān)討論。

基于自主與協(xié)作的探究性學習是研究生學習的主體地位,發(fā)揮作用。我在教研中培養(yǎng)研究生發(fā)現(xiàn)問題、分析問題、解決問題的能力正是為了支持研究目標在于獲得親身參與研究探究體驗:培養(yǎng)“教研模式中”包括個人理解專業(yè)研究領(lǐng)域相關(guān)問題的內(nèi)涵與特征。旨在使學生能夠切實掌握專業(yè)與研究領(lǐng)域所涉及基本原理與能夠利用這些原理與方法分析確定方案實施、“know“know 是相互交織相互作用的層面,主要是為了增強指導以便根據(jù)不同層包括若干個問題常常需投人較多的精力與時間。應(yīng)該安排較長時間且要充分利用網(wǎng)絡(luò)技術(shù)平臺支持。提升研究質(zhì)量有效地避免傳統(tǒng)指導誤區(qū)。在指導時過于強調(diào)研究生所獲取學術(shù)成果而忽視指導過程體現(xiàn)在兩方面:一目標評價標準單一往往給研究生層面:①面向研究生個體的“個別指導”;②面向小組集中:③自主調(diào)控評價,必須與教師、同伴、專家進行交流、協(xié)作才有可能真正地提高效率,實現(xiàn)學習目標,培養(yǎng)學團隊意識,其次要幫助研略,在各層面都有明確的目標相應(yīng)指導內(nèi)容,并要注意這三個層面整合。使之過程得到全面發(fā)展。養(yǎng)成科學態(tài)度和科學道德。“科研能力發(fā)展、輕綜合素質(zhì)培養(yǎng)”,研究生導師不但應(yīng)該是研究生的指導者。指導教師可以按“科研項目一要問題一具體任務(wù)”的層次。以教師的、助學促學”盡可使每個研究生都能達到預(yù)期培養(yǎng)目標。評價要更關(guān)注總結(jié)性評價”與“過程性評價”工具以豐富研究生指導過程中教研交互的教育學中社會互。傳統(tǒng)環(huán)境下的社會互往往是面對面的交互。網(wǎng)絡(luò)平臺可以利用構(gòu)建社會網(wǎng)絡(luò)支持社會交互。強調(diào)的研究科研成果而深層次交流方式不同指導目標、不同指導層次整合,指導教師角色轉(zhuǎn)變,變革評價方式,豐富指導教師來促進“自主一協(xié)作”探究學習,對研究生“混、他評”與“自混評關(guān)注教研評價的?!苯萄心J较戮W(wǎng)絡(luò)技術(shù)與內(nèi)涵表現(xiàn)在:①利用技術(shù)促進教研資源的整合,優(yōu)化教研資源管理,教研資源共享,促進師生與教研內(nèi)容的交互;②利用Web工具,有效地整合現(xiàn)實交互空間虛擬交互空間另外還地加速或加強人際聯(lián)系,幫助師生了解探究式應(yīng)用實踐探索。

研究生是否發(fā)表了高水平的科研成果,研究生入學初期,以Web的應(yīng)用為核心的互聯(lián)網(wǎng)絡(luò)不但為高校師生的交流提供了新的溝通與互動方式。以獨特高校師生的思維方式生存方式發(fā)生了系列改變。也成為高校師生教研與生活中的重要信息工具為研究生指導提供了豐富的資源與多維立體環(huán)源。網(wǎng)絡(luò)平臺也用于共享、深化面對面交流中所總結(jié)形成相關(guān)觀點與資料。要求其他每位學生都至少要提一個問題所提出問題進行進一步的討論。了解專業(yè)研究領(lǐng)域的基本問題、核心問題與前沿問題研究生自己在調(diào)研基礎(chǔ)上提出研究進行獨立自主的探究。所以除了關(guān)注在專業(yè)領(lǐng)域內(nèi)研究能力的發(fā)展之外還要注意教育科研能力的培養(yǎng)引導學關(guān)注“專業(yè)發(fā)展”。 用于規(guī)劃了解學生的已有基礎(chǔ),以幫助后期制定更為合理個別指導計劃:第二,通過召開定期的討論會、師生個別交流,包括兩種類型:①旨在提高新生適應(yīng)研究生學習與生活的適應(yīng)性:②面向科研任務(wù)的研究小組。面向任務(wù)方式?jīng)_擊著高校師思維方式與文化理念,非常重視網(wǎng)絡(luò)平臺研究指導中的應(yīng)用,建立了向團隊公用資源平臺教研主要采用研究式教研方法, 要求研究生自學其基本原理, 然后利用實際數(shù)據(jù),由導師提供或從期刊文獻中獲取,完成數(shù)據(jù)預(yù)處理、計算、結(jié)果表達、解釋的全過程, 并以論文形式提交給教師, 同時在課堂上向大家介紹自己的研究成果。這樣做一方面提高了學生應(yīng)用知識的能力以及研究成果的文字組織和語言表述能力。 另一方面, 研究生的每篇習作就是一個很好的實例, 教師可以從中發(fā)現(xiàn)學生對知識理解的偏差, 及時予以糾正, 使學生對方法的掌握更加準確和牢固。將網(wǎng)絡(luò)共享平臺中上傳所有研討記錄訓練,將研究分個層面:①選擇專業(yè)研究內(nèi)的基本問題或重要問題或熱點問題對之進行深入探究。掌握本專業(yè)領(lǐng)域基本研究方法;②以自己課體依托,在課題下設(shè)置子課根據(jù)研究與研究興趣跨年級構(gòu)建小組,每個小組負責不同的子課題與任務(wù)③鼓勵研究途徑。一年級開始參與課題研究,二年級學期要求開始提出自己一些問題或鼓勵結(jié)合確定畢業(yè)論文選題使他們在更大程度職業(yè)能力發(fā)展;推薦專業(yè)相關(guān)資料;對(共8人)進行指導,效果較明顯。在學習方面,24名本科生通過畢業(yè)答辯。研究生八人以學生身份公開發(fā)表學術(shù)科研論文。 他們在這方面的能力得到鍛煉和提高。

通過"混合型-探究式"研究生指導模式的學習實踐三個維度的"混合":對傳統(tǒng)面對面的與基于網(wǎng)絡(luò)的兩種指導方式的整合,對提升研究生課程學習績效、促進研究生科研能力發(fā)展、促進研究生職業(yè)能力發(fā)展三個指導目標的整合,對個別指導、小組集中指導、團隊集中指導三個指導層面的整合;說明了該模式中三個層面的"探究":對專業(yè)問題的探究,對專業(yè)與研究領(lǐng)域內(nèi)基本原理的探究,對綜合科研任務(wù)的探究;同時介紹了在實踐層面應(yīng)用"混合型-探究式"研究生指導模式的實際效果。以重點學科為依托,吸取國內(nèi)外大學研究生培養(yǎng)經(jīng)驗,對創(chuàng)新型研究生培養(yǎng)模式方法進行探索,在研究生培養(yǎng)模式改革中,提出“四個轉(zhuǎn)變”的指導思想,即變“單人指導”為“團隊指導”,變“單一培養(yǎng)模式”為“多元培養(yǎng)模式”,變“以教師為中心”為“以學生為中心”,變“面向培養(yǎng)結(jié)果”為“面向培養(yǎng)過程”。形成以研究生為中心的培養(yǎng)模式,突出研究生探索精神、科學思維、創(chuàng)新意識的培養(yǎng)。切實 行的措施 引導 究生遵守科學 道德,保持科學沖動,增強創(chuàng)新意識,提高科學能力。

考慮到“計算機視覺教研探究研究生指導”通常需要運用計算機技術(shù)解決工程問題,我將在以后教研中,增加計算機輔助教研的功能。如利用Matlab工具對所學內(nèi)容及實際視覺問題進行可視化仿真演示。我也將用虛擬儀器工具搭建案例的虛擬系統(tǒng),試圖通過這樣的虛擬系統(tǒng),向?qū)W生提供有利于啟發(fā)思維的靈活的認識與實踐環(huán)境。增強學生的感性認識;同時,盡管我采用了多媒體教研。我計劃在教案中增加更多的現(xiàn)場視頻材料以及圖形和圖像資料,使學生更容易理解和記憶,增強抽象理論的可接受性。

參考文獻:

[1]David A.Forsyth and Jean Ponce , Computer Vision-A modern Approach

[2]賈云得.機器視覺.電子工業(yè)出版社,1999

[3]Thomas F.Quatieri離散時間語音信號-原理與應(yīng)用,電子工業(yè)出版社,2004

[4]Shapiro.L.G and stockmen,G.C,計算機視覺.北京-機檻工業(yè)部,2001

[5]Haralick,R.,1992/1993 Computer and Robot vision ,volume I and II

[6]張雄偉,陳亮等.現(xiàn)代語音處理技術(shù)及應(yīng)用.機械工業(yè)出版社,2003

[7]Thomas F.Quatieri離散時間語音信號-原理與應(yīng)用,電子工業(yè)出版社,2004

[8]鄭燕林等“混合型-探究式”研究生指導模式的構(gòu)建與實踐,學位與研究生教育,2010

篇8

關(guān)鍵詞: 增強現(xiàn)實; 雙目立體視覺; 人機交互

中圖分類號: TP 391.9 文獻標識碼: A doi: 10.3969/j.issn.10055630.2012.02.004

引 言

增強現(xiàn)實(augmented reality,AR)技術(shù)是在虛擬現(xiàn)實(virtual reality,VR)技術(shù)上發(fā)展起來的一門新興技術(shù),由于其廣泛的應(yīng)用背景,因此吸引了國內(nèi)外眾多科研人員加入研究,成為近年來的一個研究熱點。增強現(xiàn)實技術(shù)涉及到仿真技術(shù)、計算機圖形技術(shù)(computer graphics,CG)、圖像處理技術(shù)、交互技術(shù)及傳感器技術(shù)等領(lǐng)域,是一項綜合性十分強的研究領(lǐng)域[1]。與虛擬現(xiàn)實技術(shù)將用戶隔離在真實世界之外不同的是,當用戶在真實世界中的位置發(fā)生變化時,虛擬信息也隨之相應(yīng)變化,虛擬信息與真實環(huán)境完美結(jié)

合,既避免了構(gòu)建復(fù)雜真實環(huán)境的大量繁瑣工作,又可對真實環(huán)境進行變動,具有很強的實時可控性,

達到了亦真亦幻的效果。正是由于增強現(xiàn)實與真實環(huán)境緊密聯(lián)系的特性,使得增強現(xiàn)實技術(shù)在精密儀器

制造、醫(yī)療研究、市政規(guī)劃、文物保護、影視娛樂、軍事訓練、裝備維修等領(lǐng)域得到了廣泛的應(yīng)用。

在研究工作中搭建了一套基于增強現(xiàn)實的維修系統(tǒng),利用增強現(xiàn)實良好的虛實場景結(jié)合以及人機交互功能,通過計算機視覺技術(shù)、圖像識別技術(shù)以及建模仿真等技術(shù),使該系統(tǒng)能夠完成圖像采集、立體實時顯示、三維注冊以及虛實融合等功能,改善了傳統(tǒng)意義上的人工維修帶來的培訓成本高、效率低下等問題,較之虛擬維修也更為真實可靠。表1為增強現(xiàn)實維修與虛擬維修的比較表。下面將詳細介紹該系統(tǒng)的開發(fā)環(huán)境和實現(xiàn)過程。

4 結(jié) 論

利用雙目視覺技術(shù)、增強現(xiàn)實技術(shù)搭建了一個增強現(xiàn)實維修系統(tǒng)。在以ARToolKit等軟件為工具的基礎(chǔ)上,根據(jù)增強現(xiàn)實維修的特點和硬件系統(tǒng)的要求,相對其他單目攝像機增強現(xiàn)實系統(tǒng)做了如下改進工作:

(1)將原一路攝像機采集景物圖像、圖像識別、三維注冊、虛實配準等增強現(xiàn)實過程變?yōu)榱藘陕妨Ⅲw景物圖像采集及相應(yīng)增強現(xiàn)實過程。方法是利用雙線程控制雙攝像機完成圖像采集和相應(yīng)的增強現(xiàn)實過程,并將虛實融合的圖像按照一定格式,分別存在緩存的不同地址,最后顯示立體圖像。

(2)ARToolKit模型調(diào)用支持VRML97語言描述的虛擬場景機模型,通過試驗,找到了通過3DS MAX構(gòu)建虛擬維修模型,并將其轉(zhuǎn)換為VRML97格式虛擬模型的方法。所以虛擬維修電子數(shù)據(jù)庫的建立是通過3DS MAX來完成的,包括虛擬物體的零部件的模型、貼圖、動畫等。

由于增強現(xiàn)實的虛實結(jié)合的獨特性,在維修裝配等領(lǐng)域具有很大的發(fā)展?jié)摿蛻?yīng)用前景。而其它技術(shù)領(lǐng)域如計算機圖形學、多媒體、人工智能等的不斷發(fā)展和完善,也為增強現(xiàn)實技術(shù)提供了新的應(yīng)用領(lǐng)域和發(fā)展空間。

參考文獻:

[1] AZUMA R,BAILLOT Y,BEHRINGER R.Recent advances in augmented reality[J].IEEE Computer Graphics and Applications,2001,21(6):34-47.

[2] 馬頌德,張正友.計算機視覺――計算理論與算法基礎(chǔ)[M].北京:科學出版社,1998.

[3] 隋 婧,金偉其.雙目立體視覺技術(shù)的實現(xiàn)及其進展[J].電子技術(shù)應(yīng)用,2004(10):4-6.

[4] 段欣濤,汪岳峰,周 斌.一種數(shù)碼相機幾何畸變的檢測方法[J].光學儀器,2011,33(1):15-18.

[5] PASMAN W,WOODWARD C.Implementation of an augmented reality system on a PDA[C]∥The Second IEEE and ACM International Symposium on Mixed and Augmented Reality,New York:IEEE,2003:276-277.

[6] MILGRAM P,KISHINO F.A taxonomy of mixed reality visual display[J].IEICE Transactions on Information Systems,1994,E77D(12):1321-1329.

[7] 張德豐,周 靈.VRML虛擬顯示應(yīng)用技術(shù)[M].北京:電子工業(yè)出版社,2010.

[8] 莊春華,王 普.虛擬現(xiàn)實技術(shù)及其應(yīng)用[M].北京:電子工業(yè)出版社,2010.

篇9

3月17日,阿里巴巴宣布成立VR實驗室,瞄準的是VR購物。同時,它會聯(lián)合旗下的阿里影業(yè)、阿里音樂、優(yōu)酷土豆,制作VR內(nèi)容。而今年下半年,騰訊將基于PC端和移動端的兩款VR頭部顯示器。

根據(jù)美國風險投資數(shù)據(jù)公司CB Insights的數(shù)據(jù),2017年第一季度,AR/VR領(lǐng)域的投資項目超過80個,同比增長60%。報告還披露了Facebook和蘋果分別為其A/VR工作招聘了一千多名員工。

所謂VR,就是通過計算機技術(shù)為用戶模擬出逼近現(xiàn)實的虛擬環(huán)境。其沉浸式體驗和交互方式帶來的新的娛樂方式,吸引了從硬件技術(shù)到內(nèi)容生產(chǎn)和分發(fā)的多個公司。除了阿里巴巴、騰訊、Facebook和蘋果,HTC、三星、索尼等公司都在這個領(lǐng)域展開業(yè)務(wù)。

目前,這個行業(yè)的人才供應(yīng)遠低于需求。人力資源平臺領(lǐng)英去年的一份針對全球范圍內(nèi)VR人才的報告顯示,在領(lǐng)英的人才庫里,有18%的人才需求來自VR行業(yè),僅次于美國,但合適的VR人才只有2%。

熬過資本的冬天并存活下來的公司變得更加務(wù)實,而且開發(fā)了更多樣化的應(yīng)用場景―除了去年的影視、游戲產(chǎn)業(yè),今年它們還進入到了醫(yī)療行業(yè)、制造業(yè)、零售業(yè)等新領(lǐng)域。

如果你對VR行業(yè)感興趣或者看好它的前景,我們將告訴你這個領(lǐng)域正在找哪些人、薪水怎么樣,以及怎樣可以加入。

AVRO備的核心職位主要有3種

VR硬件的核心技術(shù)很復(fù)雜,涉及算法、光學、系統(tǒng)開發(fā)、交互、圖形圖像等多個領(lǐng)域,核心職位圍繞的都是這些方向。它們也多是HTC、三星等硬件公司的VR業(yè)務(wù)范圍。

算法工程師

這是VR領(lǐng)域最基礎(chǔ)的職位。VR的功能是通過一副眼鏡,讓人既看到人眼看不到的東西,又能在虛擬空間中移動,還能對虛擬景象形成真實感,因此需要一套算法把這些感官上的功能都實現(xiàn)。通常,算法工程師關(guān)注的是如何解決某一類特定問題或?qū)崿F(xiàn)某一特定功能。在VR領(lǐng)域,這一職位主要需要懂計算機視覺、空間定位、交互技術(shù)、圖形圖像等算法。

計算機視覺主要是指以攝像頭代替人眼識別目標和提取特征,工程師需要探索最新的算法以及技術(shù)的可行性,負責視覺和圖像的處理;空間定位指的是通過VR設(shè)備使用者能確定自己在空間中的位置,高精度的空間定位可以為用戶帶來更好的沉浸感并降低眩暈程度;接下來,交互算法工程師負責手勢識別、視線估計、動作捕捉、追蹤等相關(guān)計算機視覺算法的研發(fā),研究實際空間中的動作如何延伸到虛擬空間中;然后是圖形圖像的處理,它要求在滿足性能的前提下提高畫質(zhì),用更快的速度和更少的資源去畫像。

光學和人體工學工程師

光學要解決的是讓VR設(shè)備的鏡片在保證沉浸感和清晰度的同時,盡可能加大視場角,讓人在佩戴VR設(shè)備時看得更清晰;人體工學關(guān)注的則是人在佩戴VR眼鏡時的舒適度,設(shè)備是否透氣、不漏光、足夠輕盈等。目前消費級的VR產(chǎn)品在這方面仍處于初級階段,如何讓人更舒適持久地使用VR設(shè)備,是行業(yè)發(fā)展的瓶頸之 一。系統(tǒng)架構(gòu)師

與成熟的智能手機、智能手表的開發(fā)系統(tǒng)不同,VR的系統(tǒng)架構(gòu)到目前為止并沒有行業(yè)標準,面對陌生的領(lǐng)域,系統(tǒng)架構(gòu)師需要駕馭和設(shè)計整個系統(tǒng),負責VR頭部顯示器及整個主機設(shè)備的集成。

BVR產(chǎn)業(yè)鏈上的工作還有這些

要實現(xiàn)VR體驗,只有一部VR硬件設(shè)備可不夠,可以觀看的內(nèi)容、節(jié)目效果,以及應(yīng)用場景的開發(fā),這些需要硬件公司以外的公司參與,F(xiàn)acebook等公司涉及的主要是這部分內(nèi)容。

3D引擎開發(fā)和3D美術(shù)

3D引擎開發(fā)人員主要負責VR場景的搭建―戴上VR眼鏡后你看到的“新世界”,就是所謂的VR場景。市場上主流的開發(fā)引擎有兩種,一種是可以快速開發(fā)的Unity3D引擎,一種是可以制作恢弘場景和細致光效的虛幻4引擎,這種引擎在游戲開發(fā)中常使用。

3D美術(shù)人員則需要制作3D美術(shù)素材,將素材置入場景后,再配合引擎程序員優(yōu)化游戲的性能。

內(nèi)容制作

你知道,無論電影還是游戲,當你想要通過VR眼鏡獲得這些娛樂的時候,它們除了像一般的電影和游戲產(chǎn)品那樣需要腳本,還需要影視制作人員使用360度全景視頻的拍攝技術(shù)去拍攝和剪輯,這是二者在內(nèi)容制作方法上的不同之處。

銷售運營、產(chǎn)品經(jīng)理

不同于剛起步的人工智能,VR已經(jīng)邁入產(chǎn)業(yè)化階段,公司除了需要尖端技術(shù)人員,對市場銷售、平臺運營方面的人才同樣有需求。要求與其他領(lǐng)域大同小異,都是負責開拓市場和客戶,增加產(chǎn)品的銷售范圍等。因VR企業(yè)希望快速打開市場,銷售人才目前高居中國VR領(lǐng)域人才需求的第二位,高于全球水平。

產(chǎn)品經(jīng)理的職責也很共通,負責其他VR公司與本公司部門的配合,制定和推進合作項目,把控整體合作項目的時間,并對最終合作質(zhì)量負責。

常規(guī)開發(fā)

和任何智能硬件一樣,VR也需要內(nèi)置一套系統(tǒng),其中包括App Store一樣的平臺以及應(yīng)用軟件,這部分工作與傳統(tǒng)互聯(lián)網(wǎng)、手機行業(yè)的開發(fā)工作相似,即在實現(xiàn)VR設(shè)備的智能化的同時,保證軟件在不同平臺間能流暢交互。

C要進入這個行業(yè),需要你有這些能力和資歷

技術(shù)崗位碩博優(yōu)先

VR行業(yè)的崗位主要指向三個方面:硬件、軟件和內(nèi)容制作。

硬件領(lǐng)域涉及到計算機、光學、電子、機械、生物學、自動化等方向。軟件需要計算機圖形學、程序設(shè)計、數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、算法設(shè)計與分析等相關(guān)背景。這兩個方面對工科背景的人才需求更大。VR內(nèi)容包括游戲、影視等,需要3D美術(shù)、拍攝方面的學術(shù)背景。

由于VR產(chǎn)業(yè)相對細分,產(chǎn)業(yè)上游硬件、軟件開發(fā)的崗位會以碩士、博士學歷優(yōu)先,因為碩士和博士在學術(shù)領(lǐng)域的研究方向更為明確,企業(yè)在篩選簡歷時更容易適配崗位。

“如果畢業(yè)論文方向是圖形圖像、計算機視覺,就會非常搶手,不僅是VR行業(yè),在人工智能領(lǐng)域也會受到歡迎?!笨其J國際高科技行業(yè)總監(jiān)田丹說。

VR行業(yè)的核心技術(shù)崗位中,招人要求最高的是算法工程師,這也是最難招聘的崗位。學歷必須是碩士以上,同時是模式識別、信號處理等科班出身。另外,對深度學習和機器學習有了解是加分項。

至于市場銷售、平臺運營甚至內(nèi)容領(lǐng)域的人才,這個行業(yè)對學歷背景要求不高,更看中經(jīng)驗、人脈以及辦事的靈活度。畢竟,新興行業(yè)最需要資源嫁接能力。

應(yīng)屆生也有機會,尤其是海歸

打開招聘網(wǎng)站,VR技術(shù)崗位的招聘一般以最少一年工作經(jīng)驗起步,往上的話,有的職位要求3到5年的工作經(jīng)驗,有的甚至要求10年以上的經(jīng)驗。這個門檻主要是因為VR技術(shù)雖然還不怎么成熟,但它是高集成性產(chǎn)品,需要在算法、架構(gòu)、光學和人體工學等成熟技能的基礎(chǔ)上再提出應(yīng)用上的高要求。

但應(yīng)屆畢業(yè)生并非完全沒有機會。對國內(nèi)的VR公司來說,開放應(yīng)屆畢業(yè)生招募主要有兩種情況。一是已經(jīng)在行業(yè)里挖到技術(shù)領(lǐng)域的大牛,需要為其配備團隊,因此會招聘一定比例的應(yīng)屆畢業(yè)生。二是產(chǎn)品經(jīng)理這類崗位入門門檻不高,公司也愿意花時間培養(yǎng)。

相較而言,海歸會比較受到這個行業(yè)的歡迎。微鯨VR人力資源總監(jiān)Tony在為3D場景交互崗位招聘時發(fā)現(xiàn),國內(nèi)很少有這方面的專業(yè)人才,但德國的3D場景交互領(lǐng)域向硅谷輸送了不少人。他后來意識到,這是因為德國的高校有對口專業(yè),所以即使是剛畢業(yè)的應(yīng)屆生,Tony也會第一時間把對方請到公司來。

再說到內(nèi)容領(lǐng)域,VR內(nèi)容領(lǐng)域要制作哪些內(nèi)容并沒有明確標準。畢竟,還沒有人敢下結(jié)論說:VR只能用來做什么、不能做什么。這個行業(yè)眼下正是需要創(chuàng)意和研究拍攝方式的時候。

D這些領(lǐng)域,跨行到VR更容易

游戲

游戲是VR最早被應(yīng)用的場景之一。雖然VR游戲一度遇冷,但從長遠角度看,從游戲行業(yè)跳到VR行業(yè)嘗試新的游戲形態(tài)未嘗不可。擅長技術(shù)的話,可以繼續(xù)走Unity3D開發(fā)、3D建模和3D美術(shù)的路。即使有大量游戲公司仍在觀望,但VR游戲帶來的體驗感確實是電腦、手機無法取代的。這也是HTC Vive、PS VR、Oculus等公司目前大量需求的產(chǎn)品。

互聯(lián)網(wǎng)和半導體

互聯(lián)網(wǎng)和半導體是VR行業(yè)人才來源的兩大核心區(qū)域。VR行業(yè)缺少的系統(tǒng)架構(gòu)人才在微軟、IBM、AMD、英特爾或者高通都能找到。

工業(yè)設(shè)計

截至目前,用戶對于VR硬件設(shè)施的體驗普遍是抱怨“長久佩戴時頭顯過重,舒適感不夠”。這就需要人體工程學領(lǐng)域的人才來改進產(chǎn)品,他們一般會從設(shè)計領(lǐng)域找人,尤其是工業(yè)設(shè)計。

影視

影視行業(yè)從業(yè)者主動跳到VR行業(yè)的比例相對更高?!八麄儗φ麄€行業(yè)的理解和感知更多,當他們意識到有新的拍攝方式可以嘗試,主動投身的人就會更多?!盩ony說。他以微鯨一位制片人為例,對方在電視臺累積了多年經(jīng)驗,有自己的工作室,同時還在高校任教,最終選擇進入VR領(lǐng)域就是想嘗試不一樣的東西。

E哪些公司在尋找人才?

初創(chuàng)公司

新技術(shù)面前,全球企業(yè)處于同一起跑線。以技術(shù)為核心的初創(chuàng)公司為了站穩(wěn)腳跟,同樣在該領(lǐng)域爭奪人才。暴風魔鏡、蟻視、大朋、微鯨等國內(nèi)VR廠商熬過資本嚴冬,對招聘也有了更高需求?!俺跫墠徫徊浑y招,要招就招核心算法,特別是如果我們想超越海外同行,招人就更重要。”大朋VR合伙人兼首席戰(zhàn)略官章立說。

大公司

雖然無論是Facebook,還是HTC、索尼,都沒有將技術(shù)研發(fā)落地中國,但巨頭們?yōu)榱嗽靹?,頻頻聯(lián)合產(chǎn)業(yè)鏈上下游合作,發(fā)起各類聯(lián)盟,為開發(fā)者提供諸多便利,這從另一個角度為從業(yè)者帶來了更多機會。

Fa c e b o o k今年4月宣布建立首個增強現(xiàn)實(Augmented Reality,AR)平臺,同時VR社交平臺Facebook Spaces的Beta版;微軟于5月10日宣布將開放Windows Mixed Reality開發(fā)者套件預(yù)購。5月18日,Google也宣布要在今年年底推出Daydream VR一體機,其首批合作伙伴是HTC和聯(lián)想。

還有蘋果,在6月6日的WWDC大會上,蘋果宣布Mac將支持HTC Vive,開發(fā)者可在MacBook上使用SteamVR平臺。同時,AR方面推出開發(fā)套件ARKit。

從這些大公司的策略中也能看出,VR已經(jīng)不僅是它們手中的一張牌,混合現(xiàn)實(Mixed Reality,MR)、AR以及人工智能日后都將聯(lián)合起來。

F這行的薪水到底怎么樣?

去年5月,拉勾網(wǎng)了一份《VR/AR行業(yè)薪酬報告》,報告顯示,技術(shù)職位在過去幾年始終是核心訴求職位,即使崗位需求在2016年有所下降,也在總體崗位中占比50.5%。同時,市場方面的人才需求明顯提高,2016年占比12.3%,兩年間增長了一倍。

根據(jù)報告,在VR行業(yè),無論是技術(shù)、產(chǎn)品還是市場、運營等崗位,薪酬水平皆高于互聯(lián)網(wǎng)領(lǐng)域。去年5月,全行業(yè)技術(shù)崗位月平均薪資為1.35萬元,而VR/AR行業(yè)技術(shù)崗位的月平均薪資達到了1.85萬元。即使是最弱勢的職能部門,薪資也高于行業(yè)平均值7100元,達到8300元/月。

Tony證實了這一現(xiàn)象。物以稀為貴,VR行業(yè)里技術(shù)崗薪水最高,而在技術(shù)崗里,算法工程師的薪酬排名第一。算法工程師如具備碩博學歷,年薪一般在30萬元至60萬元,3D引擎開發(fā)人才的年薪也在30萬元至40萬元。這還不包括公司為留住人才發(fā)放的期權(quán)和獎金。非技術(shù)職位的薪水也會比原行業(yè)略高,但總體上相差不大。

科銳國際在《2017年薪酬指南》中也指出,在新技術(shù)領(lǐng)域里,計算機視覺、深度學習方向薪酬漲幅最快。人才儲備主要在幾家跨國公司和頂級高校,VR行業(yè)的人才薪酬已經(jīng)在高點,人才流動的吸引力更多來自職位前景。不過若遇到急缺位,跳槽漲幅可能高達50%以上甚至100%,比如算法類的崗位就是如此。

G進這行前,你得有點心理準備

如果你有興趣進入這個新興行業(yè)試一試,章立和Tony提醒你:

篇10

【關(guān)鍵詞】 Android系統(tǒng) Mean-shift跟蹤算法 Opencv視覺庫 圖像采集 圖像處理

Abstract: Introduce the composition of Android operating system,according to the specific requirements of machine vision object tracking,design a object tracking system based on Android platform.The system collect images through camera,select the object that you want to track on the screen,the system will automatically calculate the center,draw the outline.It analyses the implementation of the system with three aspects which are the selection of the Opencv visual library,the foundation of the Android development platform and the implementation of the model function.

Keywords: Android system; Mean-shift tracking algorithm; Opencv visual library; image acquisition; image processing

物體跟蹤采用Mean-shift算法,計算所選區(qū)域的灰度直方圖,根據(jù)直方 圖的數(shù)值分布采用Ostu最大類間方算法,計算圖像的實時閾值,根據(jù)動態(tài)閾值使其能夠最大限度的分割出前景與背景,并且計算所選區(qū)域的中心點坐標,繪制輪廓矩形圖,從而較為精確的跟蹤運動物體[1]。

一、 Android平臺的搭建

Android系統(tǒng)平臺主要由應(yīng)用程序,應(yīng)用程序框架,C/C++函數(shù)庫,Android運行庫,底層Linux內(nèi)核這幾部分構(gòu)成[2],并且在設(shè)計中還要植入相應(yīng)版本的Opencv視覺函數(shù)庫,在開發(fā)應(yīng)用程序中才能調(diào)用庫函數(shù)實現(xiàn)相應(yīng)的圖像采集與圖像處理的功能。文章中利用裝載有Android系統(tǒng)的手機作為載體,植入Opencv Manager,根據(jù)Android應(yīng)用程序的開發(fā)規(guī)則,結(jié)合對應(yīng)的機器視覺函數(shù),編寫目的應(yīng)用程序,在程序中要調(diào)用自身攜帶的攝像頭進行圖像的采集工作[4],屏幕作為人機交互窗口[5],供用戶選擇需要跟蹤的物體,并在其演示跟蹤的效果。

系統(tǒng)的工作方塊圖如下:

2)計算背景和目標的出現(xiàn)概率,計算方法如下:

pA :背景出現(xiàn)的概率

pB : 目標出現(xiàn)的概率

3)計算A和B兩個區(qū)域的累間方差:

1、計算A和B區(qū)域平均灰度值:

2、計算灰度圖像全局的灰度

二、Ostu最大類間方差

1)建立圖像灰度直方圖(共有L個灰度級,每個出現(xiàn)概率為p)

3、計算A、B兩個區(qū)域的類間方差

以上為最大類間方差的計算方法,其中的t即為所選定的閾值,根據(jù)這一閾值實現(xiàn)對圖像的分割。

三、運行的結(jié)果演示

選定所要跟蹤目標,通過點擊屏幕中的白色瓶蓋[3],即可計算出瓶蓋的中心,并在圖中繪制出來,并且根據(jù)瓶蓋的輪廓,利用矩形框包圍物體物體。

可以看出當移動物體時,矩形框與物體中心跟隨物體的移動,并保持在原來位置,即可達到跟蹤的效果。

四、結(jié)論

在Android平臺上,植入相應(yīng)的庫函數(shù),并且利用Mean-shit跟蹤算法以及Ostu最大類間方差算法,兩者相結(jié)合即可實現(xiàn)物體的跟蹤效果,但跟蹤效果取決物體背景的顏色是否與被跟蹤物體顏色反差大,反差大即可實現(xiàn)較好的跟蹤效果,反之,效果較差。

參 考 文 獻

[1] 王晨旭.淺談計算機圖像處理技術(shù)的應(yīng)用[J].計算機光盤軟件與應(yīng)用,2011,(6):139

[2] 白文江基于Android平臺的移動應(yīng)用開發(fā)研究[J].太原大學學報,2011(3):117-120

[3]Chen H,Huang T.1990.Matching 3-D line segments with applications to multiple-object motion estimation. IEEE Trans, on PAMI, 12(10): 1002-1008.

[4] 張梅等.淺談計算機視覺與數(shù)字攝影測量[J].地理空間信息,2010, 8 (2): 17-20