場景文本提取方法應(yīng)用研究論文

時間:2022-10-11 11:04:00

導(dǎo)語:場景文本提取方法應(yīng)用研究論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

場景文本提取方法應(yīng)用研究論文

摘要場景圖像中的文本提供了重要的語義信息,它是圖像內(nèi)容的重要來源。針對當(dāng)前的求解算法普遍存在提取文本精確度不高等缺點(diǎn),本文提出了一種有效的文本提取方法。首先對原始圖片進(jìn)行模糊化處理,然后進(jìn)行Laplacian邊緣提取和二值化,再形態(tài)學(xué)變化,最后進(jìn)行連通域分析,實(shí)現(xiàn)了場景文本的提取。

關(guān)鍵詞文本提??;邊緣檢測;二值化;連通域分析

0引言

隨著計算機(jī)、多媒體以及通訊技術(shù)的飛速發(fā)展,相當(dāng)數(shù)量的文字信息正越來越多地以圖像形式出現(xiàn)[1]。圖像中的文字是圖像內(nèi)容的一個重要來源,如果這些文字能自動地被檢測、分割、識別出來,則對圖像語義的自動理解、索引和檢索是非常有價值的[4]。圖像文本可以分為人工文本和場景文本。人工文本是指人工加在圖像上的文本,場景文本是圖像上本身存在的文本,如廣告牌或運(yùn)動員球衣上的號碼等。由于場景文本圖像具有較為復(fù)雜的背景,同時受光線和文本的字體、顏色、位置等因素影響較大,往往很難被檢測、提取和識別,因此自動從場景中提取文本是一項(xiàng)極具挑戰(zhàn)性的工作。目前已有的文本區(qū)域提取方法大致可以分為三類:基于連通域的方法,基于紋理的方法和基于邊緣的方法[2]。基于連通域的方法速度快,但是當(dāng)背景復(fù)雜或文本與背景顏色相近時分割困難,而基于紋理的方法非常費(fèi)時而且處理復(fù)雜背景時誤報比較多。

本文根據(jù)場景中的文本區(qū)域與背景對比度強(qiáng),存在豐富的邊緣信息,因此選擇基于邊緣檢測的文本提取方法對場景文本的提取進(jìn)行研究。首先對原始圖像進(jìn)行模糊化處理,然后用Laplacian邊緣提取降噪,再進(jìn)行形態(tài)學(xué)變化,最后連通域分析,從而實(shí)現(xiàn)場景文本的提取。實(shí)驗(yàn)表明,本文的文本提取方法具有較高的正確率,邊界定位較準(zhǔn)確。

1場景圖像文本的提取過程

1.1圖像預(yù)處理

由于光照等環(huán)境因素的影響在圖像上會產(chǎn)生許多噪聲,又考慮到Laplacian算子去噪能力較差,因此本文在預(yù)處理時先對原始圖像進(jìn)行模糊化,濾除圖像中的部分噪點(diǎn)。本文用的是3*3的卷積來進(jìn)行連續(xù)模糊。

1.2邊緣檢測與二值化

邊緣檢測是所有基于邊界分割方法的第一步。兩個具有不同灰度值的相鄰區(qū)域之間總存在著邊緣。由于場景中文本和背景視覺反差較大,且文本區(qū)域具有相當(dāng)大的一個寬度,與此同時場景文本筆畫邊緣明顯,所以利用邊緣檢測方法可以較好地提取出場景中的文本邊緣。

本文采用的是基于二階微分算子的Laplacian邊緣檢測算子。該方法對圖像中的階躍型邊緣點(diǎn)定位準(zhǔn)確且具有旋轉(zhuǎn)不變性的特點(diǎn),即各向同性的性質(zhì)。而場景文本正好具有階躍型邊緣的特性,所以說Laplacian算子較適合場景文本的提取。

其表達(dá)式為:

(1-1)

使用的Laplacian算子模板如圖所示:

圖1拉普拉斯算子

從邊緣檢測結(jié)果來看,在引入經(jīng)過模糊處理后的Laplacian算子能夠在不影響文本邊緣提取的前提下能取得很好的去噪效果。缺點(diǎn)是對光線影響較強(qiáng)和質(zhì)量較差的圖片處理過程中損失較大。

邊緣圖像的二值化是很重要的問題,如果閾值過大可能會漏掉一些文字邊緣,而閾值過小則可能會使較多的非文字邊緣被當(dāng)作文字邊緣處理,導(dǎo)致誤檢較多。本文針對不同圖像采用整體閾值二值化,用最小誤差方法求分割閾值。這主要是由于整體閾值算法簡單,時間開銷小,選擇合適的閾值可以取得較好的效果。而且用最小誤差方法求整體閾值的算法可以較好地分離背景和文字。

1.3形態(tài)學(xué)運(yùn)算

形態(tài)學(xué)將圖像信號與幾何形狀聯(lián)系起來,利用結(jié)構(gòu)元素的探針收集圖像的信息。形態(tài)學(xué)運(yùn)算能夠?qū)D像上的物體做形狀等方面的限制,常用于目標(biāo)檢測等。本文用形態(tài)學(xué)中的開閉運(yùn)算和腐蝕膨脹的方法來檢測二值邊緣密度圖像上的文本矩形區(qū)域。形態(tài)學(xué)運(yùn)算包括以下兩步:

(1)對二值化的邊緣密度圖像做7個象素寬度的水平閉運(yùn)算,連接字符筆畫形成矩形區(qū)域;再做15個象素寬度的水平開運(yùn)算,去除孤立的背景;

(2)形態(tài)學(xué)后處理(即在連通域分析后進(jìn)行的二次形態(tài)學(xué)運(yùn)算):對每個連通域做δ度的膨脹運(yùn)算和度的腐蝕運(yùn)算。ε其定義如下:

δ=min(h,w/8)(1-2)

ε=w/4(1-3)

其中h,w分別對應(yīng)連通域的高度和寬度。

通過第一步形態(tài)學(xué)運(yùn)算去除部分背景區(qū)域,將相連的背景和文本分開;第二步形態(tài)學(xué)運(yùn)算后圖像上只剩下部分規(guī)則的矩形區(qū)域。實(shí)驗(yàn)表明,通過以上兩步形態(tài)學(xué)運(yùn)算能比較準(zhǔn)確的得到文本矩形區(qū)域。

1.4連通域分析

雖然以上方法可刪除大量的非文本區(qū)域,但結(jié)果中可能還存在不包含文本的矩形區(qū)域。因此有必要對二值圖像做連通域分析。連通域算法是指從二值圖像中標(biāo)記出所有像素連通的區(qū)域。本文的連通域分析指的是8連通。該方法步驟如下:

(1)將原始圖像變換為行連通單元圖像,如圖2(b)所示,此時不考慮不同行之間的連通,同一行中的不同連通域賦予不同的標(biāo)號,背景置零。

(2)考慮不同行之間的連通情況,從上到下掃描圖2(b)中結(jié)果,引入記錄數(shù)組D,該數(shù)組用來記錄連通的情況,約束是:數(shù)組下標(biāo)和數(shù)組存儲的內(nèi)容表示兩個連通域單元連通,應(yīng)該合并為一個連通域,如D(5)=3,則表示5和3實(shí)質(zhì)上是一個連通域?,F(xiàn)在使用數(shù)組D記錄連通的情況,如果下一行某個行連通單元和本行中不止一個連通單元連通,則記錄本行中標(biāo)號最小的單元與下一行此單元連通。按照D的記錄修改圖2(b),得到圖2(c)中的結(jié)果。

(3)進(jìn)一步考慮不同行之間的連通情況,修正圖2(c)中結(jié)果。對圖2(c)從下到上掃描,如果連通情況與D的記錄不符就修改D。此時按照D的記錄修改圖2(c)就可以得到最終結(jié)果。見圖2(d),可以看出相同的連通域已經(jīng)有了相同的標(biāo)號。

圖2連通域分析過程

對于各個標(biāo)記的連通分量,文本區(qū)域的橫寬比、密度、寬度、高度等均有一定的限制。在本文中取如下參數(shù):

min(w/h,h/w)≥0.25(1-4)

0.2<A/(h·w)≤1(1-5)

min(w,h)≥3(1-6)

其中A表示連通分量的面積,w表示寬度,h表示高度。

2實(shí)驗(yàn)結(jié)果與分析

本文的實(shí)驗(yàn)數(shù)據(jù)由150幅標(biāo)志牌,海報,廣告標(biāo)語,新聞圖片,球衣照片等組成。采用計算正確率,錯誤率和遺漏率的方法來評價實(shí)驗(yàn)結(jié)果。

正確率=正確提取的文本區(qū)域個數(shù)/實(shí)際文本區(qū)域個數(shù);

錯誤率=錯誤提取的文本區(qū)域個數(shù)/實(shí)際文本區(qū)域個數(shù);

遺漏率=未被檢測到文本區(qū)域個數(shù)/實(shí)際文本區(qū)域個數(shù)。

本文選擇了較復(fù)雜的150幅圖片作為測試數(shù)據(jù),盡可能的包含了文本提取過程中可能出現(xiàn)的情況。實(shí)驗(yàn)結(jié)果為:正確率80.31%,錯誤率11.23%,遺漏率10.57%。出現(xiàn)錯誤和遺漏情況的原因是圖像的分辨率太低或背景與文本區(qū)域?qū)Ρ榷忍 ?/p>

部分實(shí)驗(yàn)結(jié)果如圖3所示:

圖3部分實(shí)驗(yàn)結(jié)果

3小結(jié)

本文介紹了一個從場景圖像中提取文本有效的方法。先通過模糊化處理進(jìn)行除噪,并對傳統(tǒng)的Laplacian邊緣檢測方法加以改進(jìn)和二值化處理。通過對邊緣圖像的形態(tài)學(xué)運(yùn)算,去除了非文本區(qū)域。最后進(jìn)行連通域的分析,使得文本提取有較高的正確率。該方法較Canny算子處理的結(jié)果具有非文本連通區(qū)域少、定位準(zhǔn)確等特點(diǎn)。但該方法在處理有光照等復(fù)雜背景的圖像時效果不理想,閾值的依賴性較強(qiáng),因此在設(shè)計算子和選取有效的閾值方法上需要進(jìn)一步研究。

參考文獻(xiàn)

[1]章毓晉.圖象處理和分析基礎(chǔ).高等教育出版社.2001

[2]崔瑩瑩,楊杰,梁棟.基于邊緣的標(biāo)志牌文本提取方法.影像技術(shù).2006

[3]王鄭耀.數(shù)字圖像的邊緣檢測.西安交通大學(xué)出版社.2002

[4]張引.復(fù)雜背景下文本提取方法研究與應(yīng)用.浙江大學(xué)博士學(xué)位論文.1999

[5]何斌,馬天予,王運(yùn)堅(jiān)等.VisualC++數(shù)字圖像處理.人民郵電出版社.2001

[6]K.C.Kim,H.R.Byun,Y.J.Song.SceneTextExtractioninNaturalSceneImagesusingHierarchicalFeatureCombiningandverification.Proceedingsofthe17thInternationalConferenceonPatternRecognition.2004