卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢范文
時間:2024-04-01 18:16:47
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:圖像分類;深度學(xué)習(xí);Caffe框架;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S著計算機(jī)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我們已經(jīng)進(jìn)入了一個以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類技術(shù)應(yīng)運(yùn)而生。通過各種機(jī)器學(xué)習(xí)算法使計算機(jī)自動將各類圖像進(jìn)行有效管理和分類,但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息,圖像特征提取和相識度匹配技術(shù)也存在一定的難題,要使得計算機(jī)能夠像人類一樣進(jìn)行分類還是有很大的困難。
深度學(xué)習(xí)是近十年來人工智能領(lǐng)域取得的重要突破,在圖像識別中的應(yīng)用取得了巨大的進(jìn)步,傳統(tǒng)的機(jī)器學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常會出現(xiàn)過擬合問題,因而對目標(biāo)檢測準(zhǔn)確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架,圖像特征是從大數(shù)據(jù)中自動學(xué)習(xí)得到,而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成,通過重復(fù)利用中間層的計算單元來減少參數(shù),在特征匯聚階段引入圖像中目標(biāo)的顯著信信息,增強(qiáng)了圖像的特征表達(dá)能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強(qiáng)了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統(tǒng)的圖像分類算法預(yù)測的準(zhǔn)確度有明顯的提升。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法
1.1 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡(luò)運(yùn)行機(jī)理和工作過程的抽象和簡化了的數(shù)學(xué)物理模型,使用路徑權(quán)值的有向圖來表示模型中的人工神經(jīng)元節(jié)點(diǎn)和神經(jīng)元之間的連接關(guān)系,之后通過硬件或軟件程序?qū)崿F(xiàn)上述有向圖的運(yùn)行[1]。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括:目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) [2]Hopfield網(wǎng)絡(luò)[3]Boltzmann機(jī)[4]SOFM網(wǎng)絡(luò)[5]以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)[6],算法流程圖如圖1所示[7]。
1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結(jié)構(gòu),包含最先進(jìn)的深度學(xué)習(xí)算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學(xué)習(xí)框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。
Caffe深度學(xué)習(xí)框架提供了多個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),利用隱含層的卷積層和池采樣層是實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能,卷積神經(jīng)網(wǎng)絡(luò)模型通過采取梯度下降法最小化損失函數(shù)對網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),通過頻繁的迭代訓(xùn)練來提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享,這一結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低,并且權(quán)值的數(shù)量也有大幅度的減少,本文使用這些模型直接進(jìn)行訓(xùn)練,和傳統(tǒng)的圖像分類算法對比,性能有很大的提升,框架系統(tǒng)訓(xùn)練識別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來說,要復(fù)雜得多,每兩層的神經(jīng)元使用了局部連接的方式進(jìn)行連接、神經(jīng)元共享連接權(quán)重以及時間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低,從而降低計算時間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個過程,分為卷積和采樣,分別的對上層數(shù)據(jù)進(jìn)行提取抽象和對數(shù)據(jù)進(jìn)行降維的作用。
本文以Caffe深度學(xué)習(xí)框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例,如圖4所示,對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。CIFAR-10是一個標(biāo)準(zhǔn)圖像圖像訓(xùn)練集,由六萬張圖像組成,共有10類(分為飛機(jī),小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數(shù)據(jù)進(jìn)行提取和降維的方法來提取圖像數(shù)據(jù)的特征。
2 實驗分析
將貓的圖像訓(xùn)練集放在train的文件夾下,并統(tǒng)一修改成256×256像素大小,并對貓的圖像訓(xùn)練集進(jìn)行標(biāo)記,標(biāo)簽為1,運(yùn)行選擇cpu進(jìn)行訓(xùn)練,每進(jìn)行10次迭代進(jìn)行一次測試,測試間隔為10次,初始化學(xué)習(xí)率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡(luò)訓(xùn)練的動量為0.9,權(quán)重衰退為0.0005,5000次進(jìn)行一次當(dāng)前狀態(tài)的記錄,記錄顯示如下圖5所示,預(yù)測的準(zhǔn)度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢,訓(xùn)練時間長的,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性,因而卷e神經(jīng)網(wǎng)絡(luò)框架在訓(xùn)練時間和預(yù)測準(zhǔn)度上具有非常大的優(yōu)勢。
3 結(jié)束語
本文使用Caffe深度學(xué)習(xí)框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例,構(gòu)建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標(biāo)貓圖像進(jìn)行預(yù)測,并和傳統(tǒng)的圖像分類算法進(jìn)行對比,預(yù)測的準(zhǔn)確率有很大的提升。
參考文獻(xiàn):
[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網(wǎng)絡(luò)定位與可定位性[M]. 北京: 清華大學(xué)出版社, 2014.
[2] 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)[M]. 哈爾濱: 哈爾濱工程大學(xué)出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
篇2
【關(guān)鍵詞】人工智能 圖像識別 深度學(xué)習(xí)
1 概述
圖像識別技術(shù)是人工智能研究的一個重要分支,其是以圖像為基礎(chǔ),利用計算機(jī)對圖像進(jìn)行處理、分析和理解,以識別不同模式的對象的技術(shù)。目前圖像識別技術(shù)的應(yīng)用十分廣泛,在安全領(lǐng)域,有人臉識別,指紋識別等;在軍事領(lǐng)域,有地形勘察,飛行物識別等;在交通領(lǐng)域,有交通標(biāo)志識別、車牌號識別等。圖像識別技術(shù)的研究是更高級的圖像理解、機(jī)器人、無人駕駛等技術(shù)的重要基礎(chǔ)。
傳統(tǒng)圖像識別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計等步驟構(gòu)成。通過專家設(shè)計、提取出圖像特征,對圖像M行識別、分類。近年來深度學(xué)習(xí)的發(fā)展,大大提高了圖像識別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識(特征),自動完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識別技術(shù)
傳統(tǒng)的圖像識別技術(shù)包括:圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后,需要先對圖像進(jìn)行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像,如果每個像素的像素值用一個字節(jié)表示,灰度值級數(shù)就等于256級,每個像素可以是0~255之間的任何一個整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲空間。通常我們需要將圖片的亮度及對比度調(diào)整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對圖片的噪聲進(jìn)行消除。對圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時候,我們需要對圖像細(xì)化處理(如指紋細(xì)化,字符細(xì)化等),以便獲取主要信息,減少無關(guān)信息。細(xì)化操作,可以得到由單像素點(diǎn)組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點(diǎn)等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點(diǎn)。另一類在頻域中進(jìn)行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預(yù)處理和特征提取之后,我們便能夠?qū)D像進(jìn)行識別、分類。常用的分類器有K-近鄰(KNN),支持向量機(jī)(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等等。K-近鄰算法原理是,當(dāng)一個樣本的k個最相鄰的樣本中大部分屬于某一類別時,該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機(jī)是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學(xué)習(xí)的圖像識別技術(shù)
一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機(jī)制來分析樣本,并盡可能地對樣本的特征進(jìn)行更深度的學(xué)習(xí)。以圖片為例,利用深度學(xué)習(xí)技術(shù)對樣本的特征進(jìn)行學(xué)習(xí)時,由低層特征到高層特征越來越抽象,越來越能表達(dá)語義概念。當(dāng)樣本輸入后,首先對圖像進(jìn)行卷積與下采樣操作,卷積和下采樣操作是為了進(jìn)行特征提取和選擇。以原始像素作為輸入,深度學(xué)習(xí)技術(shù)可以自動學(xué)習(xí)得到較好的特征提取器(卷積參數(shù))。深度學(xué)習(xí)的訓(xùn)練過程,首先將當(dāng)前層的輸出作為下一層的輸入,進(jìn)行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時優(yōu)化所有層,目標(biāo)是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)太過龐大,難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò),以權(quán)值共享的方式減少了節(jié)點(diǎn)數(shù)量,從而能夠加深學(xué)習(xí)的深度,使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征,從而提高識別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識別技術(shù)相比,深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢:
(1)無需人工設(shè)計特征,系統(tǒng)可以自行學(xué)習(xí)歸納出特征。
(2)識別準(zhǔn)確度高,深度學(xué)習(xí)在圖像識別方面的錯誤率已經(jīng)低于人類平均水平,在可預(yù)見的將來,計算機(jī)將大量代替人力進(jìn)行與圖像識別技術(shù)有關(guān)的活動。
(3)使用簡單,易于工業(yè)化,深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識,能夠快速實現(xiàn)并商業(yè)化,國內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識別的Face++、研究無人車的馭勢科技等。
4 存在問題與未來展望
雖然深度學(xué)習(xí)具備諸多優(yōu)點(diǎn),但目前來看深度學(xué)習(xí)仍有許多不足之處。首先,由于深度學(xué)習(xí)模型為非凸函數(shù),對其的理論研究十分困難,缺乏理論保證。在對數(shù)據(jù)進(jìn)行調(diào)整時,仍是簡單的“試錯”,缺少理論支撐。
同時,由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計算資源。對一個新概念的學(xué)習(xí),往往需要數(shù)百個甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價太大時,深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU,這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢,往往需要幾天甚至一個月。其模型擴(kuò)展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程,與環(huán)境缺乏交互。
對其的解決方案目前主要有兩點(diǎn):
(1)針對于模型擴(kuò)展性差的問題,通過引入遷移學(xué)習(xí),研究不同任務(wù)或數(shù)據(jù)之間的知識遷移,提高模型的擴(kuò)展能力、學(xué)習(xí)速度,同時降低學(xué)習(xí)成本,便于冷啟動。
(2)與強(qiáng)化學(xué)習(xí)結(jié)合,研究在動態(tài)環(huán)境下進(jìn)行深度學(xué)習(xí),提高深度學(xué)習(xí)與環(huán)境交互的能力。
參考文獻(xiàn)
[1]蔣樹強(qiáng),閔巍慶,王樹徽.面向智能交互的圖像識別技術(shù)綜述與展望[J].計算機(jī)研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報,2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強(qiáng)算法[J].計算機(jī)科學(xué),2016.
[4]孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計算機(jī)應(yīng)用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報,2015:26-39.
[6]高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動化學(xué)報,2004:86-100.
篇3
P鍵詞關(guān)鍵詞:視網(wǎng)膜;PCNN;血管分割;MATLAB;GUIDE
DOIDOI:10.11907/rjdk.161883
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)008-0068-03
0 引言
眼睛是人體接受外界信息最主要的器官,約75%左右的信息來源于視覺信息。因此,眼睛健康與否對人的學(xué)習(xí)、生活和工作的影響非常大。而眼底則是這個器官的重要組成部分,主要包括視網(wǎng)膜、脈絡(luò)膜、黃斑和視盤等。眼底視網(wǎng)膜中的血管是人體內(nèi)唯一可以非創(chuàng)傷的方式直接觀察到的較深層微血管,其顏色、亮度、位置分布、形狀以及曲率等變化可以直接反映出疾病對血管網(wǎng)絡(luò)形態(tài)結(jié)構(gòu)的影響,是心腦血管疾病對血管微循環(huán)檢查的重要部位。因此,視網(wǎng)膜圖像中血管網(wǎng)絡(luò)的檢測與分割對心腦血管疾病的診斷及治療具有重要意義[1]。
由于該方法計算公式復(fù)雜,涉及參數(shù)較多,且目前主要使用編寫腳本程序的方式進(jìn)行視網(wǎng)膜眼底圖像中的血管分割,各個參數(shù)的調(diào)整都要在腳本程序中進(jìn)行,非常復(fù)雜,不便于可視化地觀察實驗結(jié)果變化。因此,設(shè)計開發(fā)一款界面友好、操作簡單的視網(wǎng)膜血管分割系統(tǒng)是非常必要的。
MATLAB是一款由Mathworks公司推出的數(shù)學(xué)軟件,它在數(shù)值分析、矩陣運(yùn)算、數(shù)值擬合以及圖形繪制等方面均有極其強(qiáng)大的功能,已被廣泛應(yīng)用于數(shù)字圖像處理、信號處理和系統(tǒng)仿真等各個領(lǐng)域。同時,MATLAB 軟件具有界面友好、操作簡單的圖形可視化界面設(shè)計工具,其集成圖形用戶界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜單、對話框、按鈕和文本等各種控件[2]。用戶通過對控件進(jìn)行布局,編寫控件的回調(diào)函數(shù)即可實現(xiàn)GUI 與用戶之間的交互,操作十分方便。
本系統(tǒng)在對視網(wǎng)膜眼底圖像中的血管進(jìn)行預(yù)處理并運(yùn)用脈沖耦合神經(jīng)網(wǎng)絡(luò)(Pulse Coupled Neural Network,PCNN)迭代原理分割的基礎(chǔ)上,利用MATLAB 的圖形用戶界面開發(fā)環(huán)境(GUIDE)實現(xiàn)了視網(wǎng)膜血管分割系統(tǒng)。該系統(tǒng)為醫(yī)學(xué)圖像研究提供了一種有效的視網(wǎng)膜血管分割方法,也為醫(yī)學(xué)圖像處理提供了一個操作方便的實驗平臺。
1 研究方法
首先是對視網(wǎng)膜眼底圖像中的血管進(jìn)行預(yù)處理,然后利用PCNN方法對視網(wǎng)膜圖像中的血管進(jìn)行分割。
1.1 視網(wǎng)膜血管圖像預(yù)處理
所處理的視網(wǎng)膜圖像為眼底視網(wǎng)膜RGB彩色圖像,通過將RGB 彩色圖像分解成紅、綠、藍(lán)三通道單色圖像可以發(fā)現(xiàn),綠色通道的視網(wǎng)膜圖像中血管和背景對比度最高, 而紅、藍(lán)色通道的單色圖像中噪聲較多、對比度較低, 因此采用綠色通道的視網(wǎng)膜圖像進(jìn)行處理。
由于視網(wǎng)膜眼底圖像是由專門的醫(yī)學(xué)設(shè)備采集的,血管周圍區(qū)域難免會對后續(xù)處理產(chǎn)生干擾,因此需要對視網(wǎng)膜圖像進(jìn)行有效區(qū)域的選取。將RGB圖像進(jìn)行二值化處理,使其歸一化到[0,1]之間,再依次應(yīng)用形態(tài)學(xué)中的開運(yùn)算、閉運(yùn)算和腐蝕操作,生成二值掩膜圖像。
由于血管直徑大小不一、背景干擾以及成像時光照不均等因素影響,使得血管與背景的對比度較低。為獲得理想的分割效果,要對眼底圖像進(jìn)行預(yù)處理,以增強(qiáng)血管和背景的對比度。本系統(tǒng)主要采用對比度受限制的自適應(yīng)直方圖均衡化(CLAHE)[3]與二維高斯匹配濾波[4]方法對視網(wǎng)膜血管進(jìn)行對比度的增強(qiáng)。
直方圖均衡化(HE)的基本思想是通過圖像的灰度分布直方圖確定一條映射曲線,用來對圖像進(jìn)行灰度變換,以達(dá)到提高圖像對比度的目的。然而HE是對圖像全局進(jìn)行調(diào)整的方法,不能有效提高局部對比度。為了提高圖像的局部對比度,有研究者提出自適應(yīng)直方圖均衡化(AHE)方法,將圖像分成若干子塊,對子塊進(jìn)行HE處理。但是AHE 對局部對比度提高過大,將導(dǎo)致圖像失真。為了解決這個問題,必須對局部對比度進(jìn)行限制,這便是CLAHE方法。CLAHE處理后的圖像既能體現(xiàn)不同位置灰度分布之間的差異,又能使全局灰度較為協(xié)調(diào)。
二維高斯匹配濾波的原理主要是根據(jù)血管曲率較小且寬度漸進(jìn)改變這一特點(diǎn),將血管近似分段為等寬度的線段,然后用高斯曲線模擬其橫截面的灰度輪廓。由于血管方向具有任意性,因此需要旋轉(zhuǎn)高斯曲線來匹配不同方向的血管。每30°旋轉(zhuǎn)一次,得到從0°~180°的6個匹配濾波器,再分別與經(jīng)過CLAHE處理后的圖像進(jìn)行卷積,選擇其中最大的卷積值作為增強(qiáng)圖像的像素值。
最后,將經(jīng)過CLAHE處理之后的圖像減去經(jīng)過CLAHE、二維高斯匹配濾波后的圖像,即可得到最終的預(yù)處理結(jié)果。
1.2 基于PCNN的視網(wǎng)膜血管分割
脈沖耦合神經(jīng)網(wǎng)絡(luò) (PCNN ,Pulse Coupled Neutral Network)[5]是20世紀(jì)90年代形成和發(fā)展的與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)有著根本不同的新型神經(jīng)網(wǎng)絡(luò),其模型直接來源于高級哺乳動物的視覺神經(jīng)系統(tǒng),具有現(xiàn)實的生物學(xué)依據(jù),在圖像處理與分析及計算機(jī)視覺領(lǐng)域中有著廣泛應(yīng)用。它不僅能夠克服微小變化造成的影響,而且能夠較完整地保留圖像的區(qū)域信息。因此,使用PCNN進(jìn)行視網(wǎng)膜血管圖像分割具有一定優(yōu)勢。
本系統(tǒng)采用PCNN簡化模型對視網(wǎng)膜圖像血管自動分割,該模型不僅保持了原始模型的重要特性,而且減少了部分參數(shù)。用迭代公式可以描述為:
式中,Sij是外部刺激,即點(diǎn)(i,j)對應(yīng)像素的灰度值,F(xiàn)ij是神經(jīng)元的輸入項,Lij、Uij、Yij、Eij分別是神經(jīng)元的耦合連接輸入、內(nèi)部活動項、脈沖輸出和動態(tài)閾值。VL為連接輸入域的放大系數(shù),β為神經(jīng)元之間的連接強(qiáng)度系數(shù),VE和αE分別為動態(tài)閾值的放大系數(shù)和衰減常數(shù)因子,W為連接加權(quán)系數(shù)矩陣。PCNN應(yīng)用于眼底圖像處理時,其神經(jīng)元數(shù)目與圖像像素數(shù)目一致,各神元與像素一一對應(yīng),像素的灰度值作為對應(yīng)神經(jīng)元的輸入Sij。當(dāng)連接加權(quán)系數(shù)矩陣W所在鄰域內(nèi)有相似灰度值像素時,若其中某個神經(jīng)元點(diǎn)火產(chǎn)生脈沖輸出,會引起鄰域內(nèi)相近灰度值像素對應(yīng)的神經(jīng)元點(diǎn)火,產(chǎn)生脈沖序列輸出,這些輸出脈沖序列構(gòu)成的二值圖像Y即為輸出的分割圖像。
2 系統(tǒng)設(shè)計思路及方法
根據(jù)上述分割過程,將系統(tǒng)設(shè)計成兩大模塊,分別對應(yīng)于兩個界面,主界面為視網(wǎng)膜圖像預(yù)處理模塊,子界面為視網(wǎng)膜血管分割模塊。通過使用MATLAB GUIDE中的控件進(jìn)行布局和編寫相應(yīng)的回調(diào)函數(shù)來實現(xiàn)各模塊功能。
利用MATLAB GUI實現(xiàn)視網(wǎng)膜血管分割系統(tǒng)的過程可以分為GUI 圖形界面布局和GUI 程序?qū)崿F(xiàn)兩部分[6]。對于界面布局,首先要考慮窗口大小、控件位置以及界面所要實現(xiàn)的功能及各控件需要完成的任務(wù)。完成控件的布局之后,接著應(yīng)對控件屬性進(jìn)行設(shè)置,通過在相應(yīng)的控件上雙擊鼠標(biāo)左鍵,打開屬性查看器,設(shè)置該控件屬性。最后需要對各個控件進(jìn)行回調(diào)函數(shù)的編寫,這是界面設(shè)計的關(guān)鍵一步,直接影響界面各個功能的實現(xiàn)。
3 系統(tǒng)功能實現(xiàn)
3.1 視網(wǎng)膜圖像預(yù)處理模塊
視網(wǎng)膜圖像預(yù)處理模塊包括選擇圖片、選擇RGB通道、CLAHE增強(qiáng)處理、二維高斯匹配濾波處理以及最終預(yù)處理結(jié)果5個子模塊,如圖1所示。
具體操作如下:界面初始化后自動加載一幅默認(rèn)圖片,也可以由用戶選擇其它圖片;單擊“選擇圖片”按鈕,之后會彈出一個對話框,選擇要載入的圖片,可以看到圖片顯示在界面的左上角,文件名顯示在圖片正下方;然后選擇彩色通道,默認(rèn)為綠色通道,選擇的通道圖像顯示在右邊區(qū)域左上角。如果勾選 “生成掩膜”選項,則后面的運(yùn)行結(jié)果均會顯示出單擊“生成掩膜”之后的圖像,默認(rèn)狀態(tài)為未勾選;接下來需要進(jìn)行CLAHE處理,以增強(qiáng)圖像對比度。在這里,主要是對adapthisteq函數(shù)中的參數(shù)進(jìn)行設(shè)置;最后單擊“運(yùn)行”按鈕,結(jié)果顯示在右邊區(qū)域的右上角。在進(jìn)行CLAHE處理之后,需要進(jìn)行二維高斯匹配濾波處理,主要是對濾波核個數(shù)、血管半徑及血管段長度進(jìn)行設(shè)置,以進(jìn)一步增強(qiáng)血管與背景的對比度;然后單擊“運(yùn)行”按鈕,結(jié)果顯示在右邊區(qū)域的左下角;單擊“最終預(yù)處理結(jié)果”按鈕,結(jié)果顯示在右邊區(qū)域的右下角。
3.2 視網(wǎng)膜血管分割模塊
視網(wǎng)膜血管圖像分割模塊主要是根據(jù)PCNN算法迭代原理,調(diào)節(jié)PCNN各個參數(shù),對視網(wǎng)膜血管圖像進(jìn)行分割,如圖2所示。
具體操作如下:單擊主界面中的“PCNN分割”按鈕,即可進(jìn)入視網(wǎng)膜血管分割模塊的界面;接著選擇所需PCNN模型和核,并設(shè)置核的半徑大小。若選擇“原始模型”,則需要設(shè)置PCNN的6個參數(shù),若選擇“改進(jìn)模型”,則只需設(shè)置PCNN的4個參數(shù);之后設(shè)置迭代次數(shù)和beta的值,單擊“運(yùn)行”按鈕,在彈出的對話框中,選擇一幅迭代圖片,將自動生成分割結(jié)果;對于分割后的結(jié)果,單擊“保存”按鈕,可以保存圖片;最后單擊“返回”按鈕,可以返回主界面。
4 結(jié)語
基于MATLAB 軟件在圖形繪制、數(shù)值運(yùn)算及可視化界面開發(fā)等方面的優(yōu)勢,在對視網(wǎng)膜眼底圖像中的血管預(yù)處理并運(yùn)用PCNN算法迭代原理進(jìn)行分割的基礎(chǔ)上,通過MATLAB GUI 設(shè)計完成了視網(wǎng)膜血管分割系統(tǒng),可以實現(xiàn)視網(wǎng)膜血管圖像的增強(qiáng)處理,進(jìn)而利用脈沖耦合神經(jīng)網(wǎng)絡(luò)方法對視網(wǎng)膜血管圖像進(jìn)行分割。本系統(tǒng)提供了一種有效的視網(wǎng)膜血管分割方法,在醫(yī)學(xué)圖像研究方面具有一定參考價值。同時,系統(tǒng)具有界面友好、操作簡單等特點(diǎn),為醫(yī)學(xué)圖像處理提供了一個操作方便的實驗平臺。
參考文獻(xiàn):
[1] 姚暢,陳后金,李居朋. 基于過渡區(qū)提取的視網(wǎng)膜血管分割方法[J].電子學(xué)報,2008,36(5):974-978.
[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序設(shè)計[J]. 電腦知識與技術(shù),2009,27(5):7767-7768.
[3] 陳萌夢,熊興良,張琰,等. 1種視網(wǎng)膜眼底圖像增強(qiáng)的新方法[J]. 重慶醫(yī)科大學(xué)學(xué)報,2014,39(8):1087-1090.
[4] 姚暢,陳后金. 一種新的視網(wǎng)膜血管網(wǎng)絡(luò)自動分割方法[J].光電子?激光,2009,20(2):274-278.
篇4
關(guān)鍵詞:化學(xué)計量學(xué) 分析化學(xué) 人工神經(jīng)網(wǎng)絡(luò)
化學(xué)計算學(xué)作為化學(xué)的分支學(xué)科,起步較晚,在涉及內(nèi)容上又比較廣闊,涉及到數(shù)學(xué)、統(tǒng)計學(xué)及計算機(jī)應(yīng)用技術(shù)等相關(guān)學(xué)科,可以說是一門交叉性的學(xué)科。正是因為科學(xué)技術(shù)的發(fā)展及多學(xué)科相互滲透的作用才誕生了化學(xué)計量學(xué)這門獨(dú)特的學(xué)科。涵蓋于化學(xué)測量的整個過程,采樣理論、實驗設(shè)計、選擇與優(yōu)化、變量處理及數(shù)據(jù)分析斗屬于化學(xué)計量學(xué)?;瘜W(xué)計量學(xué)擔(dān)負(fù)的主要任務(wù)是進(jìn)行化學(xué)測量數(shù)據(jù)的分析與處理,進(jìn)行測量程序與實驗方法的最佳選擇,最早由瑞典化學(xué)家提出,一直沿用至今。正是因為化學(xué)計量學(xué)的巨大作用,解決了傳統(tǒng)化學(xué)研究中不能攻破的難題,成為化學(xué)研究的新方向與關(guān)注點(diǎn)。
一、化學(xué)計量學(xué)對于化學(xué)測量的應(yīng)用分析
在化學(xué)研究中,需要將化學(xué)計量學(xué)滲透于化學(xué)測量的全過程。在上世紀(jì)五十年代以來,新的化學(xué)儀器分析方法已經(jīng)被充分的引入到分析化學(xué)中,分析測試工作已經(jīng)逐步實現(xiàn)了儀器化、自動化與初步的計算機(jī)化,這些技術(shù)的深入應(yīng)用,為化學(xué)分析提供了可靠的測量數(shù)據(jù),但是將這些分析儀器的優(yōu)點(diǎn)結(jié)合起來,將雜亂無章的數(shù)據(jù)信息進(jìn)行重新排列組合,最大限度的解決信息的篩選,成為化學(xué)研究工作者當(dāng)前面臨的最大難題。
化學(xué)計量學(xué)在解決這一問題中發(fā)揮了重大作用。將分析分離技術(shù)集于一體,通過特定的高維儀器產(chǎn)生分析信號,利用新型的分析信號多元校正及有效分辨方法進(jìn)行復(fù)雜多組分的體系定性,進(jìn)行定量解析。利用這種化學(xué)計量學(xué)的方法可以對巨大的數(shù)據(jù)信息進(jìn)行有效的篩選,從而提取最有用的信息,對這些有用信息進(jìn)行分析,實現(xiàn)了單純的“數(shù)據(jù)提供者”到“問題解決者”的角色轉(zhuǎn)變。化學(xué)計量法對于化學(xué)測量產(chǎn)生的影響是深遠(yuǎn)且巨大的?;瘜W(xué)計量法應(yīng)該貫穿于化學(xué)測量的全過程。
二、當(dāng)前化學(xué)計量學(xué)在分析化學(xué)中的應(yīng)用分析
(一)化學(xué)計量學(xué)在化學(xué)定量構(gòu)效關(guān)系中的應(yīng)用分析
化學(xué)定量構(gòu)效關(guān)系研究是化學(xué)學(xué)科的根本性研究問題,結(jié)合物質(zhì)的化學(xué)成分與基本的結(jié)構(gòu)進(jìn)行化學(xué)性質(zhì)的測定,是我國目前化學(xué)理論研究中的重要目標(biāo)。在進(jìn)行研究時一般采用圖論與數(shù)值的方法進(jìn)行各種化合物的表征,將所獲取的計算結(jié)果與實際的被測量化學(xué)物的物理、化學(xué)及生物特性結(jié)合起來,用比較明確的定量關(guān)系來代替含糊的定性描述。目前化學(xué)計量學(xué)在進(jìn)行分析化學(xué)研究時引入了全局最優(yōu)算法,在利用誤差反向傳播的多層次感知模型進(jìn)行苯酚衍生物的活性測驗時取得了明顯的研究效果,較之先前的研究方法,改進(jìn)是十分明顯的。
(二)化學(xué)計量學(xué)中模式識別方法在分析化學(xué)中的應(yīng)用
化學(xué)計量學(xué)中的模式識別法是根據(jù)化學(xué)測量數(shù)據(jù)矩陣,對樣本集通過樣本性質(zhì)進(jìn)行分類進(jìn)行選取的方法。根據(jù)測量在多維模式空間中的相對位置不同,用線性判斷識別分析法、最鄰近法等進(jìn)行模式的識別。模式識別法的研究能夠為決策及過程優(yōu)化提供最有實用價值的信息資料。我國石油化工行業(yè)、材料化學(xué)研究領(lǐng)域都基于該思想破解了很多研發(fā)難題。其中K―最鄰近法從伏安波匯總對重疊的伏安響應(yīng)信號進(jìn)行區(qū)分,將K―最鄰近法用于電位階伏安波及毛細(xì)管曲線分類中,實現(xiàn)了對有機(jī)化合物構(gòu)效關(guān)系的有效表征。二SMCA法最廣泛的應(yīng)用就是食品的鑒定。
(三)化學(xué)計量學(xué)的人工神經(jīng)網(wǎng)絡(luò)應(yīng)用分析
除了我們上面提到的應(yīng)用,化學(xué)計量學(xué)在神經(jīng)網(wǎng)絡(luò)應(yīng)用方面也發(fā)揮了積極的作用。所謂的人工神經(jīng)網(wǎng)絡(luò)是基于現(xiàn)代生物學(xué)的對人腦組織進(jìn)行研究而提出的,利用大量的簡單的處理單元進(jìn)行充分連接,從而形成的巨大的復(fù)雜的網(wǎng)絡(luò)體系,主要是用來模擬人的大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)域的一定神經(jīng)行為。人工神經(jīng)網(wǎng)絡(luò)可以對數(shù)據(jù)模式進(jìn)行合理的解析與分類,對于原因與結(jié)果關(guān)系不確定的非線性測量數(shù)據(jù)有著獨(dú)特的應(yīng)用。分析化學(xué)的不確定性很多,借助于化學(xué)計量學(xué)的人工神經(jīng)網(wǎng)絡(luò)得到了有效的應(yīng)用解決。從目前神經(jīng)網(wǎng)絡(luò)的應(yīng)用情況來看,在譜圖分析、藥物分子藥效的預(yù)測及蛋白質(zhì)結(jié)構(gòu)的預(yù)測方面都取得了不錯的成績。此外,在分析化學(xué)中應(yīng)用比較廣泛的還有遺傳算法,遺傳算法可以進(jìn)行多組分分析波長選擇、數(shù)據(jù)校正優(yōu)化、核磁共振脈沖波形選擇等。人工神經(jīng)網(wǎng)絡(luò)還進(jìn)一步促進(jìn)了儀器聯(lián)機(jī)與實驗的自動化。在生產(chǎn)方面起到了重要的指導(dǎo)作用。
(四)化學(xué)計量法波普化學(xué)的應(yīng)用分析
目前在化學(xué)研究中,化學(xué)家們一直努力的目標(biāo)主要是波普數(shù)據(jù)庫的有效利用。波普數(shù)據(jù)庫的質(zhì)譜、核磁共振譜、色譜等復(fù)雜分析體系的快速定性定量分析都是當(dāng)前研究的重點(diǎn)?;瘜W(xué)計量學(xué)為這方面的研究提供了新的突破口。各種濾波、平滑、交換、卷積技術(shù)的應(yīng)用,促進(jìn)了分析化學(xué)的發(fā)展。可以直接提供不可分離的直接地測定相互干擾的共存性物種,對于完全未知的混合物也可以實現(xiàn)準(zhǔn)確的測定。
(五)化學(xué)計量法的多元校正分析應(yīng)用
我國化學(xué)的多元化分析成為今后化學(xué)研究的大趨勢,不僅在研究目標(biāo)上體現(xiàn)出多元化,對于研究對象也呈現(xiàn)出多元化的特性。這對于化學(xué)研究工作者是不小的挑戰(zhàn)。要求化學(xué)工作者能夠快速、準(zhǔn)確的定位與定量,從而得出分析結(jié)果。在這樣的背景下,多元校正法應(yīng)用而生,其產(chǎn)生為現(xiàn)代分析儀器提供了大量的測量數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行了解析,可以說多元校正法是新型的數(shù)學(xué)統(tǒng)計方法。多元校正法在多個方面進(jìn)行了研究優(yōu)化,靈敏度、檢測度、精密度等都對指標(biāo)進(jìn)行了優(yōu)化,在對這些指標(biāo)優(yōu)化后,大大擴(kuò)展了分析儀器的功能與方法的有效及實用性。正是因為正交設(shè)計、均勻性設(shè)計分析、板因式設(shè)計分析等多種實驗設(shè)計優(yōu)化方法的相互協(xié)調(diào),對分析選擇性進(jìn)行了改善,在一定程度上拓寬了其化學(xué)計量法多元校正的應(yīng)用領(lǐng)域。
三、結(jié)束語:
化學(xué)計量學(xué)從產(chǎn)生到現(xiàn)在大約只有30多年的歷史,但是在短短的幾十年內(nèi),其應(yīng)用不斷得到普及,其應(yīng)用效果不斷得到化學(xué)行業(yè)的肯定。將來,化學(xué)計量學(xué)將依然是令人關(guān)注的問題,有著廣闊而光明的前景。化學(xué)計量學(xué)不斷發(fā)展,將對儀器的智能化分析提供新的研究理論與方法途徑,為高維聯(lián)用儀器的發(fā)展提供新的突破口與改進(jìn)點(diǎn)。通過本文對化學(xué)計量學(xué)在分析化學(xué)中的應(yīng)用分析,我們在看到化學(xué)計量學(xué)優(yōu)勢作用的同時,更應(yīng)該看到其發(fā)展中的不足,針對這些不足進(jìn)行研究分析,在進(jìn)行多次驗證的基礎(chǔ)上尋找新的解決途徑,完善這些不足,為化學(xué)計量學(xué)的發(fā)展提供更加廣闊的發(fā)展空間。在分析化學(xué)發(fā)展領(lǐng)域,增強(qiáng)對化學(xué)計量學(xué)的引入是今后化學(xué)研究發(fā)展的一個大方向。
參考文獻(xiàn)
[1]黃丹.淺談化學(xué)計量學(xué)在分析化學(xué)中的應(yīng)用及發(fā)展前景[J].今日科苑.2009(08).
[2]周統(tǒng)武,蔡娟.化學(xué)計量學(xué)的學(xué)科現(xiàn)狀與發(fā)展方向[J].中國科技信息,2009(03).
[3]周南.關(guān)于“分析化學(xué)中的計量學(xué)與質(zhì)量保證”的國際研討會[J].理化檢驗(化學(xué)分冊),2007(03).
篇5
人工神經(jīng)網(wǎng)絡(luò)作為一種智能化的方法近年來在圖像數(shù)據(jù)壓縮領(lǐng)域得到了一定的研究與應(yīng)用[6]。基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)壓縮主要有2個步驟:①學(xué)習(xí)訓(xùn)練,將數(shù)據(jù)送入輸入層作為訓(xùn)練樣本,不斷調(diào)整各層間的連接權(quán)值,從而使得網(wǎng)絡(luò)的輸出均方差達(dá)到最??;②壓縮編碼,將數(shù)據(jù)輸入到訓(xùn)練好的網(wǎng)絡(luò),壓縮后的數(shù)據(jù)通過隱含層輸出。DEM數(shù)據(jù)具有相關(guān)性和連續(xù)性的特點(diǎn),即DEM數(shù)據(jù)反映的是地形連續(xù)變化的特征,高程劇烈變化的部分是少有的并且DEM網(wǎng)格中某一點(diǎn)的高程值可以通過鄰域值用非線性函數(shù)表示,這實質(zhì)上非線性函數(shù)逼近或地形曲面擬合的過程?;谝陨咸攸c(diǎn),學(xué)者們將人工神經(jīng)網(wǎng)絡(luò)引入到DEM數(shù)據(jù)壓縮領(lǐng)域,馮琦等[7]采用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)DEM數(shù)據(jù)壓縮,該研究特色在于:①采用L-M訓(xùn)練算法提高單隱層網(wǎng)絡(luò)(SHLN)運(yùn)算速率[8-9];②基于DEM數(shù)據(jù)相關(guān)性特點(diǎn)設(shè)置相對誤差精度指標(biāo)實現(xiàn)對最優(yōu)BP訓(xùn)練網(wǎng)絡(luò)的選取,在減少結(jié)點(diǎn)數(shù)的同時獲得較高的壓縮比;③該方法解壓過程對于計算機(jī)硬件依賴性不高,能夠進(jìn)行數(shù)據(jù)的離線壓縮處理。根據(jù)DEM數(shù)據(jù)的連續(xù)性特征,趙鴻森等[10]提出了一種基于RBF神經(jīng)網(wǎng)絡(luò)的壓縮方法,該方法將山脊線、山谷線等地形特征作為樣本點(diǎn)訓(xùn)練集,能夠根據(jù)地形特征自適應(yīng)確定網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)權(quán)值是通過網(wǎng)格點(diǎn)高程值獲得,可獲得較高的壓縮比。
基于小波變換的DEM數(shù)據(jù)壓縮
1.基于DWT的DEM數(shù)據(jù)壓縮
DWT(DiscreteWaveletTransform)適合于處理各種冗余度低、相關(guān)性低的非平穩(wěn)信號的壓縮處理,對于不穩(wěn)定、相關(guān)性差的DEM數(shù)據(jù)壓縮具有較好的效果。DWT對于信號的壓縮是基于其他具有多分辨率分析(MRA)這一特性,即根據(jù)Mallat算法[11]原始信號能夠被逐級分解為高頻和低頻信號,由于高頻分解信號含有絕大都數(shù)信息并且幅值小,通過設(shè)定一定的比例將最小幅值的分解系數(shù)置為0,再通過小波系數(shù)重構(gòu)達(dá)到信號壓縮的目的。經(jīng)過理論分析,原始信號經(jīng)過DWT,重構(gòu)信號與原始信號具有高度的一致性。事實上重構(gòu)信號與原始信號的差別往往不可忽略,特別是對于DME數(shù)據(jù)的壓縮,壓縮后數(shù)據(jù)相對于原始數(shù)據(jù)而言存在著嚴(yán)重的邊界畸變、失真等問題,必須加以解決。針對這一問題,CHANG[12]等將二維離散小波變換的邊界問題轉(zhuǎn)變?yōu)橐痪S離散小波變換來進(jìn)行處理,研究結(jié)果表明該方法大大減小了邊界失真區(qū)域,在提高壓縮比的同時DEM重建數(shù)據(jù)精度也得以提高。
2.基于IWT的DEM數(shù)據(jù)壓縮
DWT是通過將信號分解系數(shù)直接置0的方式來進(jìn)行壓縮處理,重構(gòu)信號與原始信號不可避免地出現(xiàn)誤差,而基于IWT(IntegerWaveletTransform)信號壓縮,由于小波分解系數(shù)通過有限精度數(shù)(FinitePrecisionNumber)來進(jìn)行精確描述,因而適合于對信號進(jìn)行無損壓縮處理[13]。基于IWT的數(shù)據(jù)壓縮具有以下特點(diǎn):①壓縮處理很大程度上依賴于多相矩陣因式分解的選擇,而因式分解能否對壓縮后圖像給定一個適當(dāng)?shù)恼`差尺度,取決于圖形迭代函數(shù);②IWT采用提升方案,并且均為整數(shù)運(yùn)算,數(shù)據(jù)處理的速率得以提高;③IWT完全可逆,既可以實現(xiàn)有損編碼也可以實現(xiàn)無損編碼。陳仁喜等[14]將整形小波變換用于DEM數(shù)據(jù)壓縮處理,該方法首先將經(jīng)過預(yù)處理的DEM數(shù)據(jù)進(jìn)行整形小波變換,然后對變換系數(shù)進(jìn)行閾值化處理,最后進(jìn)行量化編碼。該方法最大特點(diǎn)是實現(xiàn)了數(shù)據(jù)壓縮比和質(zhì)量以及數(shù)據(jù)質(zhì)量和傳輸速度的很好折中,具體為:①量化方法基于SPIHT算法平面?zhèn)魉退枷耄匾畔⒅饕杏诟呶?,將小波變換后的系數(shù)直接去掉后面的n個平面位,該方法在保證數(shù)據(jù)壓縮質(zhì)量的同時提高了壓縮比;②采用基于位平面掃描的算法對量化后的數(shù)據(jù)進(jìn)行壓縮編碼,這使得壓縮后的數(shù)據(jù)具有質(zhì)量漸進(jìn)傳輸特性;③小波變換后各子帶分別進(jìn)行編碼,在解碼過程中可以不對高頻子帶解碼,得到的恢復(fù)數(shù)據(jù)分辨率較低,這有利于對大型DEM數(shù)據(jù)進(jìn)行快速檢索和瀏覽。
3.基于SPIHT小波編碼算法
EMZ(EmbeddedZerotreeWavelet)算法由Shaprio[15]于1993年提出,該算法包括嵌入式和零樹,在零樹結(jié)構(gòu)與逐次逼近量化方法(SAQ)相結(jié)合的基礎(chǔ)上實現(xiàn)嵌入式編碼。該算法能充分利用小波系數(shù)特點(diǎn)使得輸出的碼流具有嵌入的優(yōu)點(diǎn),因而在圖像處理[16-17]、生物醫(yī)學(xué)[18]等領(lǐng)域得到廣泛的應(yīng)用研究。但該算法也存在著如在相互獨(dú)立的零樹進(jìn)行編碼時浪費(fèi)大量字節(jié)等缺陷,研究者們也做了一些改進(jìn)[19]。在EMZ算法基礎(chǔ)上發(fā)展而來的SPIHT(SetPartitioninginHierarchicalTrees)[20]算法具有能夠在保證數(shù)據(jù)壓縮質(zhì)量的前提下提高壓縮比,能夠進(jìn)行優(yōu)化嵌入式編碼,均方根誤差和計算復(fù)雜度低等優(yōu)點(diǎn),并且數(shù)據(jù)壓縮后具有很好的漸進(jìn)傳輸特性,目前該算法在圖像壓縮領(lǐng)域得到廣泛應(yīng)用。地形特征是影響DEM壓縮質(zhì)量的一個重要因素,平坦地區(qū)數(shù)據(jù)冗余量大而山地地勢高低起伏,數(shù)據(jù)冗余則較小,但就現(xiàn)有的研究方法而言將這兩種地形采用同樣地壓縮比,壓縮結(jié)果不盡如人意,李毅等[21]提出了一種基于SPIHT小波的DEM自適應(yīng)壓縮方法,該方法特點(diǎn)在于:①考慮地形特征,根據(jù)地形的復(fù)雜度進(jìn)行分析以確定數(shù)據(jù)壓縮比,從而確保數(shù)據(jù)可視化質(zhì)量;②自適應(yīng)性編碼,通過才用表征不同尺度的小波高頻系數(shù)和地形尺度特征向量對地形復(fù)雜度進(jìn)行評估,根據(jù)評估結(jié)果自適應(yīng)調(diào)節(jié)編碼算法。但該研究中數(shù)據(jù)壓縮比是根據(jù)地形視覺效果選擇,存在一定的經(jīng)驗性,在實際應(yīng)用中很難得到較為理想的壓縮比。
4.基于M進(jìn)制小波的DEM數(shù)據(jù)壓縮
多分辨率分析是傳統(tǒng)二進(jìn)制小波變換的基本特性,即能夠獲得信號在時間域和頻率域局部化特征,這有利于對圖像局部信息進(jìn)行有效地識別和分析。當(dāng)圖像經(jīng)過多層小波分解時,隨著分解層數(shù)的增加,圖像信息會出現(xiàn)不同程度的丟失,這成為二進(jìn)制小波變換的主要缺陷。在二進(jìn)制小波變換基礎(chǔ)上發(fā)展的M進(jìn)制小波變換具有如下特點(diǎn):①能夠?qū)D像信號進(jìn)行更加細(xì)致地分解,分解次數(shù)不受限制;②圖像信息更加集中,并能夠精確描述圖像的頻率分布;③圖像重構(gòu)具備較高的精度;④具有對圖像信號相對狹窄的高頻部分進(jìn)行放大處理和對圖像信號壓縮的特性,這克服了正交小波分解所存在的缺陷.DME由于具有海量化數(shù)據(jù),以及復(fù)雜的地形信息等特點(diǎn)一直是DEM數(shù)據(jù)壓縮的難點(diǎn),近年來研究者們將M進(jìn)制小波變換引入DME數(shù)據(jù)壓縮領(lǐng)域,王宇宙等[22]提出了一種基于多進(jìn)制小波變換的DEM數(shù)據(jù)壓縮方法,顧及DEM地形因素,將高頻和低頻信息分別進(jìn)行編碼處理是其主要特色,具體化為:①低頻系數(shù)采用差分映射編碼,這充分顧及地面變化的連續(xù)性以及大量數(shù)據(jù)冗余的情形,能夠?qū)Φ皖l信息進(jìn)行無損的壓縮編碼;②并未直接舍棄系數(shù)值較小的高頻小波系數(shù),而是通過自適應(yīng)對數(shù)量化表,對各個高頻小波系數(shù)子塊分別加以量化處理,能夠獲得較好的壓縮效果。但該方法不足之處在于:對數(shù)量化位數(shù)是根據(jù)壓縮率來進(jìn)行確定,而事實上壓縮率不能預(yù)先得知,從而量化位數(shù)也就無法精確得獲得,基于具體地形信息的DEM數(shù)據(jù)精確壓縮也就難以實現(xiàn)。多進(jìn)制小波函數(shù)和尺度函數(shù)的構(gòu)造是基于多進(jìn)制小波DEM數(shù)據(jù)壓縮的難點(diǎn)之一,對此呂??萚23]構(gòu)造了一種具有插值性質(zhì)的多進(jìn)制小波函數(shù)和尺度函數(shù),將DEM數(shù)據(jù)轉(zhuǎn)變?yōu)槎S圖像壓縮問題,能夠在保持地形特征基本不變的前提下提高壓縮比。但基于多進(jìn)制DEM數(shù)據(jù)壓縮本質(zhì)上是有損壓縮,細(xì)節(jié)信息的損失不可避免。#p#分頁標(biāo)題#e#
基于組合算法的DEM數(shù)據(jù)壓縮
1.SPHIT算法與小波變換相結(jié)合的DEM數(shù)據(jù)壓縮
整形小波變換(IWT)采用了提升方案(LS),避免了傳統(tǒng)小波的卷積運(yùn)算,并且計算過程完全在空間域進(jìn)行,計算復(fù)雜度明顯降低,便于硬件實現(xiàn)。因此,IWT能夠?qū)τ谌哂喽容^大的DEM數(shù)據(jù)進(jìn)行有效地去相關(guān)性處理,實現(xiàn)對DEM數(shù)據(jù)的無損或近似無損的壓縮。將IWT與新型編碼方法的代表——SPIHT算法有機(jī)結(jié)合,為DEM數(shù)據(jù)壓縮提供了一種有效方法。田繼輝等[24]提出一種能夠用于應(yīng)急三維GIS的DEM數(shù)據(jù)壓縮方法,該方法特點(diǎn)在于:①根據(jù)壓縮精度要求,實現(xiàn)DEM數(shù)據(jù)單位轉(zhuǎn)換;②對于每塊DEM數(shù)據(jù)均減去其最小值,在降低了小波變換級數(shù)的同時使得SPIHT編碼級數(shù)也得到降低;③通過設(shè)定一個小波系數(shù)閾值,將高于和低于該閾值的小波系數(shù),分別進(jìn)行SevenZip和SPIHT算法進(jìn)行處理;④選用Int5/3實現(xiàn)對DEM數(shù)據(jù)壓縮處理。該方法充分發(fā)揮IWT和SPIHT算法的優(yōu)勢,能夠顧及到地形平坦和起伏較大情形下的壓縮編碼,研究表明該方法取得了較好的壓縮效果,但對于DEM數(shù)據(jù)的邊界問題并未提及,仍需要進(jìn)一步加以研究。
2.基于小波變換與熵編碼相結(jié)合的DEM壓縮算法
該算法實現(xiàn)主要有3個步驟:①小波變換,即選擇恰當(dāng)?shù)男〔ɑ瘮?shù)對DEM數(shù)據(jù)進(jìn)行小波變換;②量化,經(jīng)過小波變換后數(shù)據(jù)相比原始數(shù)據(jù)而言更加集中,但其數(shù)量大小并未改變,必須采用一定的量化方法進(jìn)行數(shù)據(jù)量化;量化通常有矢量和標(biāo)量量化兩種方法;③編碼,通過將小波變換后的量化數(shù)據(jù)進(jìn)行編碼,將其轉(zhuǎn)化為字符流。就整個小波壓縮流程而言,數(shù)據(jù)經(jīng)過壓縮后邊界失真現(xiàn)象的克服,數(shù)據(jù)壓縮比的提高,以及在于量化和編碼方法的選擇是該壓縮算法的難點(diǎn)所在。DEM數(shù)據(jù)具有不穩(wěn)定、相關(guān)性差、信息熵高,并且DEM在平原地區(qū)具有較大的冗余,而在山區(qū)則冗余度較低等特點(diǎn),這使得數(shù)據(jù)壓縮比難以得到提高,常占強(qiáng)等[25]利用具有線性相位的雙正交小波變換與混合熵編碼相結(jié)合的方法對山區(qū)DEM數(shù)據(jù)進(jìn)行壓縮處理,具體來說:首先對DEM數(shù)據(jù)進(jìn)行小波變換,通過選取最大分解系數(shù)的1/6作為自適應(yīng)閾值并與硬閾值函數(shù)相結(jié)合,對小波分解后的高頻系數(shù)進(jìn)行處理,能夠使得大約95﹪小波系數(shù)為0;然后將高頻和低頻分解系數(shù)分別采用游程編碼和Huffman編碼;最后再次通過游程解碼和Huffman解碼進(jìn)行數(shù)據(jù)解壓。該研究充分發(fā)揮了小波變換與編碼方法各自的優(yōu)勢,在提高數(shù)據(jù)重建精度的同時獲得了較高的壓縮比,但小波閾值的選取局限于單一的情形,對多種情形的小波閾值的自適應(yīng)確定規(guī)則的研究仍有待于進(jìn)一步深入。
3.紋理優(yōu)化技術(shù)與其他方法相結(jié)合的DEM數(shù)據(jù)壓縮
紋理數(shù)據(jù)作為一種重要的場景數(shù)據(jù),在對三維DEM數(shù)據(jù)進(jìn)行渲染時一般存在兩個問題:①由于采用分辨率高而且顏色豐富的紋理,從而存消耗急劇增加;②無法有處理決紋理分辨率與視距之間的關(guān)系,即相機(jī)與圖的距離較近時,圖形分辨率較大,相機(jī)與圖形距離較大時,圖形分辨率較小。Mipmap(Multi-imagepyramidmap)技術(shù)能夠很好解決以上問題,該技術(shù)由Willams提出,并很快得到了廣泛的研究和應(yīng)用。從廣義角度上分析,DME數(shù)據(jù)壓縮、傳輸與顯示是一個有機(jī)整體,同屬于DEM數(shù)據(jù)壓縮范疇,即廣義DEM數(shù)據(jù)壓縮。楊曉東等[26]結(jié)合Mipmap紋理優(yōu)化技術(shù)與頂點(diǎn)法向量編碼方法對DEM數(shù)據(jù)進(jìn)行壓縮處理,該研究主要實現(xiàn)如下功能:①數(shù)據(jù)的漸進(jìn)傳輸和顯示:通過對DEM數(shù)據(jù)進(jìn)行小波變換,分別采用標(biāo)量量化器和EZW對小波系數(shù)進(jìn)行量化和編碼;②DEM數(shù)據(jù)優(yōu)化顯示,采用頂點(diǎn)法向量的計算和編碼方法并結(jié)合Mipmap紋理優(yōu)化技術(shù),能夠?qū)δP蛿?shù)據(jù)進(jìn)行光照效果的計算。該研究突破了將DEM數(shù)據(jù)的壓縮、傳輸以及優(yōu)化顯示有機(jī)結(jié)合,突破了現(xiàn)有的DEM數(shù)據(jù)壓縮的固有模式,為該領(lǐng)域提供了一個較好的研究思路。
4.基于判別規(guī)則(指標(biāo))的DEM數(shù)據(jù)壓縮
TIN由于采用不規(guī)則的空間分布高程采樣點(diǎn)描述地形,在數(shù)據(jù)結(jié)構(gòu)、三角網(wǎng)生成算法等方面相對于排列規(guī)則且結(jié)構(gòu)簡單的Grid數(shù)據(jù)而言,數(shù)據(jù)壓縮方面難度較大。通過預(yù)先定義某一判別規(guī)則(指標(biāo))來對數(shù)據(jù)量進(jìn)行適當(dāng)?shù)娜∩?,從而實現(xiàn)對DEM數(shù)據(jù)的壓縮,是實現(xiàn)DEM數(shù)據(jù)壓縮處理的一種有效方法。蔡先華等[27]提出DEM數(shù)據(jù)壓縮地形描述誤差(Ep)這一判別指標(biāo)來實現(xiàn)對DEM數(shù)據(jù)壓縮,該方法首先在充分考慮DEM高程采用點(diǎn)、地形描述以及數(shù)據(jù)壓縮等誤差相互影響的基礎(chǔ)上,確定數(shù)據(jù)壓縮誤差限值EP0;然后對不是TIN邊界的高程點(diǎn)產(chǎn)生的地形誤差Ep與所給限值進(jìn)行比較,剔除小于該值的高程點(diǎn),從而實現(xiàn)DEM數(shù)據(jù)的壓縮。三角網(wǎng)在地形起伏較大的情況下,相鄰法線向量之間夾角較大,而當(dāng)?shù)匦纹教箷r,相鄰法線向量近乎平行。劉春[28]等提出一種基于TIN的DEM數(shù)據(jù)壓縮方法,該方法將相鄰三角形法線間的夾角作為判別依據(jù),判別閾值步驟如下:①確定大概閾值T,采用該閾值進(jìn)行TIN壓縮;②計算DEM采樣點(diǎn)高程差的方差S;③將S與壓縮誤差允許值進(jìn)行比較,如果大于該值則適當(dāng)減少閾值T,并重新計算;反之則增大閾值T并重新計算直到滿足要求為止。該方法間接地顧及地形特征,并且閾值的選擇是根據(jù)所給點(diǎn)的壓縮誤差指標(biāo)進(jìn)行迭代選擇的,研究表明該方法對TIN數(shù)據(jù)壓縮較為有效,但對于特殊地面模型的壓縮處理仍有待于進(jìn)一步研究。
結(jié)束語
篇6
關(guān)鍵詞:深度學(xué)習(xí);目標(biāo)視覺檢測;應(yīng)用分析
隨著計算機(jī)的普及,目標(biāo)視覺檢測也在計算機(jī)的發(fā)展中逐漸被應(yīng)用。人們的生活越來越離不開計算機(jī)和電子設(shè)備,數(shù)據(jù)信息充斥著當(dāng)代人的生活。隨著人們生活質(zhì)量的提高對電子設(shè)備要求越來越高,越來越精準(zhǔn)。目標(biāo)檢測技術(shù)在人們的生活中,也發(fā)揮著很大的作用和價值。智能監(jiān)控、機(jī)器人、自動定位、人臉聚焦、航拍、衛(wèi)星等方面都應(yīng)用了目標(biāo)視覺檢測的技術(shù)。在高層視覺處理和任務(wù)分析中,目標(biāo)視覺檢測技術(shù)也是基礎(chǔ)。無論是分析行為、事件還是場景語義的理解都需要運(yùn)用到目標(biāo)視覺檢測技術(shù)。因此目標(biāo)視覺檢測在各個方面都發(fā)揮著重大的作用,本文就深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用和展望進(jìn)行探討。
一、深度學(xué)習(xí)在目標(biāo)視覺檢測中的進(jìn)展
深度學(xué)習(xí)最早出自于人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)把多層感知器作為學(xué)習(xí)結(jié)構(gòu),組合底層特征進(jìn)行高層的學(xué)習(xí)。作為機(jī)器研究的一個新領(lǐng)域,模仿人腦組建學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)可以逐步自主的學(xué)習(xí)。而目標(biāo)視覺檢測在近幾年出現(xiàn)了很多的問題,例如,類內(nèi)和類間存在差異。即使通過訓(xùn)練也很難包含所有類內(nèi)的特征描述模型。而且類內(nèi)和類間的差異大小不一樣這就給目標(biāo)視覺檢測的發(fā)展帶來很大的阻礙。在圖像采集的過程中,由于種種因素會導(dǎo)致目標(biāo)物體被遮擋,因此,視覺算法的魯棒性也需要進(jìn)行整改。語義理解也存在著差異,對仿生和類腦角算法有一定的難度。而計算機(jī)的復(fù)雜和自適應(yīng)性也比較高,需要設(shè)計高效的目標(biāo)視覺檢測技術(shù),為了確保目標(biāo)視覺檢測的精準(zhǔn)程度,還需要設(shè)計出自動更新視覺模型來提高模型在不同環(huán)境下的適應(yīng)能力。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)對于目標(biāo)視覺檢測有很大的用處,可以極大地解決目前目標(biāo)視覺檢測技術(shù)出現(xiàn)的問題。因此很多專家開始把深度學(xué)習(xí)融入到目標(biāo)視覺檢測的發(fā)展當(dāng)中,并進(jìn)行研究。
二、目標(biāo)視覺檢測的流程和順序
估計特定類型目標(biāo)是目標(biāo)視覺檢測的關(guān)鍵,目標(biāo)視覺檢測的流程大致分為三步,區(qū)域建議、特征表示和區(qū)域分類。根據(jù)圖一,第一步區(qū)域建議。目標(biāo)檢測需要獲得目標(biāo)的準(zhǔn)確位置和大小尺度,在輸入圖像的時候找到指定的類型目標(biāo)是其中一種區(qū)域建議。還可以通過滑動窗進(jìn)行區(qū)域建議,投票、圖像分割的區(qū)域建議也可以使用?;瑒哟靶枰谳斎雸D像的時候在子窗口執(zhí)行目標(biāo)來檢測目標(biāo)所處的位置。投票機(jī)制則通過部件的模型找到輸入圖像和模型在局部區(qū)域內(nèi)的最佳位置,并最大限度地讓所有局部區(qū)域匹配,利用拓?fù)涞姆绞絹淼玫阶罴哑ヅ?。但是投票機(jī)制的區(qū)域建議計算代價會比較高。圖像分割的區(qū)域建議則建立在圖像分割的基礎(chǔ)上面,是一個消耗時間和精力的過程,而且很復(fù)雜很難把整個目標(biāo)分割出來。而深度學(xué)習(xí)在圖像分類和目標(biāo)檢測中都有一定得進(jìn)展,通過深度學(xué)習(xí)的表征和建模能力可以生成抽象的表示[1]。
圖一,目標(biāo)視覺檢測流程
三、深度學(xué)習(xí)在目標(biāo)視覺檢測當(dāng)中的作用
深度學(xué)習(xí)融入目標(biāo)視覺檢測推動了目標(biāo)視覺檢測的發(fā)展和研究。目標(biāo)視覺檢測和圖像分類有一定的區(qū)分,目標(biāo)視覺檢測主要關(guān)注圖像的局部信息,圖像分類在意圖像的全局表達(dá)。但是它們也有一定的互通性。首先從區(qū)域建議的方法來探討深度學(xué)習(xí)在目標(biāo)視覺檢測中的作用。深度學(xué)習(xí)在目標(biāo)視覺檢測中的基本參考方法是Girshick等人提出來的R-CNN方法。R-CNN和CNN相聯(lián)系,檢測的精準(zhǔn)度達(dá)到了53.3%,對比傳統(tǒng)的方法有很大的飛躍。如圖二所示,輸入相關(guān)圖像的同時進(jìn)行選擇性的搜索提取候選區(qū),通過CNN網(wǎng)絡(luò)來提取固定長度的向量,圖像經(jīng)過兩個全連接層和五個積卷層得出一個4096的向量,最后把提取到的向量數(shù)據(jù)在向量機(jī)中進(jìn)行分配。但是這樣的方式還是存在很多的不足和弊端,因此Girshick對R-CNN和SPP-net進(jìn)行了進(jìn)一步的改進(jìn),圖像進(jìn)行一次卷積在特征圖上進(jìn)行映射送入Rol池化層,最后通過全連接層輸出。同一幅畫像的Rol共同相同計算機(jī)的內(nèi)存效率更加高。通過softmax 的分類不僅省去特征的存儲還提高了利用率。近年來,kin等人又提出了PVANET網(wǎng)絡(luò),數(shù)據(jù)的檢測精準(zhǔn)度達(dá)到了82.5%,在確保精準(zhǔn)度的情況下還能使通道數(shù)減少,可以增加對細(xì)節(jié)的提取。
圖二,R-NN的計算流程
早期還提出過無區(qū)域建議的方式,例如,DPM模型可以在目標(biāo)的內(nèi)部進(jìn)行結(jié)構(gòu)化的建模,不僅提高了檢測的性能,也能很好地適應(yīng)非剛體的形變。但是DPM模型的構(gòu)建條件復(fù)雜,模型訓(xùn)練也比較繁瑣,所以sermanet又進(jìn)行研究提出了Overfeat的模型,避免圖像塊的操作出錯,也能提高算法的效率。但是關(guān)于尺寸的識別還是存在著一定的問題,因此無區(qū)域建議還在不斷的探索過程中。redmom提出了關(guān)于改進(jìn)yolo模型的方法,成為yolov2,可以確保精準(zhǔn)度和定位,提升了檢測率。專家們還研制出一種新的訓(xùn)練算法,用數(shù)據(jù)來找到物體的準(zhǔn)確定位,yolo模型通過這樣的方式課題檢測超過九千種物體[2]。
四、結(jié)束語
未來深度學(xué)習(xí)在目標(biāo)視覺檢測中都會得到繼續(xù)的應(yīng)用和進(jìn)展,深度學(xué)習(xí)在目標(biāo)視覺測試中依舊是主流的方向。深度學(xué)習(xí)通過它的優(yōu)勢可以獲得高層次抽象的表達(dá)。但是深度學(xué)習(xí)的理論還不是特別的完善,模型的可解釋性還不夠強(qiáng)。因此深度學(xué)習(xí)模式還需要得到進(jìn)一步的改進(jìn)和完善,對模型的結(jié)構(gòu),訓(xùn)練等多加指導(dǎo)。大規(guī)模多樣性數(shù)據(jù)集也比較匱乏,現(xiàn)在很多的目標(biāo)視覺檢測都在imagenet上進(jìn)行訓(xùn)練,但是目標(biāo)檢測技術(shù)還需要進(jìn)一步的完善和提高,達(dá)到最好的效果。深度學(xué)習(xí)在目標(biāo)視覺檢測技術(shù)中的應(yīng)用還不夠完善,任重而道遠(yuǎn),還需要進(jìn)一步的完善理論提高精準(zhǔn)度。在未來,深度學(xué)習(xí)和目標(biāo)視覺檢測一定能夠得到極大的進(jìn)展。
參考文獻(xiàn)
篇7
關(guān)鍵詞:人工智能;引擎;大數(shù)據(jù);CPU;FPGA
DOI:10.3969/j.jssn.1005-5517-2017-2.006
1 2016年人工智能迎來了春天
2016年人工智能(A1)進(jìn)入了第三個。2016年3月9-15日,谷歌AlphaGo(阿爾法狗)以4:1的成績擊敗世界圍棋冠軍李世石職業(yè)九段,意義非常重大。因為過去機(jī)器主要做感知,現(xiàn)在出現(xiàn)了認(rèn)知,這是人工智能的關(guān)鍵所在。
8個月后,2016年12月29日~2017年1月4日,AlphaGo的升級版――谷歌Master(大師)在30秒快棋網(wǎng)測中,以60勝0負(fù)1和的成績,橫掃柯潔、古力、聶衛(wèi)平、樸廷桓、井山裕太等數(shù)十位中日韓世界冠軍與頂級高手。從此以后,也許人類以后就沒有和Master進(jìn)行圍棋比賽的機(jī)會了!除了圍棋,人工智能下一步將在國際象棋、中國象棋等棋類方面發(fā)展。
撲克牌方面,專家水平的人工智能首次戰(zhàn)勝一對一無限注德州撲克人類職業(yè)玩家,而且DeepStack讓機(jī)器擁有知覺。
人工智能還能玩游戲。其意義很重大,平時環(huán)境中很難得到一些數(shù)據(jù),因為游戲相當(dāng)于虛擬社會,例如“星際爭霸2”是復(fù)雜的虛擬社會,如果人工智能在這個虛擬社會中能戰(zhàn)勝人,這將是非常了不起的,未來可涉及到高級決策,在軍事上很有用處。2016年11月5日,谷歌DeepMind宣布與暴雪合作開發(fā)人工智能,挑戰(zhàn)實時戰(zhàn)略視頻游戲“星際爭霸2”。這件事情的意義非常重大。下一步可以用于軍事上的高級戰(zhàn)略決策。
無人駕駛方面,2016年11月15日,“在第三屆世界互聯(lián)網(wǎng)大會”期間,18輛百度“云驍”亮相烏鎮(zhèn)子夜路,在3.16公里的開放城區(qū)道路上自主行駛。2016年特斯拉Autopilot 2.0問世,該軟件只需要八千美元,就可讓軟件駕駛汽車。所有特斯拉新車將安裝“具有完全自動駕駛功能”的該硬件系統(tǒng),并可通過OTA(空中下載技術(shù))進(jìn)行軟件升級;自動駕駛功能從L2(二級,半無人駕駛)直接跳躍到L4/L5();2017年底之前,特斯拉車將以完全自動駕駛模式從洛杉磯開往紐約。Uber提出在城區(qū)大范圍無人駕駛出租車試運(yùn)行,Uber 2016年9月14日在美國匹茲堡市推出城區(qū)大范圍無人駕駛出租車免費(fèi)載客服務(wù)并試運(yùn)行,先期已測試近2年,說明無人駕駛真正落地了。
為何無人駕駛很重要?因為人工智能是無人駕駛的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自動駕駛測試。此外,沃爾沃、福特、寶馬、百度、英特爾等全球約20多家企業(yè)公開宣布,4年以后的2021年將會是無人駕駛/自動駕駛元年,部分5AE L4車將會實現(xiàn)量產(chǎn)。
計算機(jī)視覺
針對ImageNet ILSVRC測試比賽的1 000種物體識別,Deep CNN超過了人類的識別能力。人是5.1%(如圖1),2016年2月23日谷歌人工識別的評測是3.08%。ImageNetILSVRC中有1000種物體,例如猴子、馬、飛機(jī)、坦克等約1500萬張照片、包含2.2萬類種不同物體。深度學(xué)習(xí)一般能做到52層,極深度學(xué)習(xí)(very deep lea rning)現(xiàn)在已經(jīng)做到1000層。
在ILSVRC 2016國際評測中,包括視覺物體檢測、視覺物體定位、視頻物體檢測、場景分類、場景解析等性能均有提高。值得一提的是,在此次大會上,中國團(tuán)隊大放異彩,幾乎包攬了各個項目的冠軍(圖2)。
人工智能語義分割
基于全卷積神經(jīng)網(wǎng)絡(luò)FCN的路面/場景像素級語義分割取得重要進(jìn)展。為此,我們可以分割大部分道路。
人工智能唇語專家
看電視時把聲音關(guān)掉,靠嘴唇說話的變化來識別談話內(nèi)容,這種能力機(jī)器識別率已經(jīng)超過人類。例如2016年12月,英國牛津大學(xué)與谷歌DeepMind等研發(fā)的自動唇讀系統(tǒng)LipNet,對GRID語料庫實現(xiàn)了95.2%的準(zhǔn)確率;對BBC電視節(jié)目嘉賓進(jìn)行唇語解讀,準(zhǔn)確率為46.8%,遠(yuǎn)遠(yuǎn)超過專業(yè)的人類唇語專家(僅為12.4%)。
人工智能人臉識別
人臉識別可以達(dá)到產(chǎn)品級別,例如支付寶的刷臉成功率超過了人類。如圖3,人的水平為97.40,百度為99.77。因此可以進(jìn)行產(chǎn)品體驗。2017年1月6日,百度人工智能機(jī)器人“小度”利用其超強(qiáng)人類識別能力,以3:2險勝人類最強(qiáng)大腦代表王峰。
語音識別
目前的社交新媒體和互動平臺中,Al虛擬助手和Al聊天機(jī)器人正在崛起。一天,美國GIT(佐治亞理工大學(xué))的一個課堂上來了一位助教,教師講完課后說:“大家有問題就問助教吧”。這位助教原來是個會眨眼睛的機(jī)器人!這時學(xué)生們才知道每天網(wǎng)上給他們答疑解惑的是人工智能,此前學(xué)生們也感到很吃驚,這位助教非常敬業(yè),晚上還在發(fā)Email。
人工智能語音合成
指從文本聲音到真實聲音,可以自動翻譯成英文。2016年9月19日,谷歌DeepMind推出WaveNet,實現(xiàn)文本到美式英語或中國普通話的真實感語音合成。
人工智能速記員
包括語音識別和NLP(自然語言處理)。2016年10月17日,微軟的語音識別系統(tǒng)實現(xiàn)了5.9%的詞錯率(WER),媲美人類專業(yè)速記員,且錯誤率更低;中國科大訊飛也有語音輸入法。
人工智能翻譯
中國人往往從小學(xué)到讀博士都在學(xué)英語。現(xiàn)在,谷歌、微軟和百度等公司在做人工智能翻譯。以谷歌為例,2016年9月27日,谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT)實現(xiàn)了多語種翻譯,較之傳統(tǒng)方法,英譯西班牙翻譯錯誤率下降了87%,英譯漢下降了58%,漢譯英下降了60%,已接近人工翻譯的水平。也許今后學(xué)外語沒那么重要了,人們可戴著耳機(jī),耳機(jī)能直接翻譯成各語言。
人工智能對抗訓(xùn)練
Goodfellow(2014)提出的生成式對抗網(wǎng)絡(luò)(GAN),為半監(jiān)督學(xué)習(xí)/舉一反三式的學(xué)習(xí)發(fā)展提供新思路,2016年發(fā)展迅速。目前是監(jiān)督式學(xué)習(xí),需要依靠大數(shù)據(jù),因此大數(shù)據(jù)需要非常完備。而人是舉一反三式的學(xué)習(xí)。例如人沒有見過飛機(jī),看過幾張照片就可以把世界上所有飛機(jī)都認(rèn)出;目前的大數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方式,是把世界上所有飛機(jī)照片都看過才行?,F(xiàn)在進(jìn)行舉一反三的半監(jiān)督或無監(jiān)督式學(xué)習(xí),思路是采用對抗的方法,一個網(wǎng)絡(luò)造假,另一網(wǎng)絡(luò)鑒別照片是真是假,通過對抗式的學(xué)習(xí)來共同進(jìn)步(如圖4)。
人工智能引擎
芯片三巨頭
英特爾、英偉達(dá)和高通全部轉(zhuǎn)到了人工智能上。為此英偉達(dá)的股票漲了幾倍。英特爾也在大搞人工智能。高通為了進(jìn)入人工智能領(lǐng)域,收購了恩智浦,恩智浦此前收購了飛思卡爾。
現(xiàn)在出現(xiàn)了基于超級GPU/TPU集群的離線訓(xùn)練,采用超級GPU/TPu集群服務(wù)器,例如英偉達(dá)的深度學(xué)習(xí)芯片Tesla P100及DGX-1深度學(xué)習(xí)計算機(jī),谷歌數(shù)據(jù)中心的TPU。
終端應(yīng)用采用GPU/FPGA-based DPU,例如英特爾Apollo Lake A3900的“智能互聯(lián)駕駛艙平臺”,高通驍龍的820A處理器。
通用人工智能與認(rèn)知智能
1997年,lBM的超級電腦程序“深藍(lán)”擊敗國際象棋大師加里?卡斯帕羅夫;2011年2月,IBM的自動問答系統(tǒng)在美國最受歡迎的智力競答電視節(jié)目“危險邊緣”中戰(zhàn)勝了人類冠軍:IBM的沃森醫(yī)生在某些細(xì)分疾病領(lǐng)域已能提供頂級醫(yī)生的醫(yī)療診斷水平,例如胃癌診斷。
可見,1.AlphaGo和Master等已可橫掃人類圍棋職業(yè)頂尖高手,下一步,將能下中國象棋等所有棋類,此外還可以打牌、炒股等,即什么都可以干,是強(qiáng)人工智能。2.人工智能已成為無人駕駛汽車商業(yè)落地的關(guān)鍵。3.視覺物體識別、人臉識別、唇語識別等在許多國際公開評測中,達(dá)到或超過人類的水平;4.速記等語音識別已可媲美人類;5.包括神經(jīng)機(jī)器翻譯在內(nèi)的自然語言處理,性能也大幅度提升;6.生成式對抗網(wǎng)絡(luò)得到極大關(guān)注。
目前,發(fā)展通用人工智能成為普遍共識。
2 社會極大關(guān)注
未來,可能很多工作就會消失了。
人工智能引起社會的極大關(guān)注和熱議,人工智能發(fā)展很快;而且人工智能的學(xué)習(xí)速度快,很勤奮,未來可以達(dá)到人類所有的智能,這時到達(dá)了從強(qiáng)人工智能到超越人工智能的奇點(diǎn);人工智能有超越人類智能的可能;理論上,人工智能還可以永生。
這也引起了很多人們的擔(dān)憂。奇點(diǎn)到來、強(qiáng)人工智能、超人工智能、意識永生、人類滅絕等聳人聽聞的觀點(diǎn)出現(xiàn),引起包括霍金、蓋茨和馬斯克等在內(nèi)的世界名人對人工智能發(fā)展的擔(dān)憂。在每年的世界人工智能大會上,專門有一個論壇探討人工智能與法律、倫理及人類未來的會場。
現(xiàn)在,人工智能工業(yè)的OpenAI成立。
2016年全社會對人工智能的極大關(guān)注,可能是2016年AI的最大進(jìn)展!
在半監(jiān)督/無監(jiān)督學(xué)習(xí)、通用人工智能方面,人工智能具有舉一反三,并有常識、經(jīng)驗、記憶、知識學(xué)習(xí)、推理、規(guī)劃、決策,甚至還有動機(jī)。這最后一點(diǎn)有點(diǎn)恐怖,人是有意識和動機(jī)的,機(jī)器做事也有動機(jī),太可怕了。
智能學(xué)習(xí)進(jìn)步很快,AIpha Go八個月后就可以戰(zhàn)勝所有圍棋手,因為它能每天24小時學(xué)習(xí)、不吃不喝地學(xué)習(xí),比人強(qiáng)多了。
因此,在經(jīng)歷了60年“三起兩落”的發(fā)展后,以深度學(xué)習(xí)為主要標(biāo)志的人工智能正迎來第3次偉大復(fù)興,這次引起社會尤其是產(chǎn)業(yè)界高強(qiáng)度的關(guān)注。因為上世紀(jì)60年代和80年代,人工智能沒有達(dá)到這樣的水平。
硅谷精神教父、預(yù)言家凱文?凱利說,未來人工智能會成為一種如同電力一樣的基礎(chǔ)服務(wù)。斯坦福大學(xué)推出了“人工智能百年研究”首份報告――《2030年的人工智能與生活》。
3人工智能上升為國家發(fā)展戰(zhàn)略
有人認(rèn)為第四次工業(yè)革命即將由人工智能與機(jī)器人等引爆。英國政府認(rèn)為,人工智能有望像19世紀(jì)的蒸汽機(jī)革命那樣徹底改變我們的生活,甚至人工智能給人類社會帶來的變革與影響,有可能遠(yuǎn)遠(yuǎn)超過蒸汽機(jī)、電力和互聯(lián)網(wǎng)帶來的前三次工業(yè)革命。
智能制造、無人駕駛汽車、消費(fèi)類智能機(jī)器人、虛擬助手、聊天機(jī)器人、智能金融、智能醫(yī)療、智能新聞寫作、智能律師、智慧城市等可能被人工智能代替。人工智能將無處不在,可望替換人類的部分腦力勞動,一些職業(yè)會被取代或補(bǔ)充,一些新的行業(yè)又會誕生,例如18世紀(jì)出現(xiàn)了紡織工人,之后汽車代替了馬車等。因此,我們將經(jīng)歷從“互聯(lián)網(wǎng)+”到“人工智能+”。
中國“互聯(lián)網(wǎng)+”與“中國制造2025”國家發(fā)展戰(zhàn)略的實施,對人工智能的巨大需求在迅速增長。未來2-5年,人工智能應(yīng)用與產(chǎn)業(yè)發(fā)展將迎來爆發(fā)期。
中國政府在《“互聯(lián)網(wǎng)+”人工智能3年行動實施方案》提出:計劃在2018年形成千億級人工智能產(chǎn)業(yè)應(yīng)用規(guī)模。201 7年1月10日,科技部部長萬鋼稱,將編制完成人工智能專項規(guī)劃,加快推進(jìn)人工智能等重大項目的立項論證。
美國政府在2016年10月13日出臺了《為人工智能的未來做好準(zhǔn)備》的報告,提出了23條建議措施。同一天,美國政府又出臺了《國家人工智能研發(fā)戰(zhàn)略規(guī)劃》,提出了7大重點(diǎn)戰(zhàn)略方向。美國參議院于2016年11月30日召開了關(guān)于人工智能的首次國會聽證會,主題是“人工智能的黎明”,認(rèn)為中國是對美國人工智能全球領(lǐng)導(dǎo)地位的一個真正威脅。在2016年12月20日美國白宮了《人工智能、自動化與經(jīng)濟(jì)》報告,考察了人工智能驅(qū)動的自動化將會給經(jīng)濟(jì)帶來的影響,并提出了國家的三大應(yīng)對策略方向??梢姡瑠W巴馬把人工智能看作其政治遺產(chǎn)之一(注:另一個是Cyber空間)。
英國政府2016年12月了《人工智能:未來決策的機(jī)遇與影響》的報告,關(guān)注人工智能對社會創(chuàng)新與生產(chǎn)力的促進(jìn)作用,論述如何利用英國人工智能的獨(dú)特優(yōu)勢,增強(qiáng)英國國力。
日本政府2017年開始,要讓人工智能與機(jī)器人推動第四次工業(yè)革命。
4 我國對策
應(yīng)以深度卷積神經(jīng)網(wǎng)絡(luò)為核心,全面開展計算機(jī)視覺、語音識別和自然語言等人工智能產(chǎn)品的開發(fā)與大規(guī)模產(chǎn)業(yè)化應(yīng)用。這需要大數(shù)據(jù)、計算平臺/計算引擎、人工智能算法、應(yīng)用場景等飛速發(fā)展,另外還需要資源、資金、人才。在方法上,選定垂直細(xì)分領(lǐng)域最重要。
面向若干細(xì)分垂直領(lǐng)域,建立大數(shù)據(jù)中心。實現(xiàn)大數(shù)據(jù)采集、清洗、標(biāo)簽、存儲、管理與交易,建立大數(shù)據(jù)源公共基礎(chǔ)設(shè)施與垂直領(lǐng)域知識庫。專有大數(shù)據(jù)是人工智能產(chǎn)業(yè)制勝的關(guān)鍵和法寶。中國企業(yè)必須開始特別關(guān)注大數(shù)據(jù)的采集與利用。其重要性如同原油―樣,跨國企業(yè)視之為戰(zhàn)略資源!
強(qiáng)力開展人工智能芯片與硬件平臺的研發(fā)。包括基于FPGA的深度學(xué)習(xí)芯片;類腦芯片與憶阻器件;建立國家級人工智能超算中心。
篇8
本文結(jié)合計算機(jī)行業(yè)的發(fā)展,對計算機(jī)網(wǎng)絡(luò)云計算技術(shù)進(jìn)行了分析研究,希望能為計算機(jī)技術(shù)的進(jìn)步提供一定的理論支持。
一、計算機(jī)網(wǎng)絡(luò)的云計算技術(shù)概念
美國的網(wǎng)絡(luò)公司最早提出計算機(jī)網(wǎng)絡(luò)云計算技術(shù)的概念,隨著科學(xué)的進(jìn)步與發(fā)展已經(jīng)逐漸成為了一門成熟的技術(shù),有著豐富的理論基礎(chǔ)與實踐經(jīng)驗?,F(xiàn)在的“云計算”技術(shù)是指能將網(wǎng)絡(luò)、硬件、設(shè)備相融合,同時實現(xiàn)規(guī)模性、安全性、虛擬性的技術(shù)。目前來看,對計算機(jī)網(wǎng)絡(luò)云計算的定義還沒有統(tǒng)一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點(diǎn)是:首先,每一個“云”都是獨(dú)立的計算機(jī)分布體系,基于網(wǎng)絡(luò)化、虛擬化的計算機(jī)服務(wù)層,與計算機(jī)中的資源保持一定的節(jié)奏,實現(xiàn)計算機(jī)資源的同步。其次,計算機(jī)網(wǎng)絡(luò)云是一個綜合體,并非是獨(dú)立的,計算機(jī)軟件的開發(fā)中離不開云計算的環(huán)節(jié),其重點(diǎn)就是網(wǎng)絡(luò)云計算特征的研究。對于計算機(jī)網(wǎng)絡(luò)的使用者來說,計算機(jī)集成軟件層面,能被接受與理解的就是云計算,在本文重點(diǎn)突出的就是云計算的屬性。最后,計算機(jī)網(wǎng)絡(luò)的使用者沒有進(jìn)行長期的規(guī)劃后使用,很容易出現(xiàn)浪費(fèi)現(xiàn)象,目前的云計算技術(shù)可以實現(xiàn)分或秒內(nèi)的數(shù)據(jù)計算,可以很好地避免資源過載或資源浪費(fèi)現(xiàn)象。
通過研究可以看出,計算機(jī)網(wǎng)絡(luò)云計算技術(shù)可以定義成計算機(jī)網(wǎng)絡(luò)中進(jìn)行的某種服務(wù)形式,其中相關(guān)的硬件設(shè)施與軟件系統(tǒng)統(tǒng)稱為計算機(jī)網(wǎng)絡(luò)云計算。定義中包括網(wǎng)絡(luò)計算機(jī)、超級計算機(jī)、集成技術(shù)等,相關(guān)的技術(shù)既有區(qū)別又有聯(lián)系。計算機(jī)網(wǎng)絡(luò)云計算技術(shù)的原理是:大量的數(shù)據(jù)分布于分布式計算機(jī)中,同時保證用戶的數(shù)據(jù)系統(tǒng)與計算機(jī)同步運(yùn)行,進(jìn)而實現(xiàn)及時將需要的資源切換到相應(yīng)的應(yīng)用中,根據(jù)使用者的訪問需求進(jìn)行存儲系統(tǒng)與計算機(jī)系統(tǒng)的定位。計算機(jī)網(wǎng)絡(luò)云計算技術(shù)可以基于用戶服務(wù)需求及時提供所需的網(wǎng)絡(luò)信息資源。計算機(jī)網(wǎng)絡(luò)云計算技術(shù)適應(yīng)性強(qiáng),彈性好,專業(yè)技術(shù)性高,發(fā)展前景十分好,應(yīng)用越來越廣泛。
二、計算機(jī)網(wǎng)絡(luò)云計算技術(shù)的分類
基于多樣化的標(biāo)準(zhǔn),計算機(jī)云計算的分類也有多種方式。比較常見的是:根據(jù)服務(wù)方式的不同,云計算可以分為私有云和公有云。私有云是根據(jù)用戶的自身情況進(jìn)行獨(dú)立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進(jìn)行開發(fā)利用。在選擇私有云與公有云時,應(yīng)該考慮的主要因素是:
1.服務(wù)的延續(xù)性
大部分情況下,公有云提供的服務(wù)容易受外界影響,如網(wǎng)絡(luò)故障等情況,而私有云則不會出現(xiàn)這種問題。
2.數(shù)據(jù)安全性
如果對于穩(wěn)定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監(jiān)控能力
公有云可以將使用用戶對系統(tǒng)的監(jiān)控能力屏蔽起來,這對于金融保險投資行業(yè)是十分有必要的。
三、計算機(jī)網(wǎng)絡(luò)云計算技術(shù)的實現(xiàn)
為了將計算機(jī)系統(tǒng)的系統(tǒng)處理過程進(jìn)行簡化,通常將該過程劃分為預(yù)處理過程與功能實現(xiàn)過程兩大部分。對系統(tǒng)的各項功能進(jìn)行分解,得到一些不需要進(jìn)行功能實現(xiàn)過程與預(yù)處理過程的功能。對于可以進(jìn)行預(yù)先處理過程的功能通常是一次性處理,在執(zhí)行過程中,可以將預(yù)處理過程得到的結(jié)果直接使用,以此完成特點(diǎn)的系統(tǒng)功能。該方法與原則的采用,極大地簡化了系統(tǒng),大幅度提高了系統(tǒng)運(yùn)行效率。計算的云化中的系統(tǒng)就是計算云化系統(tǒng),它的計算量十分巨大,系統(tǒng)計算運(yùn)行效率極高。但因為計算云化系統(tǒng)為一次處理系統(tǒng),只要計算云規(guī)則生成,計算云化系統(tǒng)的使命與任務(wù)也就完成,而不是在對計算機(jī)加以應(yīng)用時需要該系統(tǒng)。通常在計算機(jī)網(wǎng)絡(luò)云計算中形成的系統(tǒng)就是云計算系統(tǒng),是一個十分簡單的系統(tǒng),對計算機(jī)的處理能力沒有過高要求,同時應(yīng)用于各類計算機(jī)系統(tǒng)計算中。
四、計算機(jī)網(wǎng)絡(luò)云計算的計算與優(yōu)勢
建立計算機(jī)網(wǎng)絡(luò)云計算過程的第一步是服務(wù)器架構(gòu)的建立,其對計算機(jī)網(wǎng)絡(luò)云計算技術(shù)中的IAAS部分進(jìn)行充當(dāng)。目前來看,仍沒有關(guān)于網(wǎng)絡(luò)云計算服務(wù)器架構(gòu)的專門、統(tǒng)一的標(biāo)準(zhǔn)出現(xiàn),這需要一定的相關(guān)技術(shù)進(jìn)行支持,例如計算區(qū)域網(wǎng)SAN和附網(wǎng)NAS等,這都是應(yīng)用比較多的服務(wù)器架構(gòu)技術(shù)。NAS文件計算系統(tǒng)是松散結(jié)構(gòu)型的集群,它的架構(gòu)有很明顯的分布式特征。NAS文件系統(tǒng)集群中的各個節(jié)點(diǎn)具有互補(bǔ)與相互影響的特點(diǎn),文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數(shù)據(jù)信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統(tǒng)安全穩(wěn)定。如果客戶發(fā)出過多的請求,NAS系統(tǒng)的限制就表現(xiàn)出來,二級計算就可以通過NAS的云服務(wù)完成。
SAN是一種緊密結(jié)合類型的集群,在集群中存儲文件之后,可以分解成很多個數(shù)據(jù)塊。相比于集群之中的節(jié)點(diǎn),各數(shù)據(jù)塊之間能夠進(jìn)行相互訪問。節(jié)點(diǎn)可以借助于訪問文件間的數(shù)據(jù)塊針對客戶的請求進(jìn)行處理。SAN系統(tǒng)之中可以通過節(jié)點(diǎn)數(shù)量增減來響應(yīng)請求,同時提升界定本身的性能。為了能夠?qū)⒁許AN為基礎(chǔ)的OBS發(fā)展起來,就需要更好的性能與更低的成本。而SAN計算建構(gòu)的硬件價格十分高,同時依托于SAN的服務(wù)價格,因此可以適當(dāng)?shù)亟档鸵幌滦阅埽WC更好的性能與更低的成本。
五、實例――基于谷歌云計算技術(shù)的AlphaGo亮點(diǎn)分析
AlphaGo通過谷歌云計算技術(shù),擁有與人類棋手類似的“棋感”,其技術(shù)遠(yuǎn)勝于1997年IBM公司研制的超級電腦“深藍(lán)”。“深藍(lán)”面對的是相對圍棋簡單多的國際象棋,設(shè)計理念為根據(jù)棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術(shù),可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運(yùn)算能力都集中在“棋感策略”網(wǎng)絡(luò)中最有可能的情況上。其背后的深層算法,具備三大亮點(diǎn):(1)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù):“棋感策略”網(wǎng)絡(luò)的本質(zhì)學(xué)習(xí)人類圍棋大師走法思維。AlphaGo藉此擁有強(qiáng)大的盤面評估能力。(2)增強(qiáng)學(xué)習(xí)算法技術(shù):此算法可通過自我對弈來持續(xù)提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術(shù):“評價網(wǎng)絡(luò)”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機(jī)網(wǎng)絡(luò)云計算技術(shù)發(fā)展遇到的問題
在目前計算機(jī)網(wǎng)絡(luò)云計算技術(shù)廣泛地運(yùn)用到各個領(lǐng)域的過程中,云計算技術(shù)也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應(yīng)用過程中應(yīng)采用足夠的措施來對數(shù)據(jù)信息的安全性進(jìn)行可靠的保障,這是計算機(jī)網(wǎng)絡(luò)云計算技術(shù)發(fā)展過程中十分重要的一項課題?,F(xiàn)在的大部分云端是通過瀏覽器進(jìn)行接入的,瀏覽器是計算機(jī)系統(tǒng)中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認(rèn)證密鑰特別容易因為瀏覽器漏洞而產(chǎn)生泄密。同時由于不同的應(yīng)用都需要在云端中進(jìn)行認(rèn)證,這就需要保證認(rèn)證機(jī)制的高效性與安全性。在應(yīng)用服務(wù)層之中,應(yīng)該采取安全有效的措施來保護(hù)用書的隱私安全,在基礎(chǔ)設(shè)施層中要采取安全可靠的方法保C數(shù)據(jù)的安全性。
七、采取措施保障網(wǎng)民數(shù)據(jù)安全
如果數(shù)據(jù)的安全不能得到保障,就會對云計算的發(fā)展產(chǎn)生不利影響,所以為了能夠保障網(wǎng)民數(shù)據(jù)的安全。就需要采取切實可行的手段來保證數(shù)據(jù)的安全性。
1.隔離操作系統(tǒng)與數(shù)據(jù)
為了能夠切實有效地保障網(wǎng)民信息的安全,就需要充分使用Hypervisor,從而將網(wǎng)民的操作系統(tǒng)與數(shù)據(jù)資源隔離起來,從而有效地保證了計算資源的安全性,避免了網(wǎng)民操作系統(tǒng)所帶來的可能的不利影響。
2.重置API保護(hù)層
服務(wù)商提供給用戶API,用戶根據(jù)需要進(jìn)行應(yīng)用。但同時第三方也有可能對這些API進(jìn)行使用。為了保證數(shù)據(jù)的安全性,就需要你安裝API保護(hù)層,重疊保護(hù)API。
3.嚴(yán)格身份認(rèn)證
服務(wù)商應(yīng)嚴(yán)格的執(zhí)行身份認(rèn)證,防范冒充網(wǎng)民身份的行為,加強(qiáng)對賬號與密碼的管理控制,確保網(wǎng)民只訪問自己的程序與數(shù)據(jù),從而保證數(shù)據(jù)資源的安全性。
篇9
【摘要】 為了實現(xiàn)人體器官的三維重建,如何準(zhǔn)確、有效地提取二維醫(yī)學(xué)圖像的邊緣成了首要解決的問題。我們提出一種新的圖像邊緣提取方法,該方法先將原始CT圖像二值化,然后利用數(shù)學(xué)形態(tài)運(yùn)算對二值化圖像進(jìn)行預(yù)處理,最后利用Canny算子提取圖像邊緣。通過腎臟CT圖像邊緣提取結(jié)果表明,該方法簡單、高效、性能優(yōu)越。
【關(guān)鍵詞】 CT圖像;邊緣提?。粩?shù)學(xué)形態(tài)學(xué);Canny算子
Research on the Edge Extraction of CT ImageZHANG Xiaoping,ZHU Zhisong,WANG Junze
(Nantong Univirsity, Nantong 226019, China)
Abstract:To reconstruct the body organs in 3-D, how to extract the edges from 2-D medical images accurately and effectively has benen the primarily problem. Therefore, a new method of edge extraction was introduced in this paper. The original CT image was binarized firstly and then preprocessed by mathematical morphology operating. Finally, the image edge was extracted by the Canny algorithm. The results of kidney CT image edge extraction show that the method is simple, efficient and superior performance.
Key words:CT image;Edge extraction;Mathematical morphology;Canny algorithm
1 引 言
隨著計算機(jī)技術(shù)、CT(計算機(jī)斷層掃描)、MRI(核磁共振)等醫(yī)學(xué)影像技術(shù)的不斷發(fā)展,虛擬現(xiàn)實技術(shù)也越來越多地應(yīng)用到現(xiàn)代醫(yī)療領(lǐng)域。利用計算機(jī)圖像處理和數(shù)據(jù)可視化技術(shù),根據(jù)醫(yī)學(xué)影像設(shè)備提供的二維斷層圖像,進(jìn)行人體器官的三維重建已是現(xiàn)代醫(yī)學(xué)重要發(fā)展方向之一。腎臟疾病的外科手術(shù)是泌尿外科中的一個重點(diǎn)和難點(diǎn),因此,根據(jù)CT二維圖像重構(gòu)腎臟及其周圍結(jié)構(gòu)的三維模型,有助于醫(yī)生選擇最佳手術(shù)路線、減少手術(shù)損傷、提高手術(shù)成功率[1]。CT二維圖像的邊緣提取作為器官三維重構(gòu)的第一步,一直受到國內(nèi)外學(xué)者的關(guān)注,提出了眾多的邊緣檢測算法,如小波變換法、神經(jīng)網(wǎng)絡(luò)法、模糊技術(shù)法等[2]。近幾年,隨著數(shù)學(xué)形態(tài)學(xué)理論的不斷完善與發(fā)展,數(shù)學(xué)形態(tài)學(xué)在圖像邊緣檢測中得到了廣泛的應(yīng)用[3-5]。本研究正是在數(shù)學(xué)形態(tài)學(xué)的基礎(chǔ)上,結(jié)合Canny算子,以腎臟為例,進(jìn)行了CT圖像的邊緣提取。
2 數(shù)學(xué)形態(tài)學(xué)在圖像預(yù)處理中的運(yùn)用
數(shù)學(xué)形態(tài)學(xué)是一門新興的、以形態(tài)為基礎(chǔ)對圖像進(jìn)行分析的學(xué)科。它利用具有一定結(jié)構(gòu)和特征的結(jié)構(gòu)元素對圖像進(jìn)行匹配,以實現(xiàn)對圖像的分析和識別,在去除噪聲、邊緣檢測等圖像預(yù)處理問題中有著明顯的優(yōu)勢[6]。數(shù)學(xué)形態(tài)學(xué)定義了兩種基本變換,即膨脹(Dilation)和腐蝕(Erision)。首先介紹其定義[7]:設(shè)F是原始圖像,B是結(jié)構(gòu)元素,膨脹運(yùn)算定義為:
D(F)=FB={(x,y)/Bxy∩F≠Φ}(1)
即B對F膨脹產(chǎn)生的二值圖像D(F)是由這樣的點(diǎn)(x,y)組成的集合,若圖B的原點(diǎn)位移至(x,y),那么它與F的交集非空。
腐蝕運(yùn)算定義為:
E(F)=FΘB={(x,y)/BxyF}(2)
即B對F腐蝕產(chǎn)生的二值圖像E(F)是由這樣的點(diǎn)(x,y)組成的集合,若圖B的原點(diǎn)位移至(x,y),那么B將完全包含于F。
由上述兩種基本運(yùn)算可以復(fù)合得到開啟、閉合變換。
開啟是對圖像先腐蝕后膨脹的過程,F(xiàn)用B來開啟,其數(shù)學(xué)表達(dá)式可記為:
F·B=(FΘB)B(3)
閉合是對圖像先膨脹后腐蝕的過程,F(xiàn)用B來閉合,其數(shù)學(xué)表達(dá)式可記為:
F·B=(FB)ΘB(4)
上述4種運(yùn)算中,膨脹可以填充圖像中的小孔及圖像邊緣上小的凹陷部分;腐蝕可以消除圖像中細(xì)小的成分;開啟則具有消除細(xì)小物體、在纖細(xì)處分離物體和平滑較大物體邊界的作用;閉合則具有填充物體內(nèi)細(xì)小孔洞、連接臨近物體和平滑邊界的作用。
利用數(shù)學(xué)形態(tài)學(xué)進(jìn)行圖像預(yù)處理時,選擇簡單、表現(xiàn)力強(qiáng)的結(jié)構(gòu)元素是關(guān)鍵,是形態(tài)變換中最重要的參數(shù);其次,還要綜合考慮目標(biāo)體的清晰度和噪聲的大小來選取結(jié)構(gòu)元素的大?。?]。一般目標(biāo)體輪廓不清晰時,選擇較小的結(jié)構(gòu)元素;噪聲顆粒較大時,選擇較大的結(jié)構(gòu)元素。
3 Canny算子的邊緣檢測原理
經(jīng)過數(shù)學(xué)形態(tài)變換之后,圖像的邊緣將變得清晰、突出,此時,圖像的邊界信息可以被方便地提取出來。傳統(tǒng)的算法有Sobel、 Prowitt 、Robert、Canny算子等[9]。在眾多的算子中,Canny算子因其具有高信噪比、高定位精度及單邊緣響應(yīng)等優(yōu)良性能[10],在許多圖像處理領(lǐng)域得到應(yīng)用。本研究也正是采用該算法提取腎臟CT圖像邊緣。
Canny算子的基本思想是采用二維高斯函數(shù)的任意方向上的一階方向?qū)?shù)為噪聲濾波器,通過與圖像卷積進(jìn)行濾波,然后對濾波后的圖像尋找局部梯度最大值,以此來確定圖像邊緣[11]。其數(shù)學(xué)描述如下:
3.1 用高斯濾波器平滑圖像
二維高斯濾波函數(shù)為:
G(x,y)=12πσ2exp(-x2+y2〖〗2σ2)(5)
在某一方向n上G(x, y)的一階導(dǎo)數(shù)為:
Gn=Gn=nG(6)
式6中n是方向矢量,n=cosθ
sinθ,
G是梯度矢量,G=Gx
Gy。
將圖像{F|f(x,y)}與Gn 作卷積,改變n的方向,Gn×f(x,y)取得最大值時的n,就是正交于檢測邊緣的方向。
3.2 梯度的幅值和方向計算
用一階偏導(dǎo)的有限差分來計算梯度的幅值和方向。
Ex=Gx×f(x,y) Ey=Gy×f(x,y)
A(x,y)=Ex2+Ey2 Φ=Arctan(ExEy)(7)
A(x,y)反映了圖像(x,y)點(diǎn)處的邊緣強(qiáng)度,Φ是圖像(x,y)點(diǎn)處的法向矢量。
3.3 對梯度幅值進(jìn)行非極大值抑制
為確定圖像邊緣,必須保留局部梯度最大的點(diǎn),而抑制非極大值。若圖像F上(x,y)點(diǎn)處的梯度幅值A(chǔ)(x,y)小于沿著梯度線方向上的相鄰像素點(diǎn)的邊緣強(qiáng)度,則認(rèn)為該點(diǎn)為非邊緣點(diǎn),將A(x,y)置為0。
3.4 用雙閾值法檢測和連接邊緣
設(shè)定兩個閾值t1和t2(t2>t1)。凡邊緣強(qiáng)度>t2者,則一定是邊緣點(diǎn);凡邊緣強(qiáng)度t2的點(diǎn),若有,則補(bǔ)為邊緣點(diǎn),若沒有,則不是邊緣點(diǎn)。用t1、t2兩個閾值對非極大值抑制圖像進(jìn)行雙閾值化,可得兩個檢測結(jié)果,分別記為T1和T2。圖像T2閾值較高,所以噪聲較少,但會造成邊緣信息的損失;圖像T1閾值較低,則保留了較多信息。于是以圖像T2為基礎(chǔ),以圖像T1為補(bǔ)充,連接圖像的邊緣。
由此可見,Canny算子是既能去除噪聲又能保留邊緣特性的邊緣檢測一階微分算法的最佳方法。
4 應(yīng)用實例
本研究在Matlab6.5軟件平臺上,以某醫(yī)院一患者的腎臟CT斷層圖像為例,提取了其中右腎的邊緣輪廓,具體實施步驟如下:
4.1 圖像二值化
CT圖像是灰度圖像,為了更好的形態(tài)運(yùn)算和邊緣檢測,首先進(jìn)行二值化處理,即把灰度圖像轉(zhuǎn)變成由0、1 組成的矩陣所表示的圖像。圖1為原始CT圖像,圖2是二值化圖像。在本次實驗中,二值化閾值為0.8。實驗過程中發(fā)現(xiàn),該方法簡單、高效,且丟失的信息也很少。
4.2 數(shù)學(xué)形態(tài)學(xué)處理
由圖2可見,圖像存在著一些空腔、毛刺、邊緣凹陷等現(xiàn)象,要進(jìn)行邊緣檢測,還需經(jīng)過進(jìn)一步處理,通過本研究介紹的數(shù)學(xué)形態(tài)運(yùn)算即可完成。
所求邊緣是腎臟外圍輪廓,首先需要填充圖像中的空腔和邊緣凹陷。對此,可采用imclose函數(shù)進(jìn)行閉合運(yùn)算,即進(jìn)行先膨脹后腐蝕,其中結(jié)構(gòu)元素為5×5圓形結(jié)構(gòu)元素,結(jié)果見圖3。由圖3可見,經(jīng)過閉合運(yùn)算后,圖像中還存在一些小短枝和孤立斑點(diǎn),這些也必須剔除,否則,將影響邊緣提取效果。對此,可采用imopen函數(shù)進(jìn)行開啟變換實現(xiàn),即先腐蝕后膨脹。針對小短枝和孤立斑點(diǎn),無法用同一種結(jié)構(gòu)元素去剔除,所以必須分兩步:首先選用3×3矩形結(jié)構(gòu)元素執(zhí)行開啟變換,去除小短枝像素,結(jié)果見圖4;然后用3×3菱形結(jié)構(gòu)元素再次執(zhí)行開啟變換,去除孤立斑點(diǎn),結(jié)果見圖5。
4.3 Canny算子提取邊緣
經(jīng)過上述處理,腎臟圖像邊緣已經(jīng)逐漸清晰、突出,此時利用Canny算子即可提取其邊界信息,如圖6所示,本次實驗中,邊緣強(qiáng)度閾值t1為0.0063,t2為0.0156 。圖6基本無失真地描述了邊界信息。提取圖6中各邊界點(diǎn)的坐標(biāo),即可獲得重構(gòu)的邊界圖形,見圖7。對腎臟各層CT圖像進(jìn)行上述運(yùn)算后,經(jīng)過插值處理,即可進(jìn)行該器官的三維重構(gòu)。
5 結(jié)束語
本研究從實用性的角度出發(fā),闡述了利用數(shù)學(xué)形態(tài)學(xué)和Canny算子進(jìn)行腎臟CT斷層圖像邊緣提取的方法和步驟。實驗證明該方法簡單、快速、精度高、適用性強(qiáng),為醫(yī)學(xué)圖像的三維重建和虛擬手術(shù)技術(shù)的研究奠定了良好的基礎(chǔ)。
參考文獻(xiàn)
[1]王洛夫, 張紹祥,江軍,等.腎臟及其周圍結(jié)構(gòu)的三維可視化研究[J].第三軍醫(yī)大學(xué)學(xué)報,2004,26 ( 6 ): 537-539.
[2]張小琳.圖像邊緣檢測技術(shù)綜述[J].高能量密度物理,2007,(1):37-40.
[3]Bai X Z, Zhou F. Edge detection based on mathematicalmorphology and iterative thresholding[A].International conference on computational intelligence and Security[C]. NY: IEEE, 2006.1849-1852.
[4]Serra J. Image analysis and mathematical morphology[M].New York: Academic Press,1982.
[5]Huang C-P,Wang R-Z.An intergrated edge detection method using mathematical morphology[J].Pattern Recgnition and Image Analysis,2006,16(3):406-412.
[6]陳虎,王守尊,周朝輝.基于數(shù)學(xué)形態(tài)學(xué)的圖像邊緣檢測方法研究[J].工程圖學(xué)學(xué)報,2004,(2):112-115.
[7]崔屹.圖像處理與分析-數(shù)學(xué)形態(tài)學(xué)方法及應(yīng)用 [M].北京:科學(xué)出版社,2000.
[8]Li Z H,Yang Y P,Jiang W.Multi-scale morphologictracking approach for edge detection[A].The 4th International conference on image and graphics[C]. NY: IEEE,2007.358-362.
[9]馬艷, 張治輝.幾種邊緣檢測算子的比較[J].工礦自動化,2004(2): 54-56.
篇10
關(guān)鍵詞:文本生成圖像;對抗生成網(wǎng)絡(luò)(GAN);美觀度評判;StackGAN++;美學(xué)損失
基于給定文本生成對應(yīng)圖像是計算機(jī)視覺領(lǐng)域一項經(jīng)典且富有挑戰(zhàn)性的任務(wù),顧名思義,即給出一句描述確定內(nèi)容的文本(可描述某件物體或某個場景環(huán)境),通過一定架構(gòu)的模型生成與文本內(nèi)容相對應(yīng)的圖像,使其盡可能做到逼近現(xiàn)實,能夠迷惑人眼的識別或一些模型的判斷。該任務(wù)需要在理解文本含義的基礎(chǔ)上,根據(jù)文本的內(nèi)容構(gòu)建出合理的像素分布,形成一幅完整的、真實的圖片。因為給出的文本所包含的信息量在通常情況下都遠(yuǎn)少于其所對應(yīng)生成的圖像(文本通常只對圖像中主體部分大致進(jìn)行了描述,圖像則還包含主體所處背景、圖像全局特征等額外信息),所以一句給定的文本可能會對應(yīng)許多符合其描述的圖像結(jié)果,這是文本生成圖像任務(wù)的難點(diǎn)所在[1]。在如今生活、制造等多方面邁向智能化發(fā)展的時期,文本生成圖像這一任務(wù)在實際生產(chǎn)生活當(dāng)中具有非常廣的應(yīng)用價值和潛力,比如應(yīng)用于平面廣告設(shè)計領(lǐng)域,可以為廣告制作團(tuán)隊生成廣告用的配圖,從而不必再專門雇用插畫制作人員;家具、日用品生產(chǎn)領(lǐng)域,可以通過給出一段產(chǎn)品描述,利用模型批量生成大量的產(chǎn)品概念圖,從而給設(shè)計者提供了可供選擇的樣例空間,降低設(shè)計環(huán)節(jié)的工作量。
如今,基于給定文本生成圖像任務(wù)的實現(xiàn)都是基于從大量的圖像數(shù)據(jù)中學(xué)習(xí)并模擬其數(shù)據(jù)的分布形式來生成盡可能接近真實的圖像,尤其在對抗生成網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)[2]的火熱發(fā)展下,借助其來實現(xiàn)文本生成圖像的任務(wù)已經(jīng)成為了主流選擇,目前也有許多生成效果優(yōu)秀的模型被提出。在這一研究方面,研究者所關(guān)注的重點(diǎn)是如何能夠提高生成模型生成圖片的真實性、清晰度、多樣性、解析度等問題,這些將直接影響生成模型的質(zhì)量和性能,并關(guān)系到生成模型能否有效投入到實際應(yīng)用當(dāng)中。
然而如果考慮到實際應(yīng)用,圖像好看,或者有足夠的美觀度也是一項重要的需求。比如為平面廣告設(shè)計配圖,對圖像的要求不僅是清晰、真實,還應(yīng)該擁有較高的美觀度,從而能夠吸引人的眼球,提高廣告的關(guān)注度??梢哉f,如果能夠?qū)崿F(xiàn)提高此類模型生成圖片的美觀度,則在實際應(yīng)用場景中將會給用戶帶來更加良好的使用體驗,從而提高此類應(yīng)用的質(zhì)量。遺憾的是,現(xiàn)在對文本生成圖像GAN的研究很少關(guān)注生成圖像的美觀質(zhì)量,現(xiàn)有文獻(xiàn)中也并未發(fā)現(xiàn)有將美學(xué)評判與圖像生成相結(jié)合的研究,這成為了本文研究的動機(jī)。
由此引出另一個問題:如何評判一幅圖像的美觀度。圖像的美觀度評判實際上是一項帶有主觀性質(zhì)的任務(wù),每個人因不同的閱歷、審美觀甚至所處環(huán)境、情感狀態(tài)等多方面因素的影響,對同一幅圖像有可能會給出完全不同的評價。然而,面對互聯(lián)網(wǎng)空間與日俱增的圖片數(shù)量,借助人力對其進(jìn)行美觀度的評價是不切實際的。因此,研究借助計算機(jī)進(jìn)行自動化圖像美觀度評判成為了計算機(jī)視覺領(lǐng)域另一項研究課題,至今也有許多研究者提出了實現(xiàn)原理各異且效果優(yōu)良的美觀度評判模型。借助這些模型,可以對目標(biāo)圖像進(jìn)行分類或評分,給出盡可能接近符合多數(shù)人評價標(biāo)準(zhǔn)的評判結(jié)果。
借此,本文致力于研究從美觀度的角度對文本生成圖像GAN的生成結(jié)果進(jìn)行優(yōu)化的方法。本文的貢獻(xiàn)和創(chuàng)新點(diǎn)如下:
1)從實際應(yīng)用的角度出發(fā),將生成結(jié)果美觀度加入評價文本生成圖像GAN模型生成結(jié)果的評價指標(biāo),以目前受到較高認(rèn)可度的文本生成圖像GAN模型——StackGAN++[3]為基礎(chǔ),從美觀度的角度對其生成結(jié)果進(jìn)行評估,以觀察其生成結(jié)果的美觀度質(zhì)量。
2)將美觀度評判模型融入該GAN的生成模型當(dāng)中,通過增添美學(xué)損失的方式改造生成模型,從而在模型訓(xùn)練過程中加入美學(xué)控制因素,引導(dǎo)模型生成美觀度更高的結(jié)果。本文提出的改進(jìn)方法使得模型生成圖像的總體美學(xué)質(zhì)量(以IS(InceptionScore)為評價指標(biāo)[4])提高了2.68%,其生成圖像結(jié)果整體的美觀度指標(biāo)提高了3.17%。
1相關(guān)工作
1.1美觀度評判模型
隨著網(wǎng)絡(luò)空間中圖片數(shù)量的急速增長,在圖片檢索領(lǐng)域為了能夠更好地為用戶甄選返回圖像的質(zhì)量、給用戶返回更高質(zhì)量的搜索結(jié)果,對圖片按美學(xué)質(zhì)量進(jìn)行分類的需求逐漸增加。圖片所附帶的數(shù)據(jù)標(biāo)簽(如喜歡該圖的人的數(shù)量、圖片內(nèi)容等)可以作為美觀度評價的一類較為有效的標(biāo)準(zhǔn),但大部分的圖片并不存在類似這樣的標(biāo)簽,雖然如今有許多研究已能夠做到給圖片準(zhǔn)確高效地進(jìn)行標(biāo)簽標(biāo)注[5],然而即使每幅圖片均被標(biāo)注了足夠用以進(jìn)行評判的標(biāo)簽,圖片龐大的數(shù)量又使得人工評判工作量巨大,因此需要能夠?qū)D片進(jìn)行美觀度評判的模型,由計算機(jī)來完成這一任務(wù)。
受到心理學(xué)、神經(jīng)科學(xué)等領(lǐng)域中對人類美學(xué)感知的研究成果啟發(fā),計算機(jī)視覺領(lǐng)域的研究者們通過模擬、復(fù)現(xiàn)人類處理接收到的圖像視覺信息的過程,設(shè)計實現(xiàn)了一系列自動評判圖片美學(xué)質(zhì)量的模型[6]。圖像美觀度評判模型一般遵循一個固定的流程:首先對輸入圖像進(jìn)行特征提取,然后借助提取的特征,利用訓(xùn)練好的分類或回歸算法獲得相應(yīng)的結(jié)果。
特征提取則是其中非常重要的一環(huán),因為特征信息是對圖像美學(xué)質(zhì)量的概括,其決定了美觀度評判模型的精確度。選取得當(dāng)?shù)奶卣骷饶芴岣吣P驮u判的精確度,又能減少不必要的計算量,因為不同特征對于圖像美學(xué)質(zhì)量的貢獻(xiàn)度是不同的[7]。早期的研究中,研究者們通常選擇以繪畫、攝影所用的美學(xué)規(guī)則理論和人的直觀感受為依據(jù),自主設(shè)計所要提取的特征,比如清晰度、色調(diào)、三分規(guī)則等。這類方法的好處是直觀、易于理解,但缺點(diǎn)在于所設(shè)計的特征通常不能很全面地描述圖像美學(xué)信息,而且設(shè)計特征對于研究者的工程能力和相關(guān)領(lǐng)域知識了解程度都有較高的要求。而隨著深度學(xué)習(xí)領(lǐng)域的不斷發(fā)展,將卷積神經(jīng)網(wǎng)絡(luò)(ConvolitionalNeuralNetworks,CNN)應(yīng)用于圖像處理這一方式展現(xiàn)出了卓越的效果。借助CNN能夠從大量的圖像數(shù)據(jù)中學(xué)習(xí)到有力的圖像特征表示,其所包含的信息量遠(yuǎn)超人工特征設(shè)計所設(shè)定的特征[8],從而使得CNN處理圖像的方式在圖像處理領(lǐng)域得到廣泛應(yīng)用,并逐漸成為主流選擇的方法。深度學(xué)習(xí)方法應(yīng)用于圖像美觀度評判的特征提取環(huán)節(jié),主要有2種方式:第1種是借助已有的深度學(xué)習(xí)圖像處理模型,利用其中間層特征作為評判依據(jù),采用傳統(tǒng)的分類或回歸方法進(jìn)行美觀度評判;第2種是對已有的模型進(jìn)行改造,使得其能夠從圖像數(shù)據(jù)中學(xué)習(xí)到新的隱藏的美學(xué)特征,并借此對圖像的美觀度作出評判。
本文采用的是Kong等[9]設(shè)計的美觀度評判模型。該模型隨AADB(AestheticsandAttributesDatabase)數(shù)據(jù)集一同提出,其基于AlexNet[8]改造得來,通過提取圖片的內(nèi)容特征以及自定義的屬性標(biāo)簽特征來幫助判斷圖像的美觀度。此外,該模型吸收了Siamese網(wǎng)絡(luò)[10]的結(jié)構(gòu),實現(xiàn)了接收兩幅一組的圖像作為輸入并給出它們之間相對評分的功能,同時提出了2種對圖像進(jìn)行成對采樣的訓(xùn)練方式來輔助增加結(jié)果的精確度。實驗結(jié)果表明該模型在AVA(AestheticVisualAnalysis)數(shù)據(jù)集上的判別準(zhǔn)確率達(dá)到77.33%,超過了當(dāng)時已有的許多模型的表現(xiàn)。作者并未對該模型進(jìn)行命名,為方便說明,下文中統(tǒng)一用“AADB模型”對其進(jìn)行代指。
1.2文本生成圖像GAN
GAN的提出是機(jī)器學(xué)習(xí)領(lǐng)域一項重大的突破,其為生成模型的訓(xùn)練提供了一種對抗訓(xùn)練的思路。相比于傳統(tǒng)的生成模型如變分自編碼器、玻爾茲曼機(jī),GAN優(yōu)勢有:其訓(xùn)練只需借助反向傳播而不需要馬爾可夫鏈、能夠產(chǎn)生全新的樣本以及更加真實清晰的結(jié)果、簡化任務(wù)設(shè)計思路等,因此,其成為了現(xiàn)今機(jī)器學(xué)習(xí)領(lǐng)域十分火熱的研究課題。
GAN的結(jié)構(gòu)一般可分為兩部分:生成器部分,負(fù)責(zé)接收一段隨機(jī)噪聲作為輸入來生成一定的結(jié)果;判別器部分,負(fù)責(zé)接收訓(xùn)練數(shù)據(jù)或生成器生成的數(shù)據(jù)作為輸入,判斷輸入是來自哪一方。生成器的最終目標(biāo)是生成能夠徹底欺騙判別器的數(shù)據(jù),即判別器無法區(qū)分輸入數(shù)據(jù)來自真實數(shù)據(jù)分布還是生成器擬合的數(shù)據(jù)分布;而判別器的最終目標(biāo)是有效區(qū)分其輸入來源,識別出來自生成器的輸入。GAN的訓(xùn)練正是基于這種博弈的過程,令生成器和判別器二者之間進(jìn)行對抗,交替更新參數(shù),當(dāng)模型最終達(dá)到納什均衡時,生成器即學(xué)習(xí)到了訓(xùn)練數(shù)據(jù)的數(shù)據(jù)分布,產(chǎn)生相應(yīng)的結(jié)果。
雖然GAN擁有良好的表現(xiàn)力和極大的發(fā)展?jié)摿?,但其本身還存在一些缺點(diǎn),比如訓(xùn)練困難、無監(jiān)督使得生成結(jié)果缺少限制、模式崩潰、梯度消失等問題。后續(xù)許多研究者對GAN從結(jié)構(gòu)[11]、訓(xùn)練方法[12]或?qū)崿F(xiàn)方法[13]上進(jìn)行了改進(jìn),逐漸提高了GAN訓(xùn)練的穩(wěn)定性和生成效果。此外,CGAN(ConditionalGAN)[14]將條件信息與生成器和判別器的原始輸入拼接形成新的輸入,用以限制GAN生成和判別的表現(xiàn),使得GAN生成結(jié)果的穩(wěn)定性得到提高。
利用GAN來實現(xiàn)文本生成圖像任務(wù)也是基于CGAN的思想,以文本-圖像組合為訓(xùn)練數(shù)據(jù),文本作為輸入數(shù)據(jù)的一部分,在生成器中與隨機(jī)噪聲拼接作為生成器的整體輸入,在判別器中則用于形成不同的判斷組合——真實圖片與對應(yīng)文本、真實圖片與不匹配文本、生成器生成圖片與任意文本并進(jìn)行鑒別。文本數(shù)據(jù)通常會借助其他編碼模型將純文字信息轉(zhuǎn)化為一定維數(shù)的文本嵌入向量,用以投入模型的訓(xùn)練計算當(dāng)中。最先利用GAN實現(xiàn)文本生成圖像任務(wù)的是Reed等[15]提出的GAN-INT-CLS模型,其吸收了CGAN和DCGAN(DeepConvolutionalGAN)[11]的思想,同時提出改進(jìn)判別器接收的文本-圖像組合輸入(新增真實圖像與不匹配文本的組合)以及通過插值的方式創(chuàng)造新的文本編碼向量兩種方法來提高生成結(jié)果的質(zhì)量和豐富度,生成了64×64大小的圖像。隨后該領(lǐng)域的一項重要突破是Zhang等[16]提出的StackGAN模型,該模型通過使用2個生成器的方式生成圖像,首次實現(xiàn)了只借助給定文本的條件下生成256×256大小的圖像。該模型中,第1個生成器接收隨機(jī)噪聲與文本向量的拼接來生成64×64大小的中間結(jié)果,第2個生成器則使用該中間結(jié)果與文本向量作為輸入,這種方式可以實現(xiàn)利用文本信息對中間結(jié)果進(jìn)行修正和細(xì)節(jié)補(bǔ)充,來獲得質(zhì)量更高的256×256大小圖像的結(jié)果。
在StackGAN的理論基礎(chǔ)上,Zhang等[3]提出了StackGAN++模型。該模型使用3個生成器-判別器組以類似樹狀的方式連接,其中3個生成器分別對應(yīng)生成64×64、128×128、256×256大小的圖像,第1個生成器以文本向量和隨機(jī)噪聲的拼接為輸出,之后每一個生成器接收前一個生成器生成的圖像結(jié)果與文本向量作為輸入,生成下一階段的圖像結(jié)果;每一個判別器接收對應(yīng)階段的生成器的輸出與文本向量進(jìn)行判別,計算條件生成損失。此外,Zhang等[3]引入了無條件生成損失,即計算在不使用文本信息的情況下生成圖片的損失,與條件生成損失相結(jié)合,引導(dǎo)模型的訓(xùn)練,最終進(jìn)一步提高了生成圖片的質(zhì)量。本文即選用了該模型進(jìn)行基于美學(xué)評判的優(yōu)化改進(jìn)研究。
此后文本生成圖像GAN的研究多在類似StackGAN++的多階段生成模式基礎(chǔ)上,通過加入各種輔助信息來幫助生成器生成更好的結(jié)果,如AttnGAN(AttentionalGAN)[17]引入了注意力機(jī)制,分析對比生成圖像與對應(yīng)文本之間的特征相似度,并利用對比結(jié)果輔助生成器的訓(xùn)練;Cha等[18]則通過引入感知損失的方式,從圖像特征層面進(jìn)行對比來輔助生成器更好地學(xué)習(xí)到訓(xùn)練數(shù)據(jù)的分布。
2StackGAN++的美學(xué)質(zhì)量分析
在提出基于美學(xué)評估的對StackGAN++模型的優(yōu)化方法之前,需要了解該模型目前生成結(jié)果的美學(xué)質(zhì)量如何。本節(jié)將利用AADB模型對其進(jìn)行初步測量。
本節(jié)實驗使用的StackGAN++模型是基于Caltech-UCSDBirds200鳥類圖像數(shù)據(jù)庫2011版訓(xùn)練的鳥類圖像生成模型,其測試數(shù)據(jù)集中包含2933張圖像,每張圖像對應(yīng)10條文本說明,其中文本數(shù)據(jù)需經(jīng)過char-CNN-RNN模型編碼。Zhang等[3]給出了其模型源碼的github地址(https://github.com/hanzhanggit/StackGAN-v2)。
本文實驗運(yùn)行于Ubuntu16.04操作系統(tǒng),使用GeForceGTX1080Ti顯卡進(jìn)行訓(xùn)練。軟件環(huán)境方面,本實驗利用Adaconda2搭建python2.7虛擬環(huán)境,并需要安裝Pytorch1.0以及caffe1.0(分別對應(yīng)StackGAN++以及AADB模型運(yùn)行所需)。
2.1測試數(shù)據(jù)集生成結(jié)果的美觀度分布
首先針對測試數(shù)據(jù)集所產(chǎn)生的樣本進(jìn)行美觀度評判,觀察其分布狀況。理論情況下,訓(xùn)練數(shù)據(jù)集中包含了29330條語句對應(yīng)的嵌入向量,經(jīng)由生成模型后獲得29330張圖像結(jié)果,實際運(yùn)行中由于StackGAN++模型所采用的批處理訓(xùn)練策略,最終生成圖像數(shù)量為29280張,但從整體數(shù)量的規(guī)模來看并不影響對于其整體美觀度評價的判斷。利用AADB模型獲得生成圖像的美學(xué)分?jǐn)?shù),其分布如圖1所示。
由AADB模型計算得出的美學(xué)分?jǐn)?shù)集中于[0,1]區(qū)間,在特殊情況下會超過1。為了便于標(biāo)注美學(xué)分?jǐn)?shù)的分布區(qū)間,在繪制區(qū)間分布柱狀圖時,將由AADB模型獲取的美學(xué)分?jǐn)?shù)(超過1的截斷至0.9999)乘以10,這種表示方法也符合實際生活中人工評判時的常用取值范圍選擇;在展示降序分布時則直接采用模型輸出的結(jié)果范圍來標(biāo)注分?jǐn)?shù)坐標(biāo)軸。圖1(a)表明,原始StackGAN++在測試數(shù)據(jù)集上生成圖像的美學(xué)分?jǐn)?shù)集中在5~8的區(qū)間段內(nèi),占總體的78.6%,其中6~7區(qū)間段內(nèi)的圖像數(shù)量最多,占整體結(jié)果數(shù)量的33.9%。而圖1(b)表明,在5~8區(qū)間段內(nèi),圖像的美學(xué)分?jǐn)?shù)變化呈現(xiàn)出均勻平緩的變化趨勢,并沒有出現(xiàn)在某一節(jié)點(diǎn)大幅變動的情況。
29280張生成結(jié)果的平均美學(xué)分?jǐn)?shù)為0.62828。根據(jù)AADB模型作者給出的評判標(biāo)準(zhǔn),一張圖片的分?jǐn)?shù)超過0.6則可以認(rèn)為是一張好圖片,低于0.4則認(rèn)為是一張差圖片,在兩者之間認(rèn)為是一張一般性質(zhì)圖片,而本文出于后續(xù)實驗樣本劃分的考慮,將好圖片的下限標(biāo)準(zhǔn)提高至0.65,差圖片的上限標(biāo)準(zhǔn)提高至0.5。由此來看,模型的平均結(jié)果處于一般質(zhì)量的區(qū)間,說明原模型的整體生成結(jié)果從美觀度的角度來講仍然存在可以提升的空間。本文從全部生成結(jié)果中選擇美學(xué)分?jǐn)?shù)最高以及最低的圖片各10張的結(jié)果,交由真人進(jìn)行主觀評判,其結(jié)果均與美學(xué)分?jǐn)?shù)表現(xiàn)出對應(yīng)關(guān)系,即認(rèn)為最高分?jǐn)?shù)的10張圖片擁有較高的美觀度,而最低分?jǐn)?shù)的10張圖片則評價一般或交叉表明AADB模型給出的美學(xué)分?jǐn)?shù)對圖像美觀度的評價能較好地符合人的直觀感受。
2.2固定文本批量生成圖像結(jié)果的美觀度分布
如果想要達(dá)成提高生成模型美觀度質(zhì)量的目標(biāo),一個簡單的想法是,可以對同一條語句,一次性批量生成大量的圖片,按美觀度模型給出的分?jǐn)?shù)進(jìn)行降序排序,從中選出分?jǐn)?shù)最高圖像作為輸出結(jié)果,或以分?jǐn)?shù)排序最靠前(分?jǐn)?shù)最高)的一定數(shù)量的圖像作為輸出結(jié)果,再交由模型使用者自行判斷選擇最終的結(jié)果。這種方法雖然存在嚴(yán)重的效率問題,但易于實現(xiàn)且非常直觀。其中的問題在于確定生成圖像的數(shù)量,因為隨著生成圖像數(shù)量的增加,其多樣性也會隨之增加。也更容易出現(xiàn)更多美觀度高的圖像結(jié)果,但進(jìn)行美觀度評判以及排序選擇的時間消耗也會隨之增加,因此若選擇此種做法作為優(yōu)化方法,需要在生成結(jié)果質(zhì)量以及模型運(yùn)行效率之間尋求一個平衡點(diǎn)。
基于以上考慮,除對測試集整體進(jìn)行美觀度評判以外,還從中選擇一批(實驗設(shè)定為24)數(shù)量的文本輸入數(shù)據(jù),針對每一條文本數(shù)據(jù)生成不同數(shù)量的圖片來觀察其美學(xué)分?jǐn)?shù)的分布。選擇100、200、350、500、750、1000共6種生成數(shù)量,針對選定的文本數(shù)據(jù)生成對應(yīng)數(shù)量的圖像,利用AADB模型計算生成結(jié)果的美學(xué)分?jǐn)?shù)。圖2展示了其中一條文本的結(jié)果。結(jié)果表明,美學(xué)分?jǐn)?shù)在各個區(qū)間的分布狀況是相近的,基本不受一次性生成數(shù)量的影響。6組結(jié)果都表現(xiàn)出生成圖像的美學(xué)分?jǐn)?shù)集中于5~7的區(qū)間內(nèi)的分布狀況,且隨著生成數(shù)量的增加,高分圖像的出現(xiàn)頻率也越來越高。表1展示了6組分布結(jié)果中最高分?jǐn)?shù)圖像的分?jǐn)?shù)與分?jǐn)?shù)前10高圖像的平均分?jǐn)?shù),表明了一次性生成數(shù)量越多,即使是處于高分分段的圖像其整體的質(zhì)量也會得到提高,也驗證了本節(jié)第一段所述的情況。但面對最高分?jǐn)?shù)的情況,因生成模型會以隨機(jī)噪聲作為輸入來生成圖像,這導(dǎo)致了其對生成結(jié)果的不可控性,所以生成結(jié)果會出現(xiàn)一定的擾動,使得最高分圖像的分?jǐn)?shù)與生成數(shù)量之間并不存在確定的正相關(guān)關(guān)聯(lián)性。
3基于美學(xué)評判的圖像生成優(yōu)化
原始的StackGAN++模型采用了3組生成器-判別器組合,以類似樹狀的方式進(jìn)行連接,每一個生成器生成不同尺寸的圖像,并作為下一個生成器輸入數(shù)據(jù)的一部分。其中每一個生成器的損失LGi(i=1,2,3)計算式為
pagenumber_ebook=102,pagenumber_book=2443
式中:pGi為生成器Gi學(xué)習(xí)到的數(shù)據(jù)分布;si為生成器Gi生成的結(jié)果;c為文本向量;Di為與生成器Gi對應(yīng)的判別器,其接收單個輸入si或雙輸入si和c,輸出相應(yīng)的判別結(jié)果;E[·]表示期望函數(shù)。
該損失計算方式由兩部分組成,前一部分計算生成器不利用文本向量生成圖像的損失,即無條件損失,該部分用以監(jiān)督生成器生成更加真實的、使判別器認(rèn)為來自于真實數(shù)據(jù)分布的數(shù)據(jù);后一部分計算生成器利用了文本向量生成圖像的損失,即條件損失,該部分用來監(jiān)督生成器生成符合輸入文本描述的圖像,即保證文本與圖像之間的一致性。在StackGAN++的理論描述中,Zhang等[3]認(rèn)為每一個生成器生成的圖像雖然大小不同,但都是基于同一條文本生成的,所以它們彼此之間應(yīng)該保持相似的色彩和基本結(jié)構(gòu),并提出了色彩一致性損失用來保證3個生成器生成圖像之間擁有較高的色彩一致性。但經(jīng)過實驗作者發(fā)現(xiàn)在基于文本生成的模式下,色彩一致性所起到的作用十分微弱,因為其對生成結(jié)果的約束力要遠(yuǎn)遠(yuǎn)小于文本-圖像一致性的約束,即式(1)中的Esi~pGi[lnDi(si,c)]。式(2)為生成器的總體損失(下文稱為對抗損失)計算公式,用于訓(xùn)練過程中的梯度計算。
受到Johnson等[19]提出的感知損失的啟發(fā),本文將AADB模型與StackGAN++的生成器結(jié)合,用于在生成模型訓(xùn)練過程中提供輔助訓(xùn)練信息,達(dá)成從美學(xué)角度來優(yōu)化生成模型的目的。具體地,在式(2)的基礎(chǔ)上,加入一項新定義的損失——美學(xué)損失Laes,其計算式為
式中:Aes函數(shù)表示使用AADB模型計算生成結(jié)果s3的美學(xué)分?jǐn)?shù)。2.1節(jié)中,AADB模型計算得出的美學(xué)分?jǐn)?shù)存在超過1的情況,因此在計算美學(xué)損失時,會對模型返回的美學(xué)分?jǐn)?shù)進(jìn)行判斷,如果其超過了1,則將其截斷至0.9999。該損失實際計算了最后一階段生成器G3生成結(jié)果的美學(xué)分?jǐn)?shù)與1之間的歐幾里得距離,最小化該損失即最小化生成結(jié)果美學(xué)分?jǐn)?shù)與1之間的差距,代表了生成結(jié)果美學(xué)質(zhì)量的提升。最后,加入了美學(xué)損失后新的生成器損失計算公式為
式中:β為美學(xué)損失的權(quán)重,用來控制其在總體損失中所占的比例,β越大則美學(xué)損失所占的比例越大。β為0時,模型即還原為StackGAN++。
由于美學(xué)損失的作用是引導(dǎo)生成器生成美觀度更高的圖像,而對抗損失則是控制整個訓(xùn)練過程以及生成結(jié)果的關(guān)鍵,保證了生成器能夠生成符合文本描述的真實圖像,這是文本生成圖像模型最基本的目的,因此β值的選擇應(yīng)當(dāng)在保證在訓(xùn)練過程中美學(xué)損失起到的調(diào)控作用不會壓過對抗損失的前提下對生成結(jié)果的美觀度產(chǎn)生影響。
4實驗與性能評估
選取不同的美學(xué)損失權(quán)重β進(jìn)行訓(xùn)練,以IS作為訓(xùn)練獲得模型的質(zhì)量的衡量指標(biāo),在保證IS與原模型相比不降低的前提下,觀察其生成結(jié)果的美觀度分布情況。IS是借助InceptionModel[20]計算得出的用來衡量GAN圖像生成效果的最常用指標(biāo)之一,通常情況下其數(shù)值越大代表GAN生成的圖像具有更高的多樣性和真實性,進(jìn)而代表生成圖像的總體質(zhì)量更好。在文本生成圖像GAN領(lǐng)域,IS被廣泛用來進(jìn)行不同GAN之間的效果對比。
本節(jié)所使用的環(huán)境與第2節(jié)對StackGAN++本身進(jìn)行美學(xué)質(zhì)量分析的實驗環(huán)境相同,故此處不再贅述。模型訓(xùn)練過程采用批訓(xùn)練策略,每個批包含24條文本嵌入向量,每一個時期(epoch)中包含368個批的訓(xùn)練過程,下文將一個批完成一次訓(xùn)練的過程稱為一步(step)。訓(xùn)練過程包含600個時期,并于每2000步的時間節(jié)點(diǎn)保存一次模型參數(shù),以便于訓(xùn)練完成后根據(jù)保存時模型的表現(xiàn)選取效果最好的模型。本文提出的優(yōu)化方法的實現(xiàn)流程如圖3所示。
本文選取β=45,0,0.0001,分別進(jìn)行了訓(xùn)練。選擇45是因為,觀察StackGAN++訓(xùn)練時生成器的對抗損失發(fā)現(xiàn)對抗損失與美學(xué)損失的比值在50左右。因此,當(dāng)β=45時,對抗損失與經(jīng)權(quán)重放大的美學(xué)損失在數(shù)值上比較接近;1與0.0001是基于經(jīng)驗的選擇,取β=1時美學(xué)損失與對抗損失平權(quán),而β=0.0001則是參考了Cha等[18]提出的感知損失的權(quán)重選取。訓(xùn)練完成后,對應(yīng)每個β取值各形成了一組于不同時間節(jié)點(diǎn)保存的模型,分別從中選取IS分?jǐn)?shù)最高的模型作為對應(yīng)取值下的結(jié)果模型。在對選定的模型進(jìn)行美學(xué)質(zhì)量評判之前,需要先考察它們所生成的圖片的總體質(zhì)量,以確保在引入了美學(xué)損失后沒有出現(xiàn)模型生成圖像質(zhì)量下降的情況。表2展示了3種取值對應(yīng)模型與原模型的IS數(shù)據(jù),其中β為0即代表未引入美學(xué)損失的原始StackGAN++模型。
通過對比,當(dāng)β=0.0001時,模型在IS上取得最高的數(shù)值,并且超過了原始模型的IS,表明美學(xué)損失的引入還起到了提高模型生成效果的正面效應(yīng)。這是可以理解的,因為當(dāng)生成器生成了一幅效果很差的圖像,例如模糊不清或主體扭曲變形,此時美觀度評判模型將會給出較低的分?jǐn)?shù),使得美學(xué)損失增大并導(dǎo)致生成器總損失增大。此外,當(dāng)β=45時,模型的IS分?jǐn)?shù)降低,表現(xiàn)為生成器生成圖像的質(zhì)量有所下降。對β=45時獲得的模型所生成的圖像進(jìn)行人工評判的結(jié)果也反映出這時生成圖像出現(xiàn)了更多的模糊、失真等不良結(jié)果。因此,β=45的情況已無繼續(xù)討論的價值,此后美學(xué)層面的實驗和數(shù)據(jù)統(tǒng)計也不再考慮此種情況。當(dāng)β=1時,模型的IS與原模型相比十分接近,還需通過美學(xué)分?jǐn)?shù)的分布對比來確定在此情況下美學(xué)損失是否起到了優(yōu)化的作用。
為了驗證美學(xué)損失是否對生成模型結(jié)果的美學(xué)質(zhì)量起到了優(yōu)化作用,接下來計算了使用β=1,0.0001這2種情況的模型在測試數(shù)據(jù)集上生成的29280張圖像的美學(xué)分?jǐn)?shù)分布情況;同時針對一個批的24條文本嵌入向量,每條文本生成1000張圖像,計算其美學(xué)分?jǐn)?shù)的分布,數(shù)據(jù)結(jié)果如圖4所示(這里選出一條文本生成的1000張圖像的美學(xué)分?jǐn)?shù)分布進(jìn)行展示)。表3展示了2種β取值下模型在測試數(shù)據(jù)集上的生成結(jié)果的美學(xué)分?jǐn)?shù),同時一并列出了原模型在測試數(shù)據(jù)集上生成結(jié)果的美學(xué)分?jǐn)?shù)作為對比。從表中可知,當(dāng)β=0.0001時,由測試數(shù)據(jù)集生成的圖像其平均美學(xué)分?jǐn)?shù)與原模型相比提高了3.17%;表4給出了原模型與β=0.0001優(yōu)化模型分別生成的24組針對同一條文本的1000幅圖像平均美學(xué)分?jǐn)?shù)對比情況,也可以發(fā)現(xiàn)大部分文本生成結(jié)果的美學(xué)分?jǐn)?shù)與原模型的生成結(jié)果相比有所提高。同時由圖4所示的美學(xué)分?jǐn)?shù)分布情況也能看出,此時高分段圖像的數(shù)量增加,較低分段圖像的數(shù)量減少,表明美學(xué)損失起到了調(diào)控生成結(jié)果美觀度的作用。圖5展示了原模型與β=0.0001的優(yōu)化模型使用4條文本對應(yīng)生成的1000張圖像中等距抽取10張圖像的結(jié)果(每個分圖第1行為原模型,第2行為優(yōu)化模型,每個模型對每條文本均生成1000張圖像),每行圖像從左到右按美學(xué)分?jǐn)?shù)從高到低的順序排列,從中可以直觀感受到,經(jīng)過美學(xué)優(yōu)化的生成模型所生成的圖像結(jié)果在色彩對比度、整體色調(diào)、背景虛化簡單化等方面均有一定優(yōu)勢,反映了其美觀評價相比原模型有所提升。
5結(jié)論
本文提出了一種基于美學(xué)評判的文本生成圖像GAN的優(yōu)化方法,利用美觀度評判模型獲得生成器生成圖像的美學(xué)分?jǐn)?shù),計算該生成圖像的美學(xué)損失,與模型本身的對抗損失以適當(dāng)?shù)臋?quán)重關(guān)系相結(jié)合,作為該生成器新的損失并重新訓(xùn)練模型,最后對獲得的新模型生成的圖像進(jìn)行了美學(xué)質(zhì)量的統(tǒng)計與和原模型的對比。實驗所得結(jié)論如下:
1)經(jīng)過本文方法獲得的生成模型,其生成結(jié)果的美觀度與原模型相比得到了提升,同時IS分?jǐn)?shù)也有所提高,表明美學(xué)損失能夠起到提高生成模型質(zhì)量的作用。