音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測(cè)網(wǎng)的測(cè)試
時(shí)間:2022-01-29 10:28:31
導(dǎo)語(yǔ):音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測(cè)網(wǎng)的測(cè)試一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。
摘要:目前開(kāi)展的電視廣播信號(hào)內(nèi)容監(jiān)測(cè)業(yè)務(wù)主要由人工完成,隨著監(jiān)測(cè)業(yè)務(wù)的不斷擴(kuò)展,面對(duì)海量的數(shù)據(jù),實(shí)現(xiàn)對(duì)電視廣播信號(hào)內(nèi)容自動(dòng)監(jiān)測(cè)的迫切性日益增加,需要全面提高現(xiàn)有監(jiān)測(cè)系統(tǒng)的智能化水平。本文主要就音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)中的測(cè)試展開(kāi)敘述。
關(guān)鍵詞:廣播電視;語(yǔ)音監(jiān)測(cè);海外廣播網(wǎng);測(cè)試
近年來(lái),我國(guó)的廣播電視監(jiān)測(cè)事業(yè)發(fā)展迅猛,廣播電視監(jiān)測(cè)工作已經(jīng)進(jìn)入到了一個(gè)新的時(shí)代。廣播電視監(jiān)測(cè)工作已由過(guò)去被動(dòng)的事后服務(wù)轉(zhuǎn)變?yōu)榉e極主動(dòng)的過(guò)程服務(wù),由過(guò)去靠人工的、傳統(tǒng)落后的手段變?yōu)閿?shù)字化、網(wǎng)絡(luò)化、自動(dòng)化的方式,由過(guò)去單一的無(wú)線廣播監(jiān)測(cè)向廣播電視全面、全方位監(jiān)測(cè)發(fā)展。2002年,廣電總局實(shí)施“走出去”工程,以加強(qiáng)我國(guó)對(duì)外廣播電視宣傳,同時(shí),在海外建立了環(huán)球廣播監(jiān)測(cè)網(wǎng),加強(qiáng)對(duì)中國(guó)國(guó)際廣播電臺(tái)對(duì)外廣播效果和租機(jī)/互轉(zhuǎn)的電臺(tái)播出的監(jiān)督、檢查,提高對(duì)外廣播效果。我國(guó)在各國(guó)的駐外大使館都有相應(yīng)的信號(hào)采集設(shè)備,收集當(dāng)?shù)氐膶?duì)華廣播落地信號(hào),然后對(duì)信號(hào)進(jìn)行壓縮,通過(guò)互聯(lián)網(wǎng)傳回到國(guó)內(nèi)的監(jiān)測(cè)中心,進(jìn)行內(nèi)容監(jiān)測(cè),從而發(fā)現(xiàn)對(duì)我國(guó)社會(huì)、經(jīng)濟(jì)、外交等有用的重要信息。截至目前,海外監(jiān)測(cè)網(wǎng)已經(jīng)在50個(gè)國(guó)家相繼建立了54個(gè)無(wú)人值守遙控監(jiān)測(cè)站點(diǎn),每日可監(jiān)測(cè)中國(guó)國(guó)際廣播電臺(tái)對(duì)外播出的32種語(yǔ)言、383個(gè)頻率的廣播效果。將音頻識(shí)別、文本檢索、圖像處理等新技術(shù)實(shí)際應(yīng)用于目前主要靠人工完成廣播信號(hào)內(nèi)容監(jiān)測(cè)業(yè)務(wù),充分利用計(jì)算機(jī)對(duì)于海量節(jié)目?jī)?nèi)容自動(dòng)處理具有的速度快、效率高、可以控制漏檢率等特點(diǎn),將眾多的先進(jìn)技術(shù)服務(wù)與廣電監(jiān)測(cè)行業(yè)相結(jié)合。
一、音頻內(nèi)容綜合處理技術(shù)
(一)廣播音頻信號(hào)介紹
真實(shí)應(yīng)用環(huán)境下的語(yǔ)音現(xiàn)象非常豐富,以海外監(jiān)測(cè)機(jī)房短波音質(zhì)廣播語(yǔ)音為例(如圖1)。圖1海外監(jiān)測(cè)機(jī)房典型語(yǔ)音廣播音頻信號(hào)具有以下特點(diǎn):1.信號(hào)在傳送過(guò)程中,由于干擾使得包含的噪聲很不穩(wěn)定,主要表現(xiàn)在兩方面:一是同一個(gè)音頻片段里的噪聲變化不均勻,時(shí)大時(shí)小;二是不同的音頻片段的信噪比差別較大。這就使得有的音頻片斷的信號(hào)質(zhì)量好一些,而有的音頻片斷的信號(hào)質(zhì)量卻很差。2.由于是電臺(tái)節(jié)目信號(hào),所以包含了各種各樣的音頻類(lèi)型,既有純凈的語(yǔ)音,也有帶音樂(lè)或噪聲背景的語(yǔ)音,既有音樂(lè)歌曲,也有強(qiáng)噪聲或者如鼓聲之類(lèi)的環(huán)境音,可以說(shuō)是一種語(yǔ)音、音樂(lè)和噪聲的混合音頻信號(hào)。3.信號(hào)中含有大量的片頭曲,這些片頭曲多是一些具有音樂(lè)背景的報(bào)臺(tái)信號(hào),或者是不同節(jié)目的報(bào)幕信號(hào)。由于片頭曲中含有一定的語(yǔ)言信息,所以即使是同一個(gè)電臺(tái)或同一個(gè)節(jié)目,不同語(yǔ)言的片頭曲也是不同的。此外,由于廣播電臺(tái)的節(jié)目時(shí)刻表比較固定,同一語(yǔ)言播出的節(jié)目中的片頭曲相對(duì)也是固定的,這是一種固定音頻信號(hào)。4.廣播節(jié)目都是以一定的頻率被播出的,在信號(hào)傳送過(guò)程中,某一頻率的節(jié)目信號(hào)有可能被其他節(jié)目的同一頻率信號(hào)完全干擾或臨界干擾,如果兩個(gè)節(jié)目的語(yǔ)言不同,那么將出現(xiàn)兩種或多種語(yǔ)言重疊或交疊出現(xiàn)在同一個(gè)音頻片段中的現(xiàn)象。此外,一個(gè)節(jié)目中也有可能出現(xiàn)多種語(yǔ)言,比如一些語(yǔ)言教學(xué)節(jié)目。5.信號(hào)中的說(shuō)話人不僅有主持人,也有大眾百姓,大家說(shuō)的話不僅有母語(yǔ),也有方言,甚至還有非母語(yǔ)的外國(guó)人在說(shuō)話,而且說(shuō)話的內(nèi)容和說(shuō)話人的性別也是隨機(jī)的。此外語(yǔ)音不僅僅是廣播語(yǔ)音,在一些人物采訪節(jié)目中常常出現(xiàn)電話或麥克風(fēng)語(yǔ)音。6.由于廣播節(jié)目是每天24小時(shí)不間斷地播出的,所以采集的數(shù)據(jù)將是海量的,此外,雖然每段音頻的采集時(shí)長(zhǎng)約57秒鐘,但是如果去除其中的非語(yǔ)音成分,剩下的語(yǔ)音時(shí)長(zhǎng)卻是不定的。從這些特點(diǎn)中不難看出,實(shí)際真實(shí)的音頻信號(hào)是非常復(fù)雜的,這給語(yǔ)種識(shí)別系統(tǒng)的實(shí)際應(yīng)用帶來(lái)了很大的困難和挑戰(zhàn)。音頻內(nèi)容綜合自動(dòng)處理系統(tǒng)的主要處理對(duì)象是語(yǔ)音,對(duì)其內(nèi)容的分析和監(jiān)測(cè)對(duì)象包括內(nèi)容、關(guān)鍵信息、語(yǔ)種等。
(二)音頻內(nèi)容處理技術(shù)基礎(chǔ)框架
當(dāng)前主流語(yǔ)音處理技術(shù)主要基于統(tǒng)計(jì)框架,一般包括以下流程和處理步驟,如圖2所示。圖2基于統(tǒng)計(jì)音頻內(nèi)容計(jì)算技術(shù)框架1.建模數(shù)據(jù)庫(kù)的建立:主流音頻內(nèi)容計(jì)算技術(shù)建立于統(tǒng)計(jì)理論之上。系統(tǒng)性能對(duì)建模數(shù)據(jù)的依賴(lài)很大,因此要求建模數(shù)據(jù)與測(cè)試數(shù)據(jù)在應(yīng)用環(huán)境、說(shuō)話方式等方面有一定的相關(guān)性,否則無(wú)法保證系統(tǒng)在應(yīng)用環(huán)境下的性能。2.特征的選擇與提取:特征是區(qū)分不同類(lèi)事物最根本的屬性,選用不同的特征將帶來(lái)不同的區(qū)分能力使得類(lèi)內(nèi)高偶合、類(lèi)間低聚合。因此對(duì)不同的識(shí)別任務(wù),必須精細(xì)選擇所使用的特征。3.建模技術(shù):模型用于刻畫(huà)不同類(lèi)別之間的本質(zhì)差異,一個(gè)好的建模方法會(huì)顯著提高系統(tǒng)性能。目前主流的建模技術(shù)分為兩類(lèi),一類(lèi)基于最大似然估計(jì)方法,其本質(zhì)是通過(guò)描述特征在空間中的分布參數(shù)來(lái)刻畫(huà)類(lèi)別統(tǒng)計(jì)特性,最常見(jiàn)的模型是高斯混合模型GMM;另一類(lèi)是基于區(qū)分度的估計(jì)方法,其本質(zhì)是通過(guò)描述不同類(lèi)別的分界面信息來(lái)刻畫(huà)類(lèi)別間的特性,最常見(jiàn)的模型是支持向量機(jī)模型SVM。
(三)面向真實(shí)應(yīng)用環(huán)境的音頻內(nèi)容處理框架
對(duì)真實(shí)應(yīng)用環(huán)境語(yǔ)音的處理,需要包括以下流程和處理步驟,如圖3所示。圖3音頻內(nèi)容綜合處理系統(tǒng)框架針對(duì)不同格式的輸入語(yǔ)音進(jìn)行格式轉(zhuǎn)換,統(tǒng)一為wav格式。對(duì)于廣告或含有片頭曲檢出的任務(wù),可以采用固定音頻檢索技術(shù),把片頭曲或廣告作為模板,從音頻信號(hào)中檢索,根據(jù)片頭曲所對(duì)應(yīng)的語(yǔ)種來(lái)確定整個(gè)音頻片段的語(yǔ)種。由于信號(hào)中含有多種音頻類(lèi)型,而諸如音樂(lè)和噪聲之類(lèi)的音頻幾乎不含所需信息,所以需要把音頻信號(hào)分成語(yǔ)音、音樂(lè)和噪聲,以去掉這些不含語(yǔ)種差別信息的非語(yǔ)音信號(hào)。針對(duì)特定應(yīng)用環(huán)境,需要對(duì)音頻信號(hào)的質(zhì)量進(jìn)行評(píng)估,對(duì)信號(hào)質(zhì)量較差的語(yǔ)音降低識(shí)別的置信度。由于音頻信號(hào)含有噪聲較大且不均勻,提取特征時(shí)需要采取一定的噪聲消除技術(shù)。對(duì)于經(jīng)過(guò)增強(qiáng)后的語(yǔ)音,進(jìn)行內(nèi)容識(shí)別、語(yǔ)種識(shí)別及敏感信息監(jiān)測(cè)等內(nèi)容計(jì)算任務(wù)。
二、音頻內(nèi)容綜合處理技術(shù)測(cè)試
(一)場(chǎng)景分析
音頻場(chǎng)景分析的目的是把輸入音頻文件分成語(yǔ)音和非語(yǔ)音,并把其中的非語(yǔ)音成分去掉,僅把語(yǔ)音提出來(lái)用于后續(xù)內(nèi)容計(jì)算。建模數(shù)據(jù)庫(kù):從海外機(jī)房2月15號(hào)至28號(hào)不同語(yǔ)言播出的節(jié)目中人工整理用于音頻分類(lèi)的訓(xùn)練數(shù)據(jù),考慮到訓(xùn)練樣本的平衡,其中語(yǔ)音60M,非語(yǔ)音60M,非語(yǔ)音包括音樂(lè)和噪聲各30M。整理時(shí)把帶強(qiáng)音樂(lè)背景的語(yǔ)音歸為音樂(lè),帶強(qiáng)噪聲背景的語(yǔ)音歸為噪聲,而帶弱音樂(lè)或弱噪聲背景的語(yǔ)音歸為語(yǔ)音。然后使用語(yǔ)音和非語(yǔ)音共120M數(shù)據(jù)訓(xùn)練第一個(gè)分類(lèi)器,用來(lái)區(qū)分語(yǔ)音和非語(yǔ)音,使用音樂(lè)和噪聲共60M數(shù)據(jù)訓(xùn)練第二個(gè)分類(lèi)器,用來(lái)區(qū)分音樂(lè)和噪聲。特征選擇:常用的音頻分類(lèi)特征有16種,其中時(shí)域特征包括7種,即過(guò)零率(Zero-CrossingRate,ZCR)、高過(guò)零率幀的比率(HighZero-CrossingRateRatio,HZCRR)、短時(shí)能量(Short-TimeEnergy,STE)、低能量幀的比率(LowShort-TimeEnergyRatio,LSTER)、短時(shí)能量的均方值(Root-Mean-Square,RMS)、靜音幀的比率(SilenceFrameRatio,SFR)、子頻帶能量分布(Sub-bandEnergyDistribu-tion,SED);頻域特征包括9種,即頻譜差分幅度(SpectrumFlux,SF)、頻譜質(zhì)心(SpectrumCentroid,SC)、頻譜散度(SpectrumSpread,SS)、頻譜截止頻率(SpectralRolloffFre-quency,SRF)、子頻帶周期(Sub-bandPeriodicity,BP)、噪聲幀的比率(NoiseFrameRatio,NFR)、線譜對(duì)(LinearSpec-trumPairs,LSP)、線性預(yù)測(cè)倒譜系數(shù)(LinearPredictionCep-stralCoefficients,LPCC)和梅爾倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCC)。而一些非常用的音頻特征包括短時(shí)基頻(Short-TimeFundamentalFrequency,STFF)和譜峰軌跡(SpectralPeakTrack,SPT)等。我們以高過(guò)零率幀的比率HZCRR和噪聲幀的比率NFR為例,說(shuō)明其對(duì)語(yǔ)音/非語(yǔ)音和音樂(lè)/噪聲具有區(qū)分能力。圖4HZCRR和NFR對(duì)語(yǔ)音/非語(yǔ)音和音樂(lè)/噪聲具有區(qū)分能力如圖4所示,對(duì)輸入音頻分別提取高過(guò)零率幀的比率HZCRR和噪聲幀的比率NFR特征,可發(fā)現(xiàn)語(yǔ)音/非語(yǔ)音HZCRR特征、音樂(lè)/噪聲NFR特征的數(shù)值范圍具有明顯差別,可作為特征區(qū)分兩者。為此,根據(jù)不同特征間的區(qū)分能力及其互補(bǔ)性,系統(tǒng)采用了如下特征:表1音頻分類(lèi)特征集音頻分類(lèi)類(lèi)型特征集語(yǔ)音/非語(yǔ)音BP、HZCRR、LPCC、LSP、LSTER、MF-CC、RMS、SBE、SC、SS、ZCR純語(yǔ)音/非純語(yǔ)音BP、LPCC、LSP、MFCC、RMS、SC、SF、SFR、SS、ZCR音樂(lè)/環(huán)境音BP、NFR、RMS、SBE、SF、STE建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。支持向量機(jī)(SVM)是一種基于現(xiàn)代統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法,在解決有限樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì)。SVM是一種兩類(lèi)樣本分類(lèi)器,其目標(biāo)是在超高維(一般幾十萬(wàn)維)空間找到一個(gè)分類(lèi)超平面,使得它能夠盡可能多的將兩類(lèi)樣本數(shù)據(jù)正確分開(kāi),同時(shí)使分開(kāi)的兩類(lèi)數(shù)據(jù)點(diǎn)距離分類(lèi)面最遠(yuǎn)。一般包括兩個(gè)部分,即特征從原空間到超高維空間的映射和分類(lèi)面學(xué)習(xí)。
(二)音頻信號(hào)質(zhì)量評(píng)估
音頻場(chǎng)景分析的目的是按照我國(guó)《廣播節(jié)目聲音質(zhì)量主觀評(píng)價(jià)方法和技術(shù)指標(biāo)要求》的規(guī)定,對(duì)廣播節(jié)目語(yǔ)音質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。特征選擇和提取:通過(guò)比較和分析,系統(tǒng)選擇語(yǔ)音能量、噪聲能量、信噪比、音樂(lè)/噪聲/語(yǔ)音比例、基于譜熵的可聽(tīng)度估計(jì)幾種特征。建模技術(shù):采用多特征的線性加權(quán)分類(lèi)技術(shù),各特征的加權(quán)系數(shù)經(jīng)驗(yàn)確定。測(cè)試原理如下圖所示:圖6測(cè)試原理性能分析:對(duì)于機(jī)器自動(dòng)評(píng)分和人工評(píng)分不一致的結(jié)果,請(qǐng)值班員幫助判斷。值班員的判斷結(jié)果分為三類(lèi),即人工和自動(dòng)評(píng)分均可、自動(dòng)評(píng)分偏差和人工主觀性因素偏差。對(duì)于自動(dòng)評(píng)分偏差,其主要影響因素是算法參數(shù),為此根據(jù)人工判斷結(jié)果對(duì)算法參數(shù)做適當(dāng)調(diào)整,再次迭代,直至過(guò)程收斂。首先對(duì)3月1日、5日、10日和14日的這4天采集的約6000個(gè)音頻片段人工進(jìn)行主觀打分,然后由系統(tǒng)對(duì)這些音頻片段自動(dòng)評(píng)分,比較人工主觀評(píng)分和系統(tǒng)自動(dòng)評(píng)分的一致性,實(shí)驗(yàn)結(jié)果如下表所示。表3系統(tǒng)自動(dòng)評(píng)分與人工主觀評(píng)分的一致性日期3月1日3月5日3月10日3月15日評(píng)分一致性66.01%64.78%65.18%67.61%從總體實(shí)驗(yàn)結(jié)果來(lái)看,整體上人工和系統(tǒng)打分完全一致的比率為66.5%,對(duì)評(píng)分不一致的音頻片段進(jìn)行分析,我們發(fā)現(xiàn):a)經(jīng)人工確認(rèn),兩種打分均可的約占16.2%;b)由于人工疲勞等主觀因素使得人工評(píng)分不正確的約占9.7%;c)由于算法不夠精致使得系統(tǒng)打分偏離人工打分1級(jí)的約占5.6%,2級(jí)及其以上的約占2.0%。為此,我們以系統(tǒng)評(píng)分與人工評(píng)分差半級(jí)為正確,差兩級(jí)以上錯(cuò)誤,重新統(tǒng)計(jì)評(píng)分的一致性時(shí),上述4天打分一致性的整體平均正確率可達(dá)到98%。
(三)語(yǔ)音增強(qiáng)/去噪
語(yǔ)音增強(qiáng)/去噪的目的是增加帶噪語(yǔ)音的信噪比,從而提高后續(xù)內(nèi)容計(jì)算模塊的識(shí)別準(zhǔn)確性。方法:針對(duì)背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性,提出了在系統(tǒng)前端采用自適應(yīng)濾波器來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行降噪處理的方法,有效地提高了信號(hào)層的區(qū)分度。同時(shí),我們?cè)谀P投藢?duì)傳統(tǒng)的基于匹配的聲學(xué)模型訓(xùn)練算法(MULTI-TRAIN)進(jìn)行了改進(jìn),吸納了MULTI-TRAIN訓(xùn)練方法中在訓(xùn)練數(shù)據(jù)中加入應(yīng)用環(huán)境背景噪聲的做法,采集了大量不同種類(lèi)和不同信噪比下的背景噪聲,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行“污染”,并用“污染”后的數(shù)據(jù)訓(xùn)練聲學(xué)模型,增加了訓(xùn)練和測(cè)試環(huán)境下模型的匹配程度。進(jìn)一步,我們?cè)陬l譜域提出了一種基于功率譜密度最小均方誤差估計(jì)(PSD-MMSE)的語(yǔ)音增強(qiáng)算法。該算法在功率譜域用指數(shù)分布來(lái)建模平穩(wěn)隨機(jī)噪聲,并用混合指數(shù)分布來(lái)建模語(yǔ)音的能量譜,構(gòu)建了純凈語(yǔ)音功率譜密度的最小均方誤差估計(jì)器,顯著地改善了語(yǔ)音質(zhì)量。此外,我們還在對(duì)數(shù)譜域提出了一種采用高階泰勒級(jí)數(shù)展開(kāi)來(lái)近似對(duì)數(shù)譜域非線性環(huán)境函數(shù)從而尋求最合適的補(bǔ)償形式以補(bǔ)償對(duì)數(shù)譜域特征的方法。該方法還同時(shí)考慮了對(duì)數(shù)譜高斯混合模型的建模精度問(wèn)題,并且引入了能量補(bǔ)償?shù)乃枷耄岢隽瞬捎妙?lèi)似譜減的方式來(lái)補(bǔ)償語(yǔ)音能量的方法,并研究了把對(duì)數(shù)能量和對(duì)數(shù)譜結(jié)合在一起補(bǔ)償?shù)目赡苄?。特點(diǎn):由于背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性,噪聲的估計(jì)與補(bǔ)償必須自適應(yīng)地進(jìn)行;另外,構(gòu)造補(bǔ)償濾波器時(shí)要盡可能精確。
(四)音頻模板檢索
音頻模板檢索的目的是根據(jù)對(duì)固定出現(xiàn)的音頻片斷,入廣告、片頭曲等,對(duì)廣播節(jié)目進(jìn)行定位。特征選擇和提取:多個(gè)子頻帶的能量比率。模型:直方圖重迭匹配。系統(tǒng)特點(diǎn):1.抗畸變:首先采用頻譜的掩蔽和增強(qiáng)技術(shù)對(duì)音頻進(jìn)行畸變消除和歸一化處理,從而降低音頻中的噪聲、扭曲等畸變,提高了方法的魯棒性,然后采用臨界頻帶劃分策略,提取多個(gè)子頻帶的能量比率作為基本特征,并建立每個(gè)片頭曲的直方圖模型;2.搜索速度快:基于直方圖重疊相似度最小的快速搜索策略,并在搜索過(guò)程中選擇多尺度步長(zhǎng)預(yù)測(cè)技術(shù)提高搜索速度。性能分析:從2月15號(hào)至28號(hào)的部分音頻片段中截取90個(gè)不同語(yǔ)種的片頭曲模板,然后從3月1號(hào)至5號(hào)的部分音頻片段中再截取77個(gè)與前90個(gè)沒(méi)有重復(fù)的片頭曲模板,每個(gè)片頭曲模板的時(shí)長(zhǎng)從2秒到20秒不等?;谏鲜銎^曲模板,對(duì)3月6號(hào)至14號(hào)的13512個(gè)音頻片段進(jìn)行檢索。檢出2950個(gè)文件含有片頭曲,檢出率為21.83%,其中錯(cuò)誤的有15個(gè),誤報(bào)率為0.51%。
(五)語(yǔ)種識(shí)別
語(yǔ)音識(shí)別技術(shù)可自動(dòng)識(shí)別出語(yǔ)音段所屬的語(yǔ)言。特征選擇:采用美化感知線性預(yù)測(cè)系數(shù)(MF-PLP)和移動(dòng)差分倒譜特征(SDC),高維空間映射后增加長(zhǎng)時(shí)平均,從而包含了更多的時(shí)序信息。建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。建模數(shù)據(jù)庫(kù):17個(gè)語(yǔ)種,如表4。每個(gè)語(yǔ)種經(jīng)過(guò)自動(dòng)去除片頭曲、噪聲和音樂(lè)處理,每個(gè)語(yǔ)種的訓(xùn)練數(shù)據(jù)約2-3小時(shí)。系統(tǒng)特點(diǎn):反映語(yǔ)種間差異的是音素間的連接關(guān)系,因此必須增加特征的時(shí)間跨度已反映時(shí)序信息,系統(tǒng)中特征經(jīng)過(guò)區(qū)分性變換后,做長(zhǎng)時(shí)平均并增加SDC特征。性能分析實(shí)驗(yàn)1:識(shí)別性能隨不同建模數(shù)據(jù)庫(kù)規(guī)模的變化每個(gè)語(yǔ)種訓(xùn)練模型的數(shù)據(jù)量從1.5小時(shí)、2.5小時(shí)到3小時(shí)逐漸增大,,得到每個(gè)語(yǔ)種的模型之后,經(jīng)過(guò)識(shí)別,實(shí)驗(yàn)結(jié)果如表5.5所示。從表中可以看出,隨著訓(xùn)練數(shù)據(jù)量的增大,語(yǔ)種識(shí)別的性能也會(huì)相應(yīng)地提高。實(shí)驗(yàn)2:識(shí)別性能隨不同語(yǔ)種數(shù)的變化按照語(yǔ)種名字的漢語(yǔ)拼音字母的順序,我們從6個(gè)語(yǔ)種開(kāi)始,每次增加2個(gè)逐漸增加到16個(gè)直至17個(gè)語(yǔ)種,并且基于每個(gè)語(yǔ)種3小時(shí)的數(shù)據(jù)量訓(xùn)練模型,對(duì)相應(yīng)的測(cè)試數(shù)據(jù)進(jìn)行識(shí)別,識(shí)別性能如圖所示。圖7識(shí)別性能隨不同語(yǔ)種數(shù)的變化從圖中可以看出,隨著要識(shí)別的語(yǔ)種個(gè)數(shù)的增多,識(shí)別性能逐漸下降,這主要是因?yàn)樵黾拥恼Z(yǔ)種容易和其他語(yǔ)種相互混淆。實(shí)驗(yàn)3:模型優(yōu)化基于200M數(shù)據(jù)訓(xùn)練的17個(gè)語(yǔ)種的模型,對(duì)3月1日至14日的音頻文件進(jìn)行識(shí)別,識(shí)別過(guò)程中,每個(gè)語(yǔ)種都有部分語(yǔ)音,其信號(hào)質(zhì)量不差(不低于3分)且時(shí)長(zhǎng)也較長(zhǎng)(不低于30秒),但是該語(yǔ)種的模型得分有時(shí)候雖然是第一名卻比較低,甚至有時(shí)候不是第一名,使用這部分語(yǔ)音更新訓(xùn)練相應(yīng)的語(yǔ)種模型,上述思想稱(chēng)之為從錯(cuò)誤中學(xué)習(xí)。下面我們使用3月6日至31日的語(yǔ)音句子,基于17個(gè)語(yǔ)種測(cè)試比較從錯(cuò)誤中學(xué)習(xí)前后的識(shí)別正確率,實(shí)驗(yàn)結(jié)果為:原模型的識(shí)別正確率為90.85%,更新后模型識(shí)別正確率為93.58%,提高了2.73%,這說(shuō)明從錯(cuò)誤中學(xué)習(xí)是非常有效的。
(六)語(yǔ)音識(shí)別技術(shù)
語(yǔ)音識(shí)別技術(shù)可將連續(xù)輸入的音頻流中的語(yǔ)音部分,翻譯成對(duì)應(yīng)的文本信息。特征選擇:采用美化感知線性預(yù)測(cè)系數(shù)(MF-PLP)。建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模數(shù)據(jù)庫(kù):300小時(shí)廣播語(yǔ)音,新唐人電視臺(tái)120小時(shí),美國(guó)之音、BBC、CCTV等節(jié)目180小時(shí)。系統(tǒng)特點(diǎn):系統(tǒng)采用的關(guān)鍵詞檢出框架如圖8所示。圖8連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架系統(tǒng)模型包括聲學(xué)和語(yǔ)言模型兩套,聲學(xué)模型的作用為將語(yǔ)音特征轉(zhuǎn)換為對(duì)應(yīng)的聲學(xué)音素序列,語(yǔ)言模型在此基礎(chǔ)上完成音到字的轉(zhuǎn)換。系統(tǒng)基于國(guó)際主流LVCSR技術(shù),針對(duì)漢語(yǔ)語(yǔ)音做了具有創(chuàng)新性的貢獻(xiàn),突破了在漢語(yǔ)LVCSR總體框架、聲調(diào)和聲韻母聯(lián)合建模、大規(guī)模語(yǔ)音語(yǔ)料庫(kù)處理、系統(tǒng)搜索、網(wǎng)絡(luò)語(yǔ)言增強(qiáng)的語(yǔ)言建模和無(wú)監(jiān)督聲學(xué)模型訓(xùn)練等方面的關(guān)鍵技術(shù)。
(七)敏感信息/時(shí)段監(jiān)測(cè)
敏感信息監(jiān)測(cè)技術(shù)可從連續(xù)輸入的音頻流中,發(fā)現(xiàn)預(yù)定的敏感信息。特征選擇:采用美化感知線性預(yù)測(cè)系數(shù)(MF-PLP)。建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息,采用高斯混和模型(GMM)描述音素特征分布信息。建模數(shù)據(jù)庫(kù):300小時(shí)廣播語(yǔ)音,新唐人電視臺(tái)120小時(shí),美國(guó)之音、BBC、CCTV等節(jié)目180小時(shí)。敏感時(shí)段監(jiān)測(cè):在敏感詞匯檢出基礎(chǔ)上,根據(jù)單位時(shí)間加權(quán)置信度信息分析某個(gè)時(shí)段的敏感程度。系統(tǒng)采用的關(guān)鍵詞檢出框架如圖5.9所示。系統(tǒng)中采用了一種改進(jìn)的兩階段處理架構(gòu)的關(guān)鍵詞檢出方法。在第一階段,系統(tǒng)不僅為詞表中的詞、靜音和可能出現(xiàn)的噪聲建立模型,同時(shí)還要為非關(guān)鍵詞建立若干填充模型。在第二階段,系統(tǒng)對(duì)檢出結(jié)果的置信度進(jìn)行計(jì)算,從而判斷該結(jié)果是否可信。為實(shí)現(xiàn)在真實(shí)環(huán)境條件下的應(yīng)用,我們?cè)谫Y源允許的條件下采用了盡可能精細(xì)的填充模型來(lái)解決填充模型選擇困難的難題。同時(shí),通過(guò)在一般情況下采取全局回溯技術(shù),及在口語(yǔ)發(fā)音變異比較嚴(yán)重的場(chǎng)合采用局部回溯技術(shù),有效的解決了關(guān)鍵詞檢出率不高這一問(wèn)題。此外,我們還通過(guò)采用關(guān)鍵詞網(wǎng)絡(luò)和填充網(wǎng)絡(luò)進(jìn)行獨(dú)立擴(kuò)展裁剪,大大降低了系統(tǒng)性能對(duì)于進(jìn)入填充模型的懲罰系數(shù)的敏感度,從而解決了調(diào)節(jié)進(jìn)入填充模型的懲罰系數(shù)困難這一問(wèn)題。圖9關(guān)鍵詞檢出系統(tǒng)框架目前,國(guó)際上廣泛采取的置信度估計(jì)手段主要有三類(lèi),即基于正確/誤識(shí)兩類(lèi)分類(lèi)器、基于對(duì)數(shù)似然比和基于后驗(yàn)概率的方法??紤]到對(duì)數(shù)似然比的方法和基于后驗(yàn)概率的方法在實(shí)際應(yīng)用條件下具有很強(qiáng)的互補(bǔ)性,而基于正確/誤識(shí)兩類(lèi)分類(lèi)器可以作為上述兩類(lèi)方法有益的補(bǔ)充。我們?cè)趯?shí)際應(yīng)用中,提出了綜合利用上述三類(lèi)方法。
(八)綜合性能測(cè)試
在綜合使用了音頻信號(hào)質(zhì)量評(píng)估、語(yǔ)音增強(qiáng)/去噪、音頻模板檢索、語(yǔ)種識(shí)別、音識(shí)別技術(shù)、敏感信息/時(shí)段監(jiān)測(cè)。測(cè)試數(shù)據(jù)與環(huán)境:√2月1號(hào)-28號(hào)全部數(shù)據(jù),共47960個(gè)文件,去掉臨時(shí)測(cè)試文件,剩下46275個(gè)測(cè)試文件√17個(gè)語(yǔ)種模型√228個(gè)片頭曲模型,其中包括集外語(yǔ)種(蒙、孟、烏、越)的40個(gè)片頭曲模型√測(cè)試語(yǔ)音時(shí)長(zhǎng)約72%為117秒,約28%為57秒√不限定話長(zhǎng)和得分按天統(tǒng)計(jì)結(jié)果如下表所示:28天平均工作量減輕為46.84%,系統(tǒng)誤報(bào)率僅為1.61‰。進(jìn)一步分析可以發(fā)現(xiàn),日減輕工作量與當(dāng)日可進(jìn)行處理的文件有強(qiáng)相關(guān)性,如圖所示,說(shuō)明系統(tǒng)運(yùn)行性能穩(wěn)定。
三、結(jié)語(yǔ)
音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)網(wǎng)中的成功測(cè)試,是先進(jìn)的科學(xué)技術(shù)和實(shí)際應(yīng)用的良好結(jié)合點(diǎn)。先進(jìn)的技術(shù)結(jié)合了實(shí)際工作需求,反復(fù)測(cè)試和優(yōu)化,系統(tǒng)的性能得到顯著提升。將不能達(dá)到100%正確率的技術(shù)運(yùn)用到需要100%準(zhǔn)確的監(jiān)測(cè)工作中,真正減少人工監(jiān)測(cè)工作量50%?;谡Z(yǔ)種識(shí)別的國(guó)際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù),提出一套計(jì)算機(jī)自動(dòng)打分方法并結(jié)合人工評(píng)分反復(fù)修正。并從真正減輕值班員工作量角度出發(fā),綜合利用語(yǔ)種識(shí)別結(jié)果的置信度技術(shù),把識(shí)別結(jié)果分為確定而無(wú)需人工再次干預(yù)和需人工評(píng)判兩類(lèi)。另外,結(jié)合短波廣播語(yǔ)音的噪聲強(qiáng)、音樂(lè)多、存在片頭曲等現(xiàn)象,不斷增加和完善系統(tǒng)流程,集成了包括片頭曲識(shí)別、音樂(lè)/噪聲/語(yǔ)音分類(lèi)、語(yǔ)音增強(qiáng)在內(nèi)多項(xiàng)技術(shù)集成創(chuàng)新?;谡Z(yǔ)種識(shí)別的國(guó)際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù)的研發(fā)進(jìn)程顯示,測(cè)試期間對(duì)數(shù)萬(wàn)個(gè)文件進(jìn)行測(cè)試和分析,對(duì)常用的片頭曲模型進(jìn)行了重新優(yōu)化和增減,對(duì)質(zhì)量好識(shí)別性能差的句子針對(duì)性地進(jìn)行了分析和試驗(yàn),從錯(cuò)誤中學(xué)習(xí),進(jìn)一步優(yōu)化了模型?;谡Z(yǔ)音抗噪聲技術(shù),對(duì)信噪比較低的短波信道音質(zhì)的廣播語(yǔ)音實(shí)現(xiàn)了高可靠度的語(yǔ)種識(shí)別,在15個(gè)語(yǔ)種條件下識(shí)別準(zhǔn)確率達(dá)到95%。同時(shí)應(yīng)用基于似然比檢驗(yàn)的識(shí)別結(jié)果置信度技術(shù),對(duì)語(yǔ)種識(shí)別結(jié)果的錯(cuò)誤部分進(jìn)行自動(dòng)剔除,使得置信度為100%的識(shí)別結(jié)果無(wú)需人工確認(rèn),將每天100小時(shí)的人工監(jiān)測(cè)工作量減半,大大提高了監(jiān)測(cè)工作的質(zhì)量和效率。
作者:趙琰 單位:國(guó)家新聞出版廣電總局
參考文獻(xiàn):
[1]杜利民.自動(dòng)語(yǔ)言辨識(shí)研究[J].電子科技導(dǎo)報(bào),1996(4).
[2]高升,徐波,黃泰翼.基于決策樹(shù)的漢語(yǔ)三音子模型[J].聲學(xué)學(xué)報(bào),2000(6).
[3]姜洪臣,梁偉,張樹(shù)武,徐波.音頻場(chǎng)景分類(lèi)的音頻特征提取和分析[J].聲學(xué)技術(shù),2005(6).
[4]杜樹(shù)新,吳鐵軍.模式識(shí)別中的支持向量機(jī)方法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2003(5).