久久久久久久人妻一区二区三区,91精品无码少妇三区四区迅雷,刘玥在线播放第一区

導(dǎo)語(yǔ)：音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測(cè)網(wǎng)的測(cè)試一文來(lái)源于網(wǎng)友上傳，不代表本站觀(guān)點(diǎn)，若需要原創(chuàng)文章可咨詢(xún)客服老師，歡迎參考。

音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測(cè)網(wǎng)的測(cè)試

摘要:目前開(kāi)展的電視廣播信號(hào)內(nèi)容監(jiān)測(cè)業(yè)務(wù)主要由人工完成，隨著監(jiān)測(cè)業(yè)務(wù)的不斷擴(kuò)展，面對(duì)海量的數(shù)據(jù)，實(shí)現(xiàn)對(duì)電視廣播信號(hào)內(nèi)容自動(dòng)監(jiān)測(cè)的迫切性日益增加，需要全面提高現(xiàn)有監(jiān)測(cè)系統(tǒng)的智能化水平。本文主要就音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)中的測(cè)試展開(kāi)敘述。

關(guān)鍵詞:廣播電視;語(yǔ)音監(jiān)測(cè);海外廣播網(wǎng);測(cè)試

近年來(lái)，我國(guó)的廣播電視監(jiān)測(cè)事業(yè)發(fā)展迅猛，廣播電視監(jiān)測(cè)工作已經(jīng)進(jìn)入到了一個(gè)新的時(shí)代。廣播電視監(jiān)測(cè)工作已由過(guò)去被動(dòng)的事后服務(wù)轉(zhuǎn)變?yōu)榉e極主動(dòng)的過(guò)程服務(wù)，由過(guò)去靠人工的、傳統(tǒng)落后的手段變?yōu)閿?shù)字化、網(wǎng)絡(luò)化、自動(dòng)化的方式，由過(guò)去單一的無(wú)線(xiàn)廣播監(jiān)測(cè)向廣播電視全面、全方位監(jiān)測(cè)發(fā)展。2002年，廣電總局實(shí)施“走出去”工程，以加強(qiáng)我國(guó)對(duì)外廣播電視宣傳，同時(shí)，在海外建立了環(huán)球廣播監(jiān)測(cè)網(wǎng)，加強(qiáng)對(duì)中國(guó)國(guó)際廣播電臺(tái)對(duì)外廣播效果和租機(jī)/互轉(zhuǎn)的電臺(tái)播出的監(jiān)督、檢查，提高對(duì)外廣播效果。我國(guó)在各國(guó)的駐外大使館都有相應(yīng)的信號(hào)采集設(shè)備，收集當(dāng)?shù)氐膶?duì)華廣播落地信號(hào)，然后對(duì)信號(hào)進(jìn)行壓縮，通過(guò)互聯(lián)網(wǎng)傳回到國(guó)內(nèi)的監(jiān)測(cè)中心，進(jìn)行內(nèi)容監(jiān)測(cè)，從而發(fā)現(xiàn)對(duì)我國(guó)社會(huì)、經(jīng)濟(jì)、外交等有用的重要信息。截至目前，海外監(jiān)測(cè)網(wǎng)已經(jīng)在50個(gè)國(guó)家相繼建立了54個(gè)無(wú)人值守遙控監(jiān)測(cè)站點(diǎn)，每日可監(jiān)測(cè)中國(guó)國(guó)際廣播電臺(tái)對(duì)外播出的32種語(yǔ)言、383個(gè)頻率的廣播效果。將音頻識(shí)別、文本檢索、圖像處理等新技術(shù)實(shí)際應(yīng)用于目前主要靠人工完成廣播信號(hào)內(nèi)容監(jiān)測(cè)業(yè)務(wù)，充分利用計(jì)算機(jī)對(duì)于海量節(jié)目?jī)?nèi)容自動(dòng)處理具有的速度快、效率高、可以控制漏檢率等特點(diǎn)，將眾多的先進(jìn)技術(shù)服務(wù)與廣電監(jiān)測(cè)行業(yè)相結(jié)合。

一、音頻內(nèi)容綜合處理技術(shù)

(一)廣播音頻信號(hào)介紹

真實(shí)應(yīng)用環(huán)境下的語(yǔ)音現(xiàn)象非常豐富，以海外監(jiān)測(cè)機(jī)房短波音質(zhì)廣播語(yǔ)音為例(如圖1)。圖1海外監(jiān)測(cè)機(jī)房典型語(yǔ)音廣播音頻信號(hào)具有以下特點(diǎn):1．信號(hào)在傳送過(guò)程中，由于干擾使得包含的噪聲很不穩(wěn)定，主要表現(xiàn)在兩方面:一是同一個(gè)音頻片段里的噪聲變化不均勻，時(shí)大時(shí)小;二是不同的音頻片段的信噪比差別較大。這就使得有的音頻片斷的信號(hào)質(zhì)量好一些，而有的音頻片斷的信號(hào)質(zhì)量卻很差。2．由于是電臺(tái)節(jié)目信號(hào)，所以包含了各種各樣的音頻類(lèi)型，既有純凈的語(yǔ)音，也有帶音樂(lè)或噪聲背景的語(yǔ)音，既有音樂(lè)歌曲，也有強(qiáng)噪聲或者如鼓聲之類(lèi)的環(huán)境音，可以說(shuō)是一種語(yǔ)音、音樂(lè)和噪聲的混合音頻信號(hào)。3．信號(hào)中含有大量的片頭曲，這些片頭曲多是一些具有音樂(lè)背景的報(bào)臺(tái)信號(hào)，或者是不同節(jié)目的報(bào)幕信號(hào)。由于片頭曲中含有一定的語(yǔ)言信息，所以即使是同一個(gè)電臺(tái)或同一個(gè)節(jié)目，不同語(yǔ)言的片頭曲也是不同的。此外，由于廣播電臺(tái)的節(jié)目時(shí)刻表比較固定，同一語(yǔ)言播出的節(jié)目中的片頭曲相對(duì)也是固定的，這是一種固定音頻信號(hào)。4．廣播節(jié)目都是以一定的頻率被播出的，在信號(hào)傳送過(guò)程中，某一頻率的節(jié)目信號(hào)有可能被其他節(jié)目的同一頻率信號(hào)完全干擾或臨界干擾，如果兩個(gè)節(jié)目的語(yǔ)言不同，那么將出現(xiàn)兩種或多種語(yǔ)言重疊或交疊出現(xiàn)在同一個(gè)音頻片段中的現(xiàn)象。此外，一個(gè)節(jié)目中也有可能出現(xiàn)多種語(yǔ)言，比如一些語(yǔ)言教學(xué)節(jié)目。5．信號(hào)中的說(shuō)話(huà)人不僅有主持人，也有大眾百姓，大家說(shuō)的話(huà)不僅有母語(yǔ)，也有方言，甚至還有非母語(yǔ)的外國(guó)人在說(shuō)話(huà)，而且說(shuō)話(huà)的內(nèi)容和說(shuō)話(huà)人的性別也是隨機(jī)的。此外語(yǔ)音不僅僅是廣播語(yǔ)音，在一些人物采訪(fǎng)節(jié)目中常常出現(xiàn)電話(huà)或麥克風(fēng)語(yǔ)音。6．由于廣播節(jié)目是每天24小時(shí)不間斷地播出的，所以采集的數(shù)據(jù)將是海量的，此外，雖然每段音頻的采集時(shí)長(zhǎng)約57秒鐘，但是如果去除其中的非語(yǔ)音成分，剩下的語(yǔ)音時(shí)長(zhǎng)卻是不定的。從這些特點(diǎn)中不難看出，實(shí)際真實(shí)的音頻信號(hào)是非常復(fù)雜的，這給語(yǔ)種識(shí)別系統(tǒng)的實(shí)際應(yīng)用帶來(lái)了很大的困難和挑戰(zhàn)。音頻內(nèi)容綜合自動(dòng)處理系統(tǒng)的主要處理對(duì)象是語(yǔ)音，對(duì)其內(nèi)容的分析和監(jiān)測(cè)對(duì)象包括內(nèi)容、關(guān)鍵信息、語(yǔ)種等。

(二)音頻內(nèi)容處理技術(shù)基礎(chǔ)框架

當(dāng)前主流語(yǔ)音處理技術(shù)主要基于統(tǒng)計(jì)框架，一般包括以下流程和處理步驟，如圖2所示。圖2基于統(tǒng)計(jì)音頻內(nèi)容計(jì)算技術(shù)框架1．建模數(shù)據(jù)庫(kù)的建立:主流音頻內(nèi)容計(jì)算技術(shù)建立于統(tǒng)計(jì)理論之上。系統(tǒng)性能對(duì)建模數(shù)據(jù)的依賴(lài)很大，因此要求建模數(shù)據(jù)與測(cè)試數(shù)據(jù)在應(yīng)用環(huán)境、說(shuō)話(huà)方式等方面有一定的相關(guān)性，否則無(wú)法保證系統(tǒng)在應(yīng)用環(huán)境下的性能。2．特征的選擇與提取:特征是區(qū)分不同類(lèi)事物最根本的屬性，選用不同的特征將帶來(lái)不同的區(qū)分能力使得類(lèi)內(nèi)高偶合、類(lèi)間低聚合。因此對(duì)不同的識(shí)別任務(wù)，必須精細(xì)選擇所使用的特征。3．建模技術(shù):模型用于刻畫(huà)不同類(lèi)別之間的本質(zhì)差異，一個(gè)好的建模方法會(huì)顯著提高系統(tǒng)性能。目前主流的建模技術(shù)分為兩類(lèi)，一類(lèi)基于最大似然估計(jì)方法，其本質(zhì)是通過(guò)描述特征在空間中的分布參數(shù)來(lái)刻畫(huà)類(lèi)別統(tǒng)計(jì)特性，最常見(jiàn)的模型是高斯混合模型GMM;另一類(lèi)是基于區(qū)分度的估計(jì)方法，其本質(zhì)是通過(guò)描述不同類(lèi)別的分界面信息來(lái)刻畫(huà)類(lèi)別間的特性，最常見(jiàn)的模型是支持向量機(jī)模型SVM。

(三)面向真實(shí)應(yīng)用環(huán)境的音頻內(nèi)容處理框架

對(duì)真實(shí)應(yīng)用環(huán)境語(yǔ)音的處理，需要包括以下流程和處理步驟，如圖3所示。圖3音頻內(nèi)容綜合處理系統(tǒng)框架針對(duì)不同格式的輸入語(yǔ)音進(jìn)行格式轉(zhuǎn)換，統(tǒng)一為wav格式。對(duì)于廣告或含有片頭曲檢出的任務(wù)，可以采用固定音頻檢索技術(shù)，把片頭曲或廣告作為模板，從音頻信號(hào)中檢索，根據(jù)片頭曲所對(duì)應(yīng)的語(yǔ)種來(lái)確定整個(gè)音頻片段的語(yǔ)種。由于信號(hào)中含有多種音頻類(lèi)型，而諸如音樂(lè)和噪聲之類(lèi)的音頻幾乎不含所需信息，所以需要把音頻信號(hào)分成語(yǔ)音、音樂(lè)和噪聲，以去掉這些不含語(yǔ)種差別信息的非語(yǔ)音信號(hào)。針對(duì)特定應(yīng)用環(huán)境，需要對(duì)音頻信號(hào)的質(zhì)量進(jìn)行評(píng)估，對(duì)信號(hào)質(zhì)量較差的語(yǔ)音降低識(shí)別的置信度。由于音頻信號(hào)含有噪聲較大且不均勻，提取特征時(shí)需要采取一定的噪聲消除技術(shù)。對(duì)于經(jīng)過(guò)增強(qiáng)后的語(yǔ)音，進(jìn)行內(nèi)容識(shí)別、語(yǔ)種識(shí)別及敏感信息監(jiān)測(cè)等內(nèi)容計(jì)算任務(wù)。

二、音頻內(nèi)容綜合處理技術(shù)測(cè)試

(一)場(chǎng)景分析

音頻場(chǎng)景分析的目的是把輸入音頻文件分成語(yǔ)音和非語(yǔ)音，并把其中的非語(yǔ)音成分去掉，僅把語(yǔ)音提出來(lái)用于后續(xù)內(nèi)容計(jì)算。建模數(shù)據(jù)庫(kù):從海外機(jī)房2月15號(hào)至28號(hào)不同語(yǔ)言播出的節(jié)目中人工整理用于音頻分類(lèi)的訓(xùn)練數(shù)據(jù)，考慮到訓(xùn)練樣本的平衡，其中語(yǔ)音60M，非語(yǔ)音60M，非語(yǔ)音包括音樂(lè)和噪聲各30M。整理時(shí)把帶強(qiáng)音樂(lè)背景的語(yǔ)音歸為音樂(lè)，帶強(qiáng)噪聲背景的語(yǔ)音歸為噪聲，而帶弱音樂(lè)或弱噪聲背景的語(yǔ)音歸為語(yǔ)音。然后使用語(yǔ)音和非語(yǔ)音共120M數(shù)據(jù)訓(xùn)練第一個(gè)分類(lèi)器，用來(lái)區(qū)分語(yǔ)音和非語(yǔ)音，使用音樂(lè)和噪聲共60M數(shù)據(jù)訓(xùn)練第二個(gè)分類(lèi)器，用來(lái)區(qū)分音樂(lè)和噪聲。特征選擇:常用的音頻分類(lèi)特征有16種，其中時(shí)域特征包括7種，即過(guò)零率(Zero－CrossingRate，ZCR)、高過(guò)零率幀的比率(HighZero－CrossingRateRatio，HZCRR)、短時(shí)能量(Short－TimeEnergy，STE)、低能量幀的比率(LowShort－TimeEnergyRatio，LSTER)、短時(shí)能量的均方值(Root－Mean－Square，RMS)、靜音幀的比率(SilenceFrameRatio，SFR)、子頻帶能量分布(Sub－bandEnergyDistribu-tion，SED);頻域特征包括9種，即頻譜差分幅度(SpectrumFlux，SF)、頻譜質(zhì)心(SpectrumCentroid，SC)、頻譜散度(SpectrumSpread，SS)、頻譜截止頻率(SpectralRolloffFre-quency，SRF)、子頻帶周期(Sub－bandPeriodicity，BP)、噪聲幀的比率(NoiseFrameRatio，NFR)、線(xiàn)譜對(duì)(LinearSpec-trumPairs，LSP)、線(xiàn)性預(yù)測(cè)倒譜系數(shù)(LinearPredictionCep-stralCoefficients，LPCC)和梅爾倒譜系數(shù)(Mel－FrequencyCepstralCoefficients，MFCC)。而一些非常用的音頻特征包括短時(shí)基頻(Short－TimeFundamentalFrequency，STFF)和譜峰軌跡(SpectralPeakTrack，SPT)等。我們以高過(guò)零率幀的比率HZCRR和噪聲幀的比率NFR為例，說(shuō)明其對(duì)語(yǔ)音/非語(yǔ)音和音樂(lè)/噪聲具有區(qū)分能力。圖4HZCRR和NFR對(duì)語(yǔ)音/非語(yǔ)音和音樂(lè)/噪聲具有區(qū)分能力如圖4所示，對(duì)輸入音頻分別提取高過(guò)零率幀的比率HZCRR和噪聲幀的比率NFR特征，可發(fā)現(xiàn)語(yǔ)音/非語(yǔ)音HZCRR特征、音樂(lè)/噪聲NFR特征的數(shù)值范圍具有明顯差別，可作為特征區(qū)分兩者。為此，根據(jù)不同特征間的區(qū)分能力及其互補(bǔ)性，系統(tǒng)采用了如下特征:表1音頻分類(lèi)特征集音頻分類(lèi)類(lèi)型特征集語(yǔ)音/非語(yǔ)音BP、HZCRR、LPCC、LSP、LSTER、MF-CC、RMS、SBE、SC、SS、ZCR純語(yǔ)音/非純語(yǔ)音BP、LPCC、LSP、MFCC、RMS、SC、SF、SFR、SS、ZCR音樂(lè)/環(huán)境音BP、NFR、RMS、SBE、SF、STE建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。支持向量機(jī)(SVM)是一種基于現(xiàn)代統(tǒng)計(jì)學(xué)習(xí)理論的模式識(shí)別方法，在解決有限樣本、非線(xiàn)性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì)。SVM是一種兩類(lèi)樣本分類(lèi)器，其目標(biāo)是在超高維(一般幾十萬(wàn)維)空間找到一個(gè)分類(lèi)超平面，使得它能夠盡可能多的將兩類(lèi)樣本數(shù)據(jù)正確分開(kāi)，同時(shí)使分開(kāi)的兩類(lèi)數(shù)據(jù)點(diǎn)距離分類(lèi)面最遠(yuǎn)。一般包括兩個(gè)部分，即特征從原空間到超高維空間的映射和分類(lèi)面學(xué)習(xí)。

(二)音頻信號(hào)質(zhì)量評(píng)估

音頻場(chǎng)景分析的目的是按照我國(guó)《廣播節(jié)目聲音質(zhì)量主觀(guān)評(píng)價(jià)方法和技術(shù)指標(biāo)要求》的規(guī)定，對(duì)廣播節(jié)目語(yǔ)音質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)。特征選擇和提取:通過(guò)比較和分析，系統(tǒng)選擇語(yǔ)音能量、噪聲能量、信噪比、音樂(lè)/噪聲/語(yǔ)音比例、基于譜熵的可聽(tīng)度估計(jì)幾種特征。建模技術(shù):采用多特征的線(xiàn)性加權(quán)分類(lèi)技術(shù)，各特征的加權(quán)系數(shù)經(jīng)驗(yàn)確定。測(cè)試原理如下圖所示:圖6測(cè)試原理性能分析:對(duì)于機(jī)器自動(dòng)評(píng)分和人工評(píng)分不一致的結(jié)果，請(qǐng)值班員幫助判斷。值班員的判斷結(jié)果分為三類(lèi)，即人工和自動(dòng)評(píng)分均可、自動(dòng)評(píng)分偏差和人工主觀(guān)性因素偏差。對(duì)于自動(dòng)評(píng)分偏差，其主要影響因素是算法參數(shù)，為此根據(jù)人工判斷結(jié)果對(duì)算法參數(shù)做適當(dāng)調(diào)整，再次迭代，直至過(guò)程收斂。首先對(duì)3月1日、5日、10日和14日的這4天采集的約6000個(gè)音頻片段人工進(jìn)行主觀(guān)打分，然后由系統(tǒng)對(duì)這些音頻片段自動(dòng)評(píng)分，比較人工主觀(guān)評(píng)分和系統(tǒng)自動(dòng)評(píng)分的一致性，實(shí)驗(yàn)結(jié)果如下表所示。表3系統(tǒng)自動(dòng)評(píng)分與人工主觀(guān)評(píng)分的一致性日期3月1日3月5日3月10日3月15日評(píng)分一致性66．01%64．78%65．18%67．61%從總體實(shí)驗(yàn)結(jié)果來(lái)看，整體上人工和系統(tǒng)打分完全一致的比率為66．5%，對(duì)評(píng)分不一致的音頻片段進(jìn)行分析，我們發(fā)現(xiàn):a)經(jīng)人工確認(rèn)，兩種打分均可的約占16．2%;b)由于人工疲勞等主觀(guān)因素使得人工評(píng)分不正確的約占9．7%;c)由于算法不夠精致使得系統(tǒng)打分偏離人工打分1級(jí)的約占5．6%，2級(jí)及其以上的約占2．0%。為此，我們以系統(tǒng)評(píng)分與人工評(píng)分差半級(jí)為正確，差兩級(jí)以上錯(cuò)誤，重新統(tǒng)計(jì)評(píng)分的一致性時(shí)，上述4天打分一致性的整體平均正確率可達(dá)到98%。

(三)語(yǔ)音增強(qiáng)/去噪

語(yǔ)音增強(qiáng)/去噪的目的是增加帶噪語(yǔ)音的信噪比，從而提高后續(xù)內(nèi)容計(jì)算模塊的識(shí)別準(zhǔn)確性。方法:針對(duì)背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性，提出了在系統(tǒng)前端采用自適應(yīng)濾波器來(lái)對(duì)語(yǔ)音信號(hào)進(jìn)行降噪處理的方法，有效地提高了信號(hào)層的區(qū)分度。同時(shí)，我們?cè)谀Ｐ投藢?duì)傳統(tǒng)的基于匹配的聲學(xué)模型訓(xùn)練算法(MULTI－TRAIN)進(jìn)行了改進(jìn)，吸納了MULTI－TRAIN訓(xùn)練方法中在訓(xùn)練數(shù)據(jù)中加入應(yīng)用環(huán)境背景噪聲的做法，采集了大量不同種類(lèi)和不同信噪比下的背景噪聲，對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行“污染”，并用“污染”后的數(shù)據(jù)訓(xùn)練聲學(xué)模型，增加了訓(xùn)練和測(cè)試環(huán)境下模型的匹配程度。進(jìn)一步，我們?cè)陬l譜域提出了一種基于功率譜密度最小均方誤差估計(jì)(PSD－MMSE)的語(yǔ)音增強(qiáng)算法。該算法在功率譜域用指數(shù)分布來(lái)建模平穩(wěn)隨機(jī)噪聲，并用混合指數(shù)分布來(lái)建模語(yǔ)音的能量譜，構(gòu)建了純凈語(yǔ)音功率譜密度的最小均方誤差估計(jì)器，顯著地改善了語(yǔ)音質(zhì)量。此外，我們還在對(duì)數(shù)譜域提出了一種采用高階泰勒級(jí)數(shù)展開(kāi)來(lái)近似對(duì)數(shù)譜域非線(xiàn)性環(huán)境函數(shù)從而尋求最合適的補(bǔ)償形式以補(bǔ)償對(duì)數(shù)譜域特征的方法。該方法還同時(shí)考慮了對(duì)數(shù)譜高斯混合模型的建模精度問(wèn)題，并且引入了能量補(bǔ)償?shù)乃枷?，提出了采用?lèi)似譜減的方式來(lái)補(bǔ)償語(yǔ)音能量的方法，并研究了把對(duì)數(shù)能量和對(duì)數(shù)譜結(jié)合在一起補(bǔ)償?shù)目赡苄?。特點(diǎn):由于背景噪聲在不同環(huán)境不同時(shí)刻下的變化特性，噪聲的估計(jì)與補(bǔ)償必須自適應(yīng)地進(jìn)行;另外，構(gòu)造補(bǔ)償濾波器時(shí)要盡可能精確。

(四)音頻模板檢索

音頻模板檢索的目的是根據(jù)對(duì)固定出現(xiàn)的音頻片斷，入廣告、片頭曲等，對(duì)廣播節(jié)目進(jìn)行定位。特征選擇和提取:多個(gè)子頻帶的能量比率。模型:直方圖重迭匹配。系統(tǒng)特點(diǎn):1．抗畸變:首先采用頻譜的掩蔽和增強(qiáng)技術(shù)對(duì)音頻進(jìn)行畸變消除和歸一化處理，從而降低音頻中的噪聲、扭曲等畸變，提高了方法的魯棒性，然后采用臨界頻帶劃分策略，提取多個(gè)子頻帶的能量比率作為基本特征，并建立每個(gè)片頭曲的直方圖模型;2．搜索速度快:基于直方圖重疊相似度最小的快速搜索策略，并在搜索過(guò)程中選擇多尺度步長(zhǎng)預(yù)測(cè)技術(shù)提高搜索速度。性能分析:從2月15號(hào)至28號(hào)的部分音頻片段中截取90個(gè)不同語(yǔ)種的片頭曲模板，然后從3月1號(hào)至5號(hào)的部分音頻片段中再截取77個(gè)與前90個(gè)沒(méi)有重復(fù)的片頭曲模板，每個(gè)片頭曲模板的時(shí)長(zhǎng)從2秒到20秒不等。基于上述片頭曲模板，對(duì)3月6號(hào)至14號(hào)的13512個(gè)音頻片段進(jìn)行檢索。檢出2950個(gè)文件含有片頭曲，檢出率為21．83%，其中錯(cuò)誤的有15個(gè)，誤報(bào)率為0．51%。

(五)語(yǔ)種識(shí)別

語(yǔ)音識(shí)別技術(shù)可自動(dòng)識(shí)別出語(yǔ)音段所屬的語(yǔ)言。特征選擇:采用美化感知線(xiàn)性預(yù)測(cè)系數(shù)(MF－PLP)和移動(dòng)差分倒譜特征(SDC)，高維空間映射后增加長(zhǎng)時(shí)平均，從而包含了更多的時(shí)序信息。建模技術(shù):采用基于支持向量機(jī)的區(qū)分度建模方法。建模數(shù)據(jù)庫(kù):17個(gè)語(yǔ)種，如表4。每個(gè)語(yǔ)種經(jīng)過(guò)自動(dòng)去除片頭曲、噪聲和音樂(lè)處理，每個(gè)語(yǔ)種的訓(xùn)練數(shù)據(jù)約2－3小時(shí)。系統(tǒng)特點(diǎn):反映語(yǔ)種間差異的是音素間的連接關(guān)系，因此必須增加特征的時(shí)間跨度已反映時(shí)序信息，系統(tǒng)中特征經(jīng)過(guò)區(qū)分性變換后，做長(zhǎng)時(shí)平均并增加SDC特征。性能分析實(shí)驗(yàn)1:識(shí)別性能隨不同建模數(shù)據(jù)庫(kù)規(guī)模的變化每個(gè)語(yǔ)種訓(xùn)練模型的數(shù)據(jù)量從1．5小時(shí)、2．5小時(shí)到3小時(shí)逐漸增大，，得到每個(gè)語(yǔ)種的模型之后，經(jīng)過(guò)識(shí)別，實(shí)驗(yàn)結(jié)果如表5．5所示。從表中可以看出，隨著訓(xùn)練數(shù)據(jù)量的增大，語(yǔ)種識(shí)別的性能也會(huì)相應(yīng)地提高。實(shí)驗(yàn)2:識(shí)別性能隨不同語(yǔ)種數(shù)的變化按照語(yǔ)種名字的漢語(yǔ)拼音字母的順序，我們從6個(gè)語(yǔ)種開(kāi)始，每次增加2個(gè)逐漸增加到16個(gè)直至17個(gè)語(yǔ)種，并且基于每個(gè)語(yǔ)種3小時(shí)的數(shù)據(jù)量訓(xùn)練模型，對(duì)相應(yīng)的測(cè)試數(shù)據(jù)進(jìn)行識(shí)別，識(shí)別性能如圖所示。圖7識(shí)別性能隨不同語(yǔ)種數(shù)的變化從圖中可以看出，隨著要識(shí)別的語(yǔ)種個(gè)數(shù)的增多，識(shí)別性能逐漸下降，這主要是因?yàn)樵黾拥恼Z(yǔ)種容易和其他語(yǔ)種相互混淆。實(shí)驗(yàn)3:模型優(yōu)化基于200M數(shù)據(jù)訓(xùn)練的17個(gè)語(yǔ)種的模型，對(duì)3月1日至14日的音頻文件進(jìn)行識(shí)別，識(shí)別過(guò)程中，每個(gè)語(yǔ)種都有部分語(yǔ)音，其信號(hào)質(zhì)量不差(不低于3分)且時(shí)長(zhǎng)也較長(zhǎng)(不低于30秒)，但是該語(yǔ)種的模型得分有時(shí)候雖然是第一名卻比較低，甚至有時(shí)候不是第一名，使用這部分語(yǔ)音更新訓(xùn)練相應(yīng)的語(yǔ)種模型，上述思想稱(chēng)之為從錯(cuò)誤中學(xué)習(xí)。下面我們使用3月6日至31日的語(yǔ)音句子，基于17個(gè)語(yǔ)種測(cè)試比較從錯(cuò)誤中學(xué)習(xí)前后的識(shí)別正確率，實(shí)驗(yàn)結(jié)果為:原模型的識(shí)別正確率為90．85%，更新后模型識(shí)別正確率為93．58%，提高了2．73%，這說(shuō)明從錯(cuò)誤中學(xué)習(xí)是非常有效的。

(六)語(yǔ)音識(shí)別技術(shù)

語(yǔ)音識(shí)別技術(shù)可將連續(xù)輸入的音頻流中的語(yǔ)音部分，翻譯成對(duì)應(yīng)的文本信息。特征選擇:采用美化感知線(xiàn)性預(yù)測(cè)系數(shù)(MF－PLP)。建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息，采用高斯混和模型(GMM)描述音素特征分布信息。建模數(shù)據(jù)庫(kù):300小時(shí)廣播語(yǔ)音，新唐人電視臺(tái)120小時(shí)，美國(guó)之音、BBC、CCTV等節(jié)目180小時(shí)。系統(tǒng)特點(diǎn):系統(tǒng)采用的關(guān)鍵詞檢出框架如圖8所示。圖8連續(xù)語(yǔ)音識(shí)別系統(tǒng)框架系統(tǒng)模型包括聲學(xué)和語(yǔ)言模型兩套，聲學(xué)模型的作用為將語(yǔ)音特征轉(zhuǎn)換為對(duì)應(yīng)的聲學(xué)音素序列，語(yǔ)言模型在此基礎(chǔ)上完成音到字的轉(zhuǎn)換。系統(tǒng)基于國(guó)際主流LVCSR技術(shù)，針對(duì)漢語(yǔ)語(yǔ)音做了具有創(chuàng)新性的貢獻(xiàn)，突破了在漢語(yǔ)LVCSR總體框架、聲調(diào)和聲韻母聯(lián)合建模、大規(guī)模語(yǔ)音語(yǔ)料庫(kù)處理、系統(tǒng)搜索、網(wǎng)絡(luò)語(yǔ)言增強(qiáng)的語(yǔ)言建模和無(wú)監(jiān)督聲學(xué)模型訓(xùn)練等方面的關(guān)鍵技術(shù)。

(七)敏感信息/時(shí)段監(jiān)測(cè)

敏感信息監(jiān)測(cè)技術(shù)可從連續(xù)輸入的音頻流中，發(fā)現(xiàn)預(yù)定的敏感信息。特征選擇:采用美化感知線(xiàn)性預(yù)測(cè)系數(shù)(MF－PLP)。建模技術(shù):采用隱馬爾科夫模型(HMM)描述時(shí)序信息，采用高斯混和模型(GMM)描述音素特征分布信息。建模數(shù)據(jù)庫(kù):300小時(shí)廣播語(yǔ)音，新唐人電視臺(tái)120小時(shí)，美國(guó)之音、BBC、CCTV等節(jié)目180小時(shí)。敏感時(shí)段監(jiān)測(cè):在敏感詞匯檢出基礎(chǔ)上，根據(jù)單位時(shí)間加權(quán)置信度信息分析某個(gè)時(shí)段的敏感程度。系統(tǒng)采用的關(guān)鍵詞檢出框架如圖5．9所示。系統(tǒng)中采用了一種改進(jìn)的兩階段處理架構(gòu)的關(guān)鍵詞檢出方法。在第一階段，系統(tǒng)不僅為詞表中的詞、靜音和可能出現(xiàn)的噪聲建立模型，同時(shí)還要為非關(guān)鍵詞建立若干填充模型。在第二階段，系統(tǒng)對(duì)檢出結(jié)果的置信度進(jìn)行計(jì)算，從而判斷該結(jié)果是否可信。為實(shí)現(xiàn)在真實(shí)環(huán)境條件下的應(yīng)用，我們?cè)谫Y源允許的條件下采用了盡可能精細(xì)的填充模型來(lái)解決填充模型選擇困難的難題。同時(shí)，通過(guò)在一般情況下采取全局回溯技術(shù)，及在口語(yǔ)發(fā)音變異比較嚴(yán)重的場(chǎng)合采用局部回溯技術(shù)，有效的解決了關(guān)鍵詞檢出率不高這一問(wèn)題。此外，我們還通過(guò)采用關(guān)鍵詞網(wǎng)絡(luò)和填充網(wǎng)絡(luò)進(jìn)行獨(dú)立擴(kuò)展裁剪，大大降低了系統(tǒng)性能對(duì)于進(jìn)入填充模型的懲罰系數(shù)的敏感度，從而解決了調(diào)節(jié)進(jìn)入填充模型的懲罰系數(shù)困難這一問(wèn)題。圖9關(guān)鍵詞檢出系統(tǒng)框架目前，國(guó)際上廣泛采取的置信度估計(jì)手段主要有三類(lèi)，即基于正確/誤識(shí)兩類(lèi)分類(lèi)器、基于對(duì)數(shù)似然比和基于后驗(yàn)概率的方法?？紤]到對(duì)數(shù)似然比的方法和基于后驗(yàn)概率的方法在實(shí)際應(yīng)用條件下具有很強(qiáng)的互補(bǔ)性，而基于正確/誤識(shí)兩類(lèi)分類(lèi)器可以作為上述兩類(lèi)方法有益的補(bǔ)充。我們?cè)趯?shí)際應(yīng)用中，提出了綜合利用上述三類(lèi)方法。

(八)綜合性能測(cè)試

在綜合使用了音頻信號(hào)質(zhì)量評(píng)估、語(yǔ)音增強(qiáng)/去噪、音頻模板檢索、語(yǔ)種識(shí)別、音識(shí)別技術(shù)、敏感信息/時(shí)段監(jiān)測(cè)。測(cè)試數(shù)據(jù)與環(huán)境:√2月1號(hào)－28號(hào)全部數(shù)據(jù)，共47960個(gè)文件，去掉臨時(shí)測(cè)試文件，剩下46275個(gè)測(cè)試文件√17個(gè)語(yǔ)種模型√228個(gè)片頭曲模型，其中包括集外語(yǔ)種(蒙、孟、烏、越)的40個(gè)片頭曲模型√測(cè)試語(yǔ)音時(shí)長(zhǎng)約72%為117秒，約28%為57秒√不限定話(huà)長(zhǎng)和得分按天統(tǒng)計(jì)結(jié)果如下表所示:28天平均工作量減輕為46．84%，系統(tǒng)誤報(bào)率僅為1．61‰。進(jìn)一步分析可以發(fā)現(xiàn)，日減輕工作量與當(dāng)日可進(jìn)行處理的文件有強(qiáng)相關(guān)性，如圖所示，說(shuō)明系統(tǒng)運(yùn)行性能穩(wěn)定。

三、結(jié)語(yǔ)

音頻內(nèi)容綜合處理技術(shù)在海外廣播監(jiān)測(cè)網(wǎng)中的成功測(cè)試，是先進(jìn)的科學(xué)技術(shù)和實(shí)際應(yīng)用的良好結(jié)合點(diǎn)。先進(jìn)的技術(shù)結(jié)合了實(shí)際工作需求，反復(fù)測(cè)試和優(yōu)化，系統(tǒng)的性能得到顯著提升。將不能達(dá)到100%正確率的技術(shù)運(yùn)用到需要100%準(zhǔn)確的監(jiān)測(cè)工作中，真正減少人工監(jiān)測(cè)工作量50%?；谡Z(yǔ)種識(shí)別的國(guó)際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù)，提出一套計(jì)算機(jī)自動(dòng)打分方法并結(jié)合人工評(píng)分反復(fù)修正。并從真正減輕值班員工作量角度出發(fā)，綜合利用語(yǔ)種識(shí)別結(jié)果的置信度技術(shù)，把識(shí)別結(jié)果分為確定而無(wú)需人工再次干預(yù)和需人工評(píng)判兩類(lèi)。另外，結(jié)合短波廣播語(yǔ)音的噪聲強(qiáng)、音樂(lè)多、存在片頭曲等現(xiàn)象，不斷增加和完善系統(tǒng)流程，集成了包括片頭曲識(shí)別、音樂(lè)/噪聲/語(yǔ)音分類(lèi)、語(yǔ)音增強(qiáng)在內(nèi)多項(xiàng)技術(shù)集成創(chuàng)新?；谡Z(yǔ)種識(shí)別的國(guó)際臺(tái)廣播質(zhì)量及效果綜合評(píng)估集成技術(shù)的研發(fā)進(jìn)程顯示，測(cè)試期間對(duì)數(shù)萬(wàn)個(gè)文件進(jìn)行測(cè)試和分析，對(duì)常用的片頭曲模型進(jìn)行了重新優(yōu)化和增減，對(duì)質(zhì)量好識(shí)別性能差的句子針對(duì)性地進(jìn)行了分析和試驗(yàn)，從錯(cuò)誤中學(xué)習(xí)，進(jìn)一步優(yōu)化了模型。基于語(yǔ)音抗噪聲技術(shù)，對(duì)信噪比較低的短波信道音質(zhì)的廣播語(yǔ)音實(shí)現(xiàn)了高可靠度的語(yǔ)種識(shí)別，在15個(gè)語(yǔ)種條件下識(shí)別準(zhǔn)確率達(dá)到95%。同時(shí)應(yīng)用基于似然比檢驗(yàn)的識(shí)別結(jié)果置信度技術(shù)，對(duì)語(yǔ)種識(shí)別結(jié)果的錯(cuò)誤部分進(jìn)行自動(dòng)剔除，使得置信度為100%的識(shí)別結(jié)果無(wú)需人工確認(rèn)，將每天100小時(shí)的人工監(jiān)測(cè)工作量減半，大大提高了監(jiān)測(cè)工作的質(zhì)量和效率。

作者:趙琰單位:國(guó)家新聞出版廣電總局

參考文獻(xiàn):

［1］杜利民．自動(dòng)語(yǔ)言辨識(shí)研究［J］．電子科技導(dǎo)報(bào)，1996(4)．

［2］高升，徐波，黃泰翼．基于決策樹(shù)的漢語(yǔ)三音子模型［J］．聲學(xué)學(xué)報(bào)，2000(6)．

［3］姜洪臣，梁偉，張樹(shù)武，徐波．音頻場(chǎng)景分類(lèi)的音頻特征提取和分析［J］．聲學(xué)技術(shù)，2005(6)．

［4］杜樹(shù)新，吳鐵軍．模式識(shí)別中的支持向量機(jī)方法［J］．浙江大學(xué)學(xué)報(bào)(工學(xué)版)，2003(5)．

音頻內(nèi)容綜合處理技術(shù)在廣播監(jiān)測(cè)網(wǎng)的測(cè)試

熱門(mén)標(biāo)簽

相關(guān)文章

精品范文