語(yǔ)音識(shí)別范文
時(shí)間:2023-03-29 05:26:07
導(dǎo)語(yǔ):如何才能寫好一篇語(yǔ)音識(shí)別,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:語(yǔ)音識(shí)別 應(yīng)用領(lǐng)域 熱點(diǎn) 難點(diǎn)
中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973 (2010) 03-062-02
1應(yīng)用領(lǐng)域
如今,一些語(yǔ)音識(shí)別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語(yǔ)音撥號(hào)系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽寫機(jī)、計(jì)算機(jī)控制、工業(yè)控制、語(yǔ)音通信系統(tǒng)等。預(yù)計(jì)在不遠(yuǎn)的將來,語(yǔ)音識(shí)別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個(gè)領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語(yǔ)音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。
2發(fā)展歷史
語(yǔ)音識(shí)別的研究工作開始于50年代,Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問題,極大地促進(jìn)了語(yǔ)音識(shí)別的發(fā)展。70年代,動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW)解決了語(yǔ)音特征不等長(zhǎng)匹配問題,對(duì)特定人孤立詞語(yǔ)音識(shí)別十分有效,在語(yǔ)音識(shí)別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語(yǔ)音識(shí)別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,并以此確定了統(tǒng)計(jì)方法和模型在語(yǔ)音識(shí)別和語(yǔ)言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語(yǔ)音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時(shí)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)成為可能。
90年代,人們開始進(jìn)一步研究語(yǔ)音識(shí)別與自然語(yǔ)言處理的結(jié)合,逐步發(fā)展到基于自然口語(yǔ)識(shí)別和理解的人機(jī)對(duì)話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開始應(yīng)用于語(yǔ)音識(shí)別,它和HMM模型建立的語(yǔ)音識(shí)別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識(shí)別率及系統(tǒng)的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。
現(xiàn)在語(yǔ)音識(shí)別系統(tǒng)已經(jīng)開始從實(shí)驗(yàn)室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場(chǎng)的產(chǎn)品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、Microsoft、AT&T等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。
3研究的熱點(diǎn)與難點(diǎn)
目前語(yǔ)音識(shí)別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語(yǔ)音識(shí)別(識(shí)別的魯棒性)、語(yǔ)音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別、高效的識(shí)別(搜索)算法研究 、可信度評(píng)測(cè)算法研究、ANN的應(yīng)用、語(yǔ)言模型及深層次的自然語(yǔ)言理解。
目前研究的難點(diǎn)主要表現(xiàn)在:(1)語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號(hào)分析處理方法。(3)如何把語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面知識(shí)量化、建模并有效用于語(yǔ)音識(shí)別,目前也是一個(gè)難點(diǎn)。(4)由于我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識(shí)還很不清楚,這必將阻礙語(yǔ)音識(shí)別的進(jìn)一步發(fā)展。
4語(yǔ)音識(shí)別系統(tǒng)
一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)如圖所示:
輸入的語(yǔ)言信號(hào)首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測(cè)等。我們稱之為對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。
語(yǔ)音信號(hào)的特征參數(shù)主要有:短時(shí)能量En,反映語(yǔ)音振幅或能量隨著時(shí)間緩慢變化的規(guī)律;短時(shí)平均過零率Zn,對(duì)于離散信號(hào)來講,簡(jiǎn)單的說就是樣本改變符號(hào)的次數(shù),可以粗略分辨清音和濁音;短時(shí)自相關(guān)函數(shù);經(jīng)過FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過對(duì)數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽覺特性變換的美爾(MEL);線性預(yù)測(cè)系數(shù)等。通常識(shí)別參數(shù)可選擇上面的某一種或幾種的組合。
語(yǔ)音識(shí)別是語(yǔ)音識(shí)別系統(tǒng)最核心的部分。包括語(yǔ)音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識(shí)別算法)以及相應(yīng)的語(yǔ)言模型與語(yǔ)言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語(yǔ)音特征參數(shù)表征的大量已知模式中通過學(xué)習(xí)算法來獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識(shí)別(模式匹配)時(shí)將輸入的語(yǔ)音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配以得到最佳的識(shí)別結(jié)果。語(yǔ)言模型一般指在匹配搜索時(shí)用于字詞和路徑約束的語(yǔ)言規(guī)則,它包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理則可以進(jìn)行語(yǔ)法、語(yǔ)義分析。
聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識(shí)別模型包括動(dòng)態(tài)時(shí)間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。
DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個(gè)單詞作為識(shí)別單元,在訓(xùn)練階段將詞匯表中每個(gè)詞的特征矢量序列作為模板存入模板庫(kù),在識(shí)別階段將待識(shí)別語(yǔ)音的特征矢量序列依次與庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。DTW應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題,在小詞匯量、孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng),目前已逐漸被HMM和ANN模型替代。
HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號(hào)的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測(cè)的)。HMM很好的模擬了人得語(yǔ)言過程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個(gè)狀態(tài)可以觀察到的符號(hào)數(shù)M(符號(hào)集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù),包括觀察符號(hào)的概率分布B和初始狀態(tài)概率分布 ,因此一個(gè)HMM模型可以由{N,M,A,B, }來確定,對(duì)詞匯表中的每一個(gè)詞都要建立相應(yīng)的HMM模型。
模型參數(shù)得到后可以用Viterbi算法來確定與觀察序列對(duì)應(yīng)的最佳的狀態(tài)序列。建好模型后,在識(shí)別階段就是要計(jì)算每個(gè)模型產(chǎn)生觀察符號(hào)序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識(shí)別結(jié)果。這個(gè)過程計(jì)算量很大,有人提出了前向-后向算法,大大減少了計(jì)算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。
ANN在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動(dòng)的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識(shí)不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變,因此對(duì)于噪聲環(huán)境下非特定人的語(yǔ)音識(shí)別問題來說是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識(shí)別效果。
將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識(shí)別將是今后的一條研究途徑。二者結(jié)合的混合語(yǔ)音識(shí)別方法的研究開始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計(jì)算和學(xué)習(xí)概率參數(shù)。
語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語(yǔ)料庫(kù)中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結(jié)
盡管語(yǔ)音識(shí)別技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,而語(yǔ)音識(shí)別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語(yǔ)音學(xué)到語(yǔ)言學(xué)的知識(shí)為基礎(chǔ)、以信息論、模式識(shí)別數(shù)理統(tǒng)計(jì)和人工智能為主要實(shí)現(xiàn)手段的語(yǔ)音處理機(jī)制,把整個(gè)語(yǔ)音識(shí)別過程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
參考文獻(xiàn):
[1]易克初,田斌.付強(qiáng).語(yǔ)音信號(hào)處理[M].國(guó)防工業(yè)出版社,2000.
[2]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.
[3]趙力.語(yǔ)音信號(hào)處理[M].機(jī)械工業(yè)出版社,2003.
篇2
簡(jiǎn)單地說,自動(dòng)語(yǔ)音識(shí)別(ASR)是一種讓計(jì)算機(jī)識(shí)別語(yǔ)音,并將它轉(zhuǎn)換為書面文本的技術(shù),是語(yǔ)音科學(xué)與工程發(fā)展最快的領(lǐng)域之一。作為新一代的計(jì)算技術(shù),它是人機(jī)交互領(lǐng)域繼文本到語(yǔ)音轉(zhuǎn)換(TTS)和支持交互式語(yǔ)音響應(yīng)(IVR)系統(tǒng)之后的又一個(gè)重大創(chuàng)新。自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)是準(zhǔn)確、有效地將語(yǔ)音信號(hào)轉(zhuǎn)換成文本,并且不受說話者、環(huán)境或者是使用的設(shè)備(即麥克風(fēng))的限制。
語(yǔ)音識(shí)別技術(shù)最初是為殘疾人設(shè)計(jì)的,它可以幫助那些肌肉骨骼殘疾人士實(shí)現(xiàn)計(jì)算機(jī)上的最大生產(chǎn)力。雖然自動(dòng)語(yǔ)音識(shí)別是一項(xiàng)幾十年前就開始開發(fā)的技術(shù),但直到Apple的虛擬個(gè)人助理SiriTM和IBM的WatsonTM的商業(yè)成功才真正展示了這一領(lǐng)域的重大突破。事實(shí)上,當(dāng)2011年底Apple推出新一代的iPhone Siri語(yǔ)音識(shí)別軟件時(shí),在某種意義上意味著這個(gè)具有幾十年歷史的舊技術(shù)對(duì)普通消費(fèi)者來說已經(jīng)足夠好了。
全球語(yǔ)音識(shí)別市場(chǎng)的主導(dǎo)者是總部設(shè)在美國(guó)的Nuance Communications,其軟件被認(rèn)為是Siri的動(dòng)力, 而它的大多數(shù)技術(shù)依賴于將語(yǔ)音轉(zhuǎn)換為計(jì)算機(jī)可以理解的文本。Nuance的語(yǔ)音解決方案支持多達(dá)50種不同的語(yǔ)言,并且維護(hù)著世界上最大的語(yǔ)音數(shù)據(jù)圖書館之一;有近三分之二的財(cái)富100強(qiáng)公司依靠Nuance的解決方案;Nuance的解決方案已經(jīng)應(yīng)用到超過50億部手機(jī)和7千萬(wàn)輛汽車上。在醫(yī)療方面,僅在美國(guó)就有超過3千家醫(yī)院使用Nuance的醫(yī)療保健解決方案,超過15萬(wàn)的醫(yī)生和護(hù)理人員使用Nuance的Dragon Medical系統(tǒng)。
自動(dòng)語(yǔ)音識(shí)別的發(fā)展
最早嘗試設(shè)計(jì)機(jī)器自動(dòng)語(yǔ)音識(shí)別系統(tǒng)是在20世紀(jì)50年代,但以失敗告終。第一次成功的語(yǔ)音識(shí)別成果產(chǎn)生在20世紀(jì)70年代,當(dāng)時(shí)一般的模式匹配技術(shù)被推出。由于應(yīng)用擴(kuò)展有限,基于統(tǒng)計(jì)方法的自動(dòng)語(yǔ)音識(shí)別技術(shù)也在同一時(shí)期開始開發(fā)。如今,統(tǒng)計(jì)技術(shù)在自動(dòng)語(yǔ)音識(shí)別應(yīng)用中盛行,常見的語(yǔ)音識(shí)別系統(tǒng)可以識(shí)別數(shù)千字。
在20世紀(jì)90年代初,計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)出現(xiàn)了巨大的市場(chǎng)機(jī)會(huì)。但當(dāng)時(shí)這些產(chǎn)品的早期版本笨重且很難使用,而且不得不做出妥協(xié):它們或者被“調(diào)整”為要依賴于一個(gè)特定的說話者,或者是只有小詞匯量,或者是用一種非常程式化、僵化的語(yǔ)法。然而,在計(jì)算機(jī)行業(yè)中沒有什么可以長(zhǎng)期保持不變。20世紀(jì)90年代末期,出現(xiàn)了全新的商業(yè)語(yǔ)音識(shí)別軟件包,它們比上一代產(chǎn)品更容易使用,也更有效。
自動(dòng)語(yǔ)音識(shí)別研究的“神圣目標(biāo)”是讓計(jì)算機(jī)實(shí)時(shí)地以100%的準(zhǔn)確度識(shí)別任何一個(gè)人說的話,并且不受詞匯量、噪音、說話者特征和口音、或者說話渠道的影響。盡管在這一領(lǐng)域的研究已經(jīng)有幾十年了,但大于90%的準(zhǔn)確率只有在某種程度的制約下才能實(shí)現(xiàn)。例如對(duì)通過使用麥克風(fēng)(小詞匯量,無(wú)噪音)的連續(xù)數(shù)字的識(shí)別準(zhǔn)確率可以達(dá)到99%以上;如果系統(tǒng)被訓(xùn)練學(xué)習(xí)某個(gè)說話者的聲音,那么在可用的商用系統(tǒng)中較大的詞匯也同樣能被處理,只是準(zhǔn)確率會(huì)下降到90%~95%;而不同說話者不同渠道的大詞匯量語(yǔ)音識(shí)別的準(zhǔn)確率不超過87%,并且處理時(shí)間是實(shí)時(shí)的數(shù)百倍。自動(dòng)語(yǔ)音識(shí)別的性能可能受許多因素的影響,包括技術(shù)設(shè)計(jì)、語(yǔ)音輸入的類型和質(zhì)量、周邊環(huán)境和用戶特征等。當(dāng)有更多的數(shù)據(jù)時(shí),自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的性能可以更好,因?yàn)檫@樣統(tǒng)計(jì)模型就可以建立在更大的基礎(chǔ)上。Google的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)性能好的原因是它們存儲(chǔ)了每個(gè)鍵入或說到Google中的搜索詞,并基于搜索的共性來確定概率。
自動(dòng)語(yǔ)音識(shí)別的應(yīng)用
過去十年目睹了語(yǔ)音識(shí)別技術(shù)的顯著改善,高性能算法與系統(tǒng)都已可用,使得自動(dòng)語(yǔ)音識(shí)別的應(yīng)用越來越廣泛。IT主流使得采用自動(dòng)語(yǔ)音識(shí)別在全球商業(yè)中變得更為關(guān)鍵,尤其是近年來互聯(lián)網(wǎng)協(xié)議(VoIP)平臺(tái)的擴(kuò)散刺激了企業(yè)對(duì)語(yǔ)音識(shí)別技術(shù)的采用。以支持應(yīng)用程序開始,語(yǔ)音識(shí)別解決方案已經(jīng)演變成滲透包括航空公司、銀行、倉(cāng)儲(chǔ)、庫(kù)存管理和安全券商等多個(gè)行業(yè)的核心應(yīng)用程序,并已經(jīng)成為差異化服務(wù)和建立客戶關(guān)系的工具。甚至醫(yī)療中心、醫(yī)院、制藥公司和其他醫(yī)療保健行業(yè)參與者也紛紛采用自助語(yǔ)音解決方案,因?yàn)檫@不僅能降低運(yùn)營(yíng)成本,同時(shí)也提高了客戶的隱私度。
消費(fèi)者對(duì)自動(dòng)語(yǔ)音識(shí)別技術(shù)的應(yīng)用程序范圍從基本的依靠語(yǔ)音啟動(dòng)的報(bào)警系統(tǒng)和手機(jī)上的語(yǔ)音撥號(hào),到智能手機(jī)應(yīng)用中的語(yǔ)音股票報(bào)價(jià)和基于語(yǔ)音的電子郵件,以及更多的有針對(duì)性的解決方案,如互動(dòng)娛樂和語(yǔ)音身份驗(yàn)證等。同時(shí),自動(dòng)語(yǔ)音識(shí)別也是汽車導(dǎo)航、遠(yuǎn)程信息處理系統(tǒng)和信息跟蹤等的重要組成部分。隨著對(duì)支持語(yǔ)言學(xué)習(xí)的創(chuàng)新應(yīng)用的需求日益增加,使用自動(dòng)語(yǔ)音識(shí)別技術(shù)的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)系統(tǒng)也越來越受關(guān)注。
語(yǔ)音自動(dòng)轉(zhuǎn)化為文本 我們都聽過像Apple的Siri一類的可以自動(dòng)識(shí)別我們說什么的系統(tǒng),并想知道我們能否使用這種“自動(dòng)語(yǔ)音識(shí)別”技術(shù)來替代手工轉(zhuǎn)錄口述內(nèi)容的繁瑣過程。
自動(dòng)語(yǔ)音識(shí)別的一個(gè)流行應(yīng)用是語(yǔ)音自動(dòng)轉(zhuǎn)錄為文本,比如將講話轉(zhuǎn)錄成手機(jī)短信、自動(dòng)數(shù)據(jù)輸入、直接語(yǔ)音輸入和制備結(jié)構(gòu)化文檔等。日本議會(huì)的轉(zhuǎn)錄系統(tǒng)就使用了自動(dòng)語(yǔ)音識(shí)別。在這種應(yīng)用下,聲音用電子方式被轉(zhuǎn)換成文本,并創(chuàng)建會(huì)議記錄或者報(bào)告草稿等。然后會(huì)議記錄或者報(bào)告草稿被格式化,編輯修正翻譯、標(biāo)點(diǎn)或語(yǔ)法中的錯(cuò)誤,并且檢查一致性和任何可能的錯(cuò)誤。在有標(biāo)準(zhǔn)化術(shù)語(yǔ)的領(lǐng)域工作的轉(zhuǎn)錄員——比如放射學(xué)或病理學(xué)領(lǐng)域中——更有可能會(huì)遇到語(yǔ)音識(shí)別技術(shù)。在醫(yī)療界,醫(yī)療轉(zhuǎn)錄機(jī)可以聽醫(yī)生和其他專業(yè)醫(yī)療保健人員的錄音,并把它們轉(zhuǎn)錄到醫(yī)療報(bào)告、信件和其他行政材料中。這一應(yīng)用具有提高工作輸出效率并改善訪問和控制各種計(jì)算機(jī)應(yīng)用的潛力。通過使用語(yǔ)音輸入,自動(dòng)語(yǔ)音識(shí)別應(yīng)用程序繞過或盡量減少傳統(tǒng)的手動(dòng)輸入方法(例如鍵盤、鼠標(biāo)),因此也使它成為有嚴(yán)重的肢體或神經(jīng)運(yùn)動(dòng)障礙人士的一種替代輸入法。
同聲傳譯 目前同聲傳譯設(shè)備雖然尚未完善,但達(dá)到基本上可用的要求卻是指日可待。2012年夏天,倫敦發(fā)明家Will Powell展示了一個(gè)進(jìn)行英語(yǔ)和西班牙語(yǔ)即時(shí)互譯的系統(tǒng)。對(duì)話雙方都戴著與手機(jī)相連的耳機(jī),而他們佩帶的特制的眼鏡可以像字幕一樣把翻譯的文字顯示出來。這款即時(shí)互譯系統(tǒng)在只要有手機(jī)信號(hào)的地方就能工作,但目前此系統(tǒng)需要耳機(jī)、云服務(wù)和筆記本電腦的支持,也就意味著它目前還只能是個(gè)設(shè)計(jì)原型。
2012年11月,日本最大的移動(dòng)電話運(yùn)營(yíng)商N(yùn)TT DoCoMo推出了一項(xiàng)可以將電話中的日語(yǔ)與英語(yǔ)、中文或韓語(yǔ)互譯的服務(wù)。通話的每一方都連續(xù)說話,然后該公司的計(jì)算機(jī)在幾秒鐘內(nèi)將聽到的內(nèi)容翻譯到所要求的語(yǔ)言,并將結(jié)果視情況適當(dāng)?shù)赜媚新暬蚺曒敵觥?/p>
在同聲傳譯領(lǐng)域最誘人的成果可能來自Microsoft。2012年10月,當(dāng)該公司的首席研究官Rick Rashid出席天津的一個(gè)會(huì)議時(shí),他的英語(yǔ)演講現(xiàn)場(chǎng)就被翻譯成了普通話,先是以字幕的形式顯示在大屏幕上,接著以電腦合成的聲音讀出。最引人注目的是,Rashid先生的中文版演講與他的英文版演講具有相同的語(yǔ)氣和音調(diào)。Microsoft認(rèn)為,如果以說話者自己的聲音傳遞譯文,聽眾對(duì)錯(cuò)誤的容忍度會(huì)提高,比如Rashid先生演講的即時(shí)中文翻譯雖然偶有錯(cuò)誤,但仍收到熱烈的掌聲。
自動(dòng)語(yǔ)音翻譯技術(shù)和智能手機(jī)中的應(yīng)用目前可用的視頻和音頻數(shù)據(jù)量正在以指數(shù)級(jí)飛速增長(zhǎng),遠(yuǎn)遠(yuǎn)超過了人工翻譯的承受力。當(dāng)人工翻譯不可行時(shí),自動(dòng)語(yǔ)音翻譯可以發(fā)揮重要的作用,它不僅讓通信成為可能,而且可以幫助從海量的數(shù)據(jù)中找出重要信息。自動(dòng)語(yǔ)音識(shí)別和機(jī)器翻譯能讓會(huì)議跨越國(guó)界和語(yǔ)言地高效舉行。
不僅是技術(shù)的進(jìn)步支持自動(dòng)語(yǔ)音識(shí)別的采用,商業(yè)趨勢(shì)也如此。在各個(gè)行業(yè)中,對(duì)最新移動(dòng)技術(shù)的需求與日俱增。為順應(yīng)這一趨勢(shì),許多語(yǔ)音翻譯技術(shù)都可以裝在智能手機(jī)應(yīng)用或平板電腦上使用。
不可否認(rèn),基于互聯(lián)網(wǎng)的解決方案有巨大的優(yōu)勢(shì),因?yàn)楫?dāng)人們說話時(shí)他們的數(shù)據(jù)可以被收集和分析,而識(shí)別準(zhǔn)確率的一個(gè)主要因素是訓(xùn)練聲學(xué)模型的數(shù)據(jù)量。越多的人對(duì)Google Search和Siri說話,這些系統(tǒng)的性能就會(huì)越好。但是如果一個(gè)系統(tǒng)只能聯(lián)網(wǎng)使用,那旅行者的使用就會(huì)受限。而英國(guó)的一家叫Nouvaris的公司于2012年開發(fā)的Nova Search不需要連接到互聯(lián)網(wǎng)就能使用。因此,當(dāng)沒有3G或無(wú)線網(wǎng)信號(hào)時(shí),你仍然能讓智能手機(jī)或計(jì)算機(jī)通過數(shù)據(jù)庫(kù)進(jìn)行搜索或回答問題。而當(dāng)如果有互聯(lián)網(wǎng)連接時(shí),該技術(shù)可以在幾秒鐘之內(nèi)就從龐大的數(shù)據(jù)庫(kù)中完成篩選,到目前為止,它已對(duì)高達(dá)2.45億條的列表起作用。由于是在智能手機(jī)上而不是互聯(lián)網(wǎng)上解碼語(yǔ)音,Nova Search可以更快速地完成語(yǔ)音指令的數(shù)據(jù)庫(kù)搜索。
Google和Siri基本上是將語(yǔ)音轉(zhuǎn)換為單詞流輸入到網(wǎng)絡(luò)搜索或人工智能口譯員。而Nova Search不同是因?yàn)樗苯佑谜Z(yǔ)音輸入搜索自定義數(shù)據(jù)庫(kù),它會(huì)產(chǎn)生拼音符號(hào)流,并將其用在一個(gè)非??斓囊勋@得專利的搜索技術(shù)中。通過使用以拼音為基礎(chǔ)的方法,該軟件可以一次搜索整個(gè)詞組,而不是只搜索個(gè)別單詞。雖然該軟件仍然是在搜索互聯(lián)網(wǎng)時(shí)最有用,但能在本地使用設(shè)備的語(yǔ)音識(shí)別功能仍具有一些關(guān)鍵的優(yōu)勢(shì),因?yàn)樾枰l(fā)送的數(shù)據(jù)大大減少,而且很快,要知道語(yǔ)音是一種非常昂貴的信號(hào)發(fā)送。該軟件的應(yīng)用包括對(duì)智能手機(jī)或電腦說出目的地,然后它會(huì)幫你找到公共交通路線等。
語(yǔ)音識(shí)別驗(yàn)證 在興起的所有類型的生物特征識(shí)別應(yīng)用中,基于語(yǔ)音的身份驗(yàn)證是用戶排斥較小的安全驗(yàn)證,它是一種非接觸式、非侵入式且易于使用的方法。使用說話人的語(yǔ)音進(jìn)行驗(yàn)證可以有許多應(yīng)用。例如,當(dāng)倉(cāng)庫(kù)中員工在工作中走來走去時(shí),可以給他們配備可穿戴/便攜式語(yǔ)音數(shù)據(jù)收集系統(tǒng)使其進(jìn)入倉(cāng)庫(kù);可以對(duì)因酒后駕車而定罪的罪犯方便地進(jìn)行遠(yuǎn)程酒精測(cè)試。結(jié)合移動(dòng)定位系統(tǒng),語(yǔ)音驗(yàn)證還可以用于跟蹤保安人員,以確保他們自己在正常巡邏,而不是讓他們的朋友在幫他們巡邏。另外,語(yǔ)音驗(yàn)證也可作為多安全系統(tǒng)用來控制過境。比如在Montana州的Scobey,氣溫有時(shí)會(huì)降至零度以下,于是大多數(shù)其他形式的生物識(shí)別技術(shù)不再可行,而語(yǔ)音驗(yàn)證裝置卻可以照常工作。
在金融方面,語(yǔ)音驗(yàn)證也開始有了應(yīng)用。Nuance公司2013年5月的調(diào)查數(shù)據(jù)顯示,有85%的人對(duì)當(dāng)前的身份驗(yàn)證方法不滿,因?yàn)橐卿浀姐y行帳戶、旅行網(wǎng)站或其他個(gè)人帳戶時(shí),必須要記住許多個(gè)人識(shí)別碼、密碼、安全問題及其答案;數(shù)據(jù)還顯示,如果能有相同高的安全級(jí)別的話,90%的人希望能使用語(yǔ)音識(shí)別解決方案來代替?zhèn)鹘y(tǒng)的身份驗(yàn)證方法,因?yàn)檎Z(yǔ)音識(shí)別技術(shù)可以通過每個(gè)人獨(dú)特的聲音來標(biāo)識(shí)他,從而消除了要記住和鍵入密碼、個(gè)人識(shí)別碼的麻煩,讓身份驗(yàn)證過程變得快速而簡(jiǎn)單。
2013年5月,Barclays財(cái)富投資管理部署了Nuance的Free Speech語(yǔ)音識(shí)別方案,成為第一家在呼叫中心將被動(dòng)的語(yǔ)音識(shí)別技術(shù)部署為主要客戶驗(yàn)證手段的金融服務(wù)公司。自推出以來,超過84%的Barclays客戶已在Nuance語(yǔ)音生物識(shí)別技術(shù)解決方案中注冊(cè),其中有95%的人第一次使用時(shí)就成功驗(yàn)證了身份。更妙的是,客戶與聯(lián)系中心的經(jīng)驗(yàn)反饋也有所改進(jìn),93%的客戶對(duì)新的身份驗(yàn)證系統(tǒng)就速度、易用性和安全性的評(píng)分至少為90分。Nuance的語(yǔ)音生物識(shí)別技術(shù)讓象Barclays銀行這樣的組織通過更直觀、更透明的認(rèn)證方式重新定義它們的客戶服務(wù)經(jīng)驗(yàn),減輕了客戶和服務(wù)的負(fù)擔(dān)。
汽車上的應(yīng)用 技術(shù)的發(fā)展一日千里,這極大影響了現(xiàn)代汽車中的駕駛員界面。先進(jìn)的駕駛員輔助系統(tǒng)、自動(dòng)泊車制動(dòng)系統(tǒng)和無(wú)鑰匙點(diǎn)火等創(chuàng)新從根本上改變了駕駛員界面的構(gòu)成。這些新的舒適性、信息和娛樂系統(tǒng)要求駕駛員處置大量的按鈕、旋鈕和屏幕,并且這一需求還在不斷增加。移動(dòng)智能手機(jī)和平板電腦也被越來越多地納入汽車中,以滿足駕駛員在行車中對(duì)連接和新服務(wù)的需求。對(duì)駕駛員來說,這顯然帶來了駕駛干擾和信息超載的風(fēng)險(xiǎn),尤其是這些主要車輛控制還只是冰山一角。而最有前景的解決方案似乎是語(yǔ)音控制,并且這早已是汽車行業(yè)的愿望。2013年現(xiàn)代的下一代汽車將有自然語(yǔ)言的語(yǔ)音啟動(dòng)電話撥號(hào)、消息聽寫、目的地輸入等,并能在車內(nèi)或在線音樂服務(wù)中搜索音樂。然而需要認(rèn)識(shí)到的是,即使有語(yǔ)音控制,駕駛員分神的風(fēng)險(xiǎn)依然存在。
自動(dòng)語(yǔ)音識(shí)別的其他應(yīng)用 移動(dòng)廣告是數(shù)字廣告中增長(zhǎng)最快的領(lǐng)域之一。根據(jù)eMarketer的數(shù)據(jù),2012年全球移動(dòng)廣告支出達(dá)84.1億美元,是2011年的40億美元的兩倍以上,并且預(yù)計(jì)到2013年達(dá)到近370億美元。作為創(chuàng)新性的新的移動(dòng)廣告格式,語(yǔ)音廣告是游戲規(guī)則改變者,它可以讓人們與他們喜歡的品牌有動(dòng)人有趣的雙向?qū)υ?,品牌可以通過讓消費(fèi)者在廣告中暢所欲言而令其對(duì)品牌產(chǎn)生持久的印象。在以前,從來沒有一個(gè)品牌能夠有超過10億用戶的個(gè)人對(duì)話,而這正是品牌一直渴求的與公眾的親密關(guān)系。目前Nuance VoiceAds已經(jīng)完全可以做到這一點(diǎn)。
2013年,松下新的高清智能電視SMARTVIERA采用Nuance配備的Dragon TV系統(tǒng),人們可以坐著通過語(yǔ)音來查找內(nèi)容、搜索網(wǎng)頁(yè)、控制音量等, 創(chuàng)造了更多的互動(dòng)和智能電視體驗(yàn)。
另一個(gè)更為有趣的應(yīng)用發(fā)生在俄羅斯,該國(guó)最大的零售銀行聯(lián)邦儲(chǔ)蓄銀行(Sber bank)開發(fā)了一種使用語(yǔ)音識(shí)別來測(cè)謊的自動(dòng)提款機(jī)。該機(jī)器通過將客戶對(duì)一些問題的反應(yīng)與一個(gè)記錄審訊中說謊人的數(shù)據(jù)庫(kù)比較,從而確定客戶是否說謊。
自動(dòng)語(yǔ)音識(shí)別的未來
除了從事自動(dòng)語(yǔ)音識(shí)別的研究和開發(fā)的科學(xué)家和技術(shù)人員,大多數(shù)人考慮自動(dòng)語(yǔ)音識(shí)別時(shí)低估了它的復(fù)雜性。它不僅是自動(dòng)的文本到語(yǔ)音,復(fù)雜的識(shí)別任務(wù)的一個(gè)必要條件是自動(dòng)語(yǔ)音識(shí)別需要有大的數(shù)據(jù)容量和存儲(chǔ)器的快速計(jì)算機(jī),并且需要語(yǔ)音科學(xué)家、語(yǔ)言學(xué)家、計(jì)算機(jī)科學(xué)家、數(shù)學(xué)家和工程師的參與。這些參與者應(yīng)用神經(jīng)網(wǎng)絡(luò)、心理聲學(xué)、語(yǔ)言學(xué)、言語(yǔ)感知、人工智能、聲學(xué)語(yǔ)音學(xué)等領(lǐng)域的知識(shí),為實(shí)現(xiàn)人類和機(jī)器之間的自然會(huì)話這一最終目標(biāo)共同努力。
過去三十多年來,語(yǔ)音識(shí)別研究的特點(diǎn)是小改進(jìn)的穩(wěn)步積累。由于語(yǔ)音識(shí)別性能的提高和更快計(jì)算機(jī)的可用,商業(yè)研究和其他學(xué)術(shù)研究繼續(xù)把重點(diǎn)放在日益難以解決的問題上。其中一個(gè)關(guān)鍵領(lǐng)域是提高語(yǔ)音識(shí)別性能的強(qiáng)健耐用性,這不僅是指抗噪音方面,也包括在所有可能導(dǎo)致性能大幅下降的情況下的強(qiáng)健耐用性。另一個(gè)關(guān)鍵領(lǐng)域關(guān)注的是一個(gè)機(jī)會(huì),而不是一個(gè)問題,因?yàn)檫@項(xiàng)研究嘗試?yán)迷S多應(yīng)用中的大量高達(dá)數(shù)百萬(wàn)小時(shí)的可用語(yǔ)音數(shù)據(jù)。如果靠人來把這些語(yǔ)音轉(zhuǎn)錄成文本,成本相當(dāng)高昂,因此研究關(guān)注的是開發(fā)一種新的機(jī)器學(xué)習(xí)的方法,使之能有效地利用大量未標(biāo)記的數(shù)據(jù)。還有一個(gè)研究領(lǐng)域是更好地理解人的能力,并使用這種理解來提高機(jī)器識(shí)別性能。
篇3
1語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)的技術(shù)依據(jù)
近年來國(guó)內(nèi)教育信息化趨勢(shì)更加明顯,英語(yǔ)教學(xué)活動(dòng)建立信息化平臺(tái)是師生所需,改變了早期英語(yǔ)課堂模式的不足之處。語(yǔ)音識(shí)別是計(jì)算機(jī)翻譯軟件不可缺少的一部分,如圖1,主要針對(duì)不同語(yǔ)言進(jìn)行識(shí)別處理,幫助學(xué)生快速地理解英語(yǔ)知識(shí)內(nèi)涵。語(yǔ)音識(shí)別技術(shù)主要包括:特征提取技術(shù)、模式匹配技術(shù)、模型訓(xùn)練技術(shù)等三大技術(shù),也是系統(tǒng)設(shè)計(jì)需考慮的重點(diǎn)。
1)特征提取技術(shù)。一般來說,語(yǔ)音識(shí)別系統(tǒng)輔助功能涉及到收錄、處理、傳遞等三個(gè)環(huán)節(jié),這也是語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)的關(guān)鍵所在。計(jì)算機(jī)語(yǔ)言與自然語(yǔ)言之間存在極大的差異性,如何準(zhǔn)確識(shí)別兩種語(yǔ)言的差異性,這是翻譯軟件識(shí)別時(shí)必須解決的問題。特征提取技術(shù)是語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)成,主要負(fù)責(zé)對(duì)英語(yǔ)語(yǔ)言特征進(jìn)行提取,向翻譯器及時(shí)提供準(zhǔn)確的語(yǔ)言信號(hào),提高計(jì)算機(jī)翻譯工作的準(zhǔn)確系數(shù)。
2)模式匹配技術(shù)。語(yǔ)音識(shí)別系統(tǒng)要匹配對(duì)應(yīng)的功能模塊,以輔助師生在短時(shí)間內(nèi)翻譯出語(yǔ)言含義,避免人工翻譯語(yǔ)言失誤帶來的不便。模式匹配技術(shù)采用智能識(shí)別器,由翻譯器錄入語(yǔ)音之后自主化識(shí)別、分析,減小了人工翻譯語(yǔ)句的難度。例如,計(jì)算機(jī)軟件建立匹配模型,按照英語(yǔ)字、詞、句等結(jié)構(gòu)形式,自動(dòng)選擇相配套的翻譯模式,執(zhí)行程序命令即可獲得最終的語(yǔ)言結(jié)果,給予學(xué)生語(yǔ)音識(shí)別方面的幫助。
3)模型訓(xùn)練技術(shù)。設(shè)計(jì)語(yǔ)音識(shí)別系統(tǒng)是為了實(shí)現(xiàn)教育信息化,幫助教師解決英語(yǔ)課堂教學(xué)中遇到的翻譯難題,加深學(xué)生們對(duì)英語(yǔ)知識(shí)的理解能力。語(yǔ)音識(shí)別結(jié)束之后,翻譯器會(huì)自動(dòng)執(zhí)行模擬訓(xùn)練操作,為學(xué)生創(chuàng)建虛擬化的語(yǔ)音訓(xùn)練平臺(tái),這也是軟件識(shí)別系統(tǒng)比較實(shí)用的功能。模擬訓(xùn)練技術(shù)采用人機(jī)一體化設(shè)計(jì)思想,把翻譯器、語(yǔ)音識(shí)別器等組合起來執(zhí)行訓(xùn)練方式,快速地識(shí)別、判斷英語(yǔ)發(fā)聲水平,指導(dǎo)學(xué)生調(diào)整語(yǔ)音方式。
2英語(yǔ)翻譯器語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用
英語(yǔ)翻譯器是現(xiàn)代化教學(xué)必備的操作工具,教師與學(xué)生借助翻譯器功能可準(zhǔn)確地理解英語(yǔ)含義,這對(duì)語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)提出了更多要求。筆者認(rèn)為,設(shè)計(jì)語(yǔ)音識(shí)別系統(tǒng)要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機(jī)語(yǔ)言轉(zhuǎn)換速率。語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)及應(yīng)用情況:
1)識(shí)別模塊。語(yǔ)音識(shí)別方法主要是模式匹配法,根據(jù)不同翻譯要求進(jìn)行匹配處理,實(shí)現(xiàn)英語(yǔ)翻譯的精準(zhǔn)性。一是在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫(kù);二是在識(shí)別階段,將輸入語(yǔ)音的特征矢量依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對(duì)原始語(yǔ)音進(jìn)行處理,這是預(yù)處理操作的主要作用。語(yǔ)音識(shí)別系統(tǒng)常受到外界干擾而降低了翻譯的準(zhǔn)確性,設(shè)計(jì)前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。例如,比較常用的前端處理有端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)。
3)聲學(xué)模塊。語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成,分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。聲學(xué)特征的提取與選擇是語(yǔ)音識(shí)別的一個(gè)重要環(huán)節(jié),這一步驟直接關(guān)系到翻譯器的工作效能,對(duì)英語(yǔ)語(yǔ)音識(shí)別與學(xué)習(xí)有很大的影響。因此,聲學(xué)模塊要注重人性化設(shè)計(jì),語(yǔ)音設(shè)定盡可能符合自然語(yǔ)言特點(diǎn)。
4)搜索模塊。英語(yǔ)語(yǔ)音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語(yǔ)音信號(hào),從而得到詞解碼序列。本次所設(shè)計(jì)的搜索模塊中,其前端是一個(gè)語(yǔ)音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語(yǔ)法分析器進(jìn)行分析獲取語(yǔ)義信息,再由對(duì)話管理器確定應(yīng)答信息,由語(yǔ)音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來獲取語(yǔ)義信息。
5)執(zhí)行模塊。實(shí)際應(yīng)用中,語(yǔ)言識(shí)別系統(tǒng)憑借執(zhí)行模塊完成操作,對(duì)英語(yǔ)語(yǔ)言識(shí)別方式進(jìn)行優(yōu)化擇取,以最佳狀態(tài)完成英語(yǔ)翻譯工作。目前,就英語(yǔ)教學(xué)中使用情況,聽寫及、對(duì)話系統(tǒng)等是語(yǔ)音識(shí)別執(zhí)行的兩種方式,充分展現(xiàn)了翻譯器在語(yǔ)言轉(zhuǎn)換方面的應(yīng)用功能。(1)聽寫機(jī)。大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語(yǔ)言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語(yǔ)言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。(2)對(duì)話系統(tǒng)。用于實(shí)現(xiàn)人機(jī)口語(yǔ)對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng),英語(yǔ)翻譯器中完成了人機(jī)對(duì)話、語(yǔ)言轉(zhuǎn)換等工作,全面提升了翻譯器操控的性能系數(shù)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫(kù)檢索等,隨著語(yǔ)音數(shù)據(jù)庫(kù)資源的優(yōu)化配置,對(duì)話系統(tǒng)功能將全面升級(jí)。
3翻譯器使用注意事項(xiàng)
語(yǔ)音識(shí)別系統(tǒng)就是讓機(jī)器通過識(shí)別和理解過程,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高科技。隨著高校教學(xué)信息化建設(shè)時(shí)期到來,計(jì)算機(jī)軟件輔助教學(xué)活動(dòng)是一種先進(jìn)的模式,徹底改變了傳統(tǒng)人工教學(xué)模式的不足。翻譯軟件采用數(shù)字化元器件為硬件平臺(tái),配合遠(yuǎn)程互聯(lián)網(wǎng)建立多元化傳輸路徑,滿足了英語(yǔ)翻譯數(shù)據(jù)處理與傳輸?shù)膽?yīng)用要求。但是,未來英語(yǔ)教學(xué)內(nèi)容越來越復(fù)雜,翻譯器語(yǔ)音識(shí)別系統(tǒng)承載的數(shù)據(jù)范圍更廣,學(xué)校必須實(shí)施更新翻譯軟件產(chǎn)品,才能進(jìn)一步提升英語(yǔ)智能化翻譯水平。
4結(jié)論
篇4
目前,語(yǔ)言識(shí)別技術(shù)已經(jīng)被大量應(yīng)用于企業(yè)的呼叫中心領(lǐng)域。大部分的電腦查詢服務(wù)都會(huì)采用自動(dòng)語(yǔ)音識(shí)別技術(shù),用來處理客戶的各種需求,從而減少人工服務(wù)的數(shù)量,節(jié)約人力資源。然而,在經(jīng)歷過冗長(zhǎng)、復(fù)雜的自助服務(wù)互動(dòng)體驗(yàn)后,客戶更加期待實(shí)用性高的語(yǔ)音互動(dòng)應(yīng)用,使得他們能夠在撥打了第一通電話后就輕松將問題解決。這也讓自動(dòng)語(yǔ)音識(shí)別的準(zhǔn)確性成為衡量語(yǔ)音識(shí)別軟件的一個(gè)重要標(biāo)準(zhǔn)。對(duì)于語(yǔ)言識(shí)別技術(shù)供應(yīng)商來說,其產(chǎn)品應(yīng)當(dāng)包括對(duì)自然語(yǔ)言與噪音處理的功能,以及支持多種語(yǔ)言版本和方言。
Nuance是最早從事自動(dòng)語(yǔ)音識(shí)別技術(shù)研究的公司之一,在其最新推出的語(yǔ)音識(shí)別應(yīng)用平臺(tái)中,已經(jīng)能夠有效地過濾噪聲背景,適度提高語(yǔ)音辨析率,并在無(wú)線、免提和嘈雜的環(huán)境下提高準(zhǔn)確率。目前的語(yǔ)音識(shí)別應(yīng)用系統(tǒng)還可以自動(dòng)適應(yīng)每種特別的部署環(huán)境,并具體套用于各種方言、區(qū)域口音和電話線路特性的聲學(xué)模型中。
排除噪音干擾是語(yǔ)音識(shí)別技術(shù)的一項(xiàng)關(guān)鍵性挑戰(zhàn)。為了能在本質(zhì)上展現(xiàn)高效處理各種噪音的能力,提供更高的識(shí)別準(zhǔn)確度,服務(wù)商通常與學(xué)術(shù)界和數(shù)據(jù)收集單位保持密切關(guān)系,廣泛且準(zhǔn)確地使用這些聲學(xué)和語(yǔ)言學(xué)的數(shù)據(jù)。在目前的語(yǔ)音識(shí)別系統(tǒng)中,其聲學(xué)模型通常采用大量來自現(xiàn)實(shí)世界的數(shù)據(jù)整合而成,包括各種噪音環(huán)境,從而具有較高的噪聲適應(yīng)性。
以Nuance公司為例,依靠其先進(jìn)的端點(diǎn)和語(yǔ)音檢測(cè)公式,系統(tǒng)能夠精確地將語(yǔ)音內(nèi)容和背景噪音分離開來,即使是在極其嘈雜的移動(dòng)環(huán)境中,新的端點(diǎn)檢測(cè)技術(shù)也能夠讓系統(tǒng)自行判斷語(yǔ)音何時(shí)開始、何時(shí)結(jié)束,從而更準(zhǔn)確地轉(zhuǎn)錄。事實(shí)上,相較于之前的傳統(tǒng)語(yǔ)音識(shí)別產(chǎn)品,Nuance公司在嘈雜環(huán)境中展現(xiàn)了更優(yōu)越的偵測(cè)準(zhǔn)確度,識(shí)別準(zhǔn)確率平均提升了45%以上。
據(jù)筆者了解,現(xiàn)在最新的語(yǔ)音識(shí)別平臺(tái)還具有非常準(zhǔn)確的自然語(yǔ)言處理能力,以高效處理開放式的語(yǔ)音輸入以及主動(dòng)對(duì)話等狀況。系統(tǒng)能夠根據(jù)來電者提供的資料,讓對(duì)話變得更加靈活。比如說,來電者可在通話中一次提出好幾個(gè)問題, 或者通過提示來修正系統(tǒng)。因此,語(yǔ)音自助服務(wù)應(yīng)用能夠帶來更好的結(jié)果,提高自動(dòng)化率,縮短電話客服處理時(shí)間,降低客戶掛機(jī)的頻率,帶給客戶更有價(jià)值的互動(dòng)體驗(yàn)。
以雅芳公司為例,它是最大的直銷公司之一,每天要處理來自全球各處的客戶問題。在還沒應(yīng)用自動(dòng)語(yǔ)音識(shí)別技術(shù)以前,雅芳客服中心每年有1200萬(wàn)個(gè)電話需要處理,企業(yè)承擔(dān)的成本高達(dá)1500萬(wàn)美元。
篇5
一、小學(xué)生單詞語(yǔ)音識(shí)別技能培養(yǎng)的意義
(一)單詞語(yǔ)音識(shí)別技能是小學(xué)生單詞學(xué)習(xí)的加速器
單詞的掌握一般包括知道一個(gè)單詞的音、形、義、用法和使用等五個(gè)方面。掌握單詞的讀音是單詞學(xué)習(xí)的一項(xiàng)重要內(nèi)容。通常小學(xué)生讀出一個(gè)單詞一般通過以下三種途徑:第一,跟讀與記憶單詞發(fā)音;第二,通過單詞的音標(biāo)讀出單詞;第三,通過拼讀能力讀出單詞。通過教師示范朗讀或聽音視頻的方式不斷跟讀,從而建立單詞詞形與整詞聲音的連接。這是一種不對(duì)詞匯作任何區(qū)分的、基于機(jī)械記憶的學(xué)習(xí)形式。面對(duì)少量單詞還可以應(yīng)付,對(duì)于深入的、大量的單詞學(xué)習(xí)是十分不利的,是一種低效的英語(yǔ)單詞學(xué)習(xí)方式。而通過音標(biāo)讀單詞需要一個(gè)前提條件,那就是兒童必須首先學(xué)習(xí)并掌握音標(biāo)系統(tǒng)。這對(duì)于小學(xué)生來說是十分困難而耗時(shí)的,可能會(huì)嚴(yán)重抑制小學(xué)生英語(yǔ)學(xué)習(xí)的興趣。而拼讀法作為21世紀(jì)初英、美、澳等英語(yǔ)國(guó)家政府強(qiáng)制或建議使用于幼兒園和小學(xué)低年級(jí)英語(yǔ)教學(xué)中的方法(于海靜,郭滿庫(kù),2015),是通過建立字母與字母音之間的音形對(duì)應(yīng)關(guān)系為基礎(chǔ)來培養(yǎng)單詞解碼能力(包括單詞語(yǔ)音與語(yǔ)義識(shí)別技能),從而可以讀出所見的書面詞匯。由此可見,以拼讀教學(xué)為途徑發(fā)展的單詞語(yǔ)音識(shí)別技能能夠有效地?cái)[脫單詞讀音的機(jī)械記憶,從而加速小學(xué)生詞匯學(xué)習(xí)的進(jìn)程。
(二)?未視鏌羰侗鵂寄蓯切?生閱讀學(xué)習(xí)的重要前提
英語(yǔ)閱讀能力是英語(yǔ)素養(yǎng)的核心成分,它不但是英語(yǔ)語(yǔ)言學(xué)習(xí)的內(nèi)容,也是英語(yǔ)語(yǔ)言學(xué)習(xí)的手段,其重要性不言而喻。而對(duì)于學(xué)習(xí)閱讀的小學(xué)生來說,語(yǔ)音與語(yǔ)義識(shí)別是學(xué)習(xí)閱讀的主要策略。對(duì)于學(xué)習(xí)閱讀的人來說,完成形音義的整體獲得需要一個(gè)過程。英語(yǔ)作為拼音文字,其語(yǔ)音加工決定詞匯通達(dá)(林永海,錢琴珍,張必隱,2003),在閱讀中的語(yǔ)音激活早于語(yǔ)義激活(陳寶國(guó),彭聃齡,2001)。單詞形和義的聯(lián)系需要語(yǔ)音為中介。另外,閱讀認(rèn)知的核心操作系統(tǒng)――工作記憶以語(yǔ)音環(huán)節(jié)為基本機(jī)制,使得閱讀學(xué)習(xí)的首要任務(wù)是建立單詞形音的聯(lián)結(jié),并以此為基礎(chǔ)發(fā)展閱讀理解能力。研究表明,單詞認(rèn)讀與閱讀理解相關(guān)度極高,在控制一般認(rèn)知能力作用的條件下,單詞認(rèn)讀仍可顯著解釋閱讀理解的變異(陶沙,彭鵬,2010:230)。
研究表明,單詞識(shí)別與解碼技能的不足是造成閱讀學(xué)習(xí)困難的主要問題所在(Vellutino,2004)。我國(guó)一項(xiàng)研究說明,英語(yǔ)語(yǔ)音加工技能缺陷與閱讀困難存在顯著相關(guān),漢語(yǔ)視覺加工模式和經(jīng)驗(yàn)制約英語(yǔ)字形與語(yǔ)音間的對(duì)應(yīng)轉(zhuǎn)錄,進(jìn)而對(duì)英文閱讀中語(yǔ)義加工造成直接影響(林新事,2008:94)。上述研究側(cè)面反映了單詞語(yǔ)音識(shí)別技能對(duì)閱讀能力發(fā)展的重要影響。因此,為了高效地提升小學(xué)生英語(yǔ)素養(yǎng),打通語(yǔ)言輸入與習(xí)得的途徑,培養(yǎng)單詞語(yǔ)音識(shí)別技能便成為小學(xué)生有效閱讀學(xué)習(xí)的必要條件。
二、小學(xué)生單詞語(yǔ)音識(shí)別技能培養(yǎng)的核心內(nèi)容
(一)字母與字母音對(duì)應(yīng)及單音節(jié)單詞語(yǔ)音識(shí)別
建立字母與字母音之間的聯(lián)結(jié)是小學(xué)生單詞語(yǔ)音識(shí)別的基礎(chǔ)。英語(yǔ)共有26個(gè)字母,其中元音字母5個(gè),分別是a, e, i, o, u,輔音字母20個(gè),分別是b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, z,最后一個(gè)為半元音字母y。對(duì)于5個(gè)元音字母,學(xué)生應(yīng)該掌握它們的兩種對(duì)應(yīng)關(guān)系,即分別作為短元音和作為長(zhǎng)元音的字母音與元音字母的對(duì)應(yīng)。對(duì)于輔音字母來說,可以將它們分成兩組:一組為只有一種字母與字母音對(duì)應(yīng)的字母,如b, f, h, j, k等等;另外一組為有兩種字母音的字母,如c, g等等。它們形成特殊而一致的規(guī)則,即the C Rule 和the G Rule。也就是說,當(dāng)元音字母a, e 或u跟在輔音字母c后,這時(shí)字母c發(fā)字母k的字母音,如cake, cute等等。當(dāng)元音字母e, i或y跟在字母c后時(shí),字母c發(fā)字母s的字母音,如cell, city, cycle等等。對(duì)于字母y,要作為輔音和元音字母分別對(duì)待。
在形成字母與字母音的對(duì)應(yīng)后,小學(xué)生應(yīng)該學(xué)習(xí)字母的組合音,這些組合音以極高的頻率一同出現(xiàn)在單詞開頭和結(jié)尾部分,掌握這些輔音、元音和元輔音字母組合是發(fā)展小學(xué)生的“頭韻-韻腳”意識(shí),從而完成單音節(jié)單詞的語(yǔ)音識(shí)別。常見的輔音、元音和元輔音字母組合內(nèi)容與例詞見表1。教師在逐漸呈現(xiàn)與練習(xí)字母音、字母組合音時(shí),應(yīng)該不斷嘗試合成與分解單詞,再分解與合成單詞,不斷訓(xùn)練,達(dá)到規(guī)則的自動(dòng)化,從而掌握單音節(jié)單詞的語(yǔ)音識(shí)別技能。
表1 常見的輔音、元音和元輔音字母音組合內(nèi)容
[輔音字母音組合 bl,cl,fl,gl,pl;
br,cr,dr,gr,pr,tr;
sc,sk,sl,sn,sm,sp,st,sw;
sh,ch,th,wh,kn,ng,ph;
sh:ash,ish,ush;ell,ip,op,ut;mp,ft;nt,lk,lt;
ch:ick,eck,in,op,ess,ip;
each;tch:atch;
th:ing,umb,ink,ick;ath,oth,eeth;
wh:eel,eat,en,ich. 元音字母音組合 ai:ail,aid,ain,ait;
ee:eed,eep,eet;
ea:ead,ean,eat,eal;
oa:oat,oad,oap,oak,oast,oal,oaf;
oo:ook,ood,oon,oose;
ou:ound;ow:own;
oi,oy. 元輔音字母音組合 am,ad,at,an,ap,ab,ag,ack,ant,ang,ank,amp;
ed,en,ell,eg,et,ess,end,ent,est,eck;
id,ig,ill,it,im,in,ing,ink,ish,ick;
ox,ot,op,ob,od,og,om,ock;
ug,un,ut,ub,um,uck,unch;qu,tw;
ar:ark,ard,arn,arm;er;ir:irt;or:ork,ord,orn,orm;
ur:urse,urn;
a-e:ake,ame,ane,ate;
e-e:eve,ete;
i-e:ite,ike,ine;
o-e:oke,ole,ose,ome;
u-e:use,ute.
]
(二)?p音節(jié)、多音節(jié)單詞語(yǔ)音識(shí)別
小學(xué)生能夠正確地讀出雙音節(jié)或多音節(jié)單詞需要兩個(gè)條件:第一,能夠解碼單詞中的單個(gè)音節(jié);第二,能夠?qū)蓚€(gè)或多個(gè)音節(jié)合成一個(gè)單詞。因此,解碼雙音節(jié)或多音節(jié)單詞中的單個(gè)音節(jié),并合成兩個(gè)或多個(gè)音節(jié)的單詞,便是雙音節(jié)或多音節(jié)單詞語(yǔ)音識(shí)別的主要學(xué)習(xí)內(nèi)容。具體來說,兒童的訓(xùn)練可以從四種拼讀形式開始,即CVC,-y, le, r-controlled vowels。練習(xí)區(qū)分單詞的單個(gè)音節(jié),然后練習(xí)將兩個(gè)單音節(jié)合成讀出。例如,教師可以為學(xué)生提供pencil, happy, little, market, letter等詞,通過舉例講解音節(jié)的區(qū)分與合成,然后根據(jù)四種拼讀形式提供更多的雙音節(jié)或多音節(jié)單詞進(jìn)行變式練習(xí)。
接下來,引導(dǎo)學(xué)生區(qū)分開音節(jié)與閉音節(jié),從而應(yīng)對(duì)正確解碼雙音節(jié)或多音節(jié)單詞中元音字母的長(zhǎng)、短兩種發(fā)音問題。開音節(jié)包括直接以元音字母結(jié)尾和以不發(fā)音字母“e”結(jié)尾兩種。教師須重新明確在這兩種情況下五個(gè)元音字母發(fā)字母音,如在paper(pa-per),baby(ba-by),hotel(ho-tel),return(re-turn),exercise(exer-cise),excuse (ex-cuse),conversation(con-ver-sa-tion)等單詞中。閉音節(jié)指以元音字母加一個(gè)或幾個(gè)輔音字母(r除外)結(jié)尾的重讀音節(jié),如basket(bas-ket),rabbit(rab-bit),lesson(les-son),dentist(den-tist),similar(si-mi-lar)等等。
(三)特殊單詞語(yǔ)音識(shí)別
在單詞語(yǔ)音識(shí)別過程中,教學(xué)內(nèi)容的安排要遵循由簡(jiǎn)到難、由一般到特殊的順序。因此,在教授字母與字母音對(duì)應(yīng)及符合規(guī)律的單音節(jié)與多音節(jié)單詞識(shí)別后,或從符合規(guī)則的雙音節(jié)單詞解碼后便可以適當(dāng)引入一些特殊單詞的語(yǔ)音識(shí)別學(xué)習(xí)。例如,非重讀央元音/?/便是英語(yǔ)中最常出現(xiàn)的元音音素之一,如高頻詞about,another中的第一字母。因?yàn)樵撘羲爻霈F(xiàn)在非重讀音節(jié)中,其教學(xué)顯然不能出現(xiàn)在單詞識(shí)別的最早階段。
三、小學(xué)生單詞語(yǔ)音識(shí)別技能培養(yǎng)的方法
(一)兒童單詞語(yǔ)音識(shí)別技能培養(yǎng)方法使用的現(xiàn)狀
有學(xué)者認(rèn)為(程曉堂,2010),我國(guó)小學(xué)生學(xué)習(xí)英語(yǔ)單詞以整體認(rèn)讀為主,也有少數(shù)英語(yǔ)教師嘗試使用自然拼讀法拼讀單詞。筆者認(rèn)為,還有一些教師嘗試教授小學(xué)生國(guó)際音標(biāo),然后通過單詞對(duì)應(yīng)的國(guó)際音標(biāo)轉(zhuǎn)換讀出單詞。目前,這種形式經(jīng)常用于小學(xué)高年級(jí)或初一年段英語(yǔ)教學(xué)之中。然而,筆者認(rèn)為,根據(jù)記憶的整體認(rèn)讀法和國(guó)際音標(biāo)注音法均非最適合小學(xué)生單詞語(yǔ)音識(shí)別的方法,尤其是小學(xué)低年級(jí)學(xué)生。而英、美、澳等英語(yǔ)國(guó)家通過研究證明對(duì)幼兒園及小學(xué)生有效的單詞解碼方式為拼讀法教學(xué),有利于提升其閱讀能力。鑒于我國(guó)英語(yǔ)教學(xué)中拼讀法使用較少的現(xiàn)狀,拼讀法作為一種可選擇的方法,應(yīng)該在理論上加深探究,在實(shí)踐中更多嘗試與探索。
拼讀法教學(xué)旨在培養(yǎng)兒童英語(yǔ)閱讀能力,但小學(xué)生學(xué)習(xí)閱讀的首要任務(wù)是實(shí)現(xiàn)單詞的語(yǔ)音加工,從而通達(dá)詞匯,如此方可實(shí)現(xiàn)單詞形與義的語(yǔ)音轉(zhuǎn)錄。這樣,最基本的單詞閱讀方可發(fā)生。拼讀法就是以英語(yǔ)字母與其獨(dú)特的發(fā)音相匹配為基礎(chǔ)解碼單詞的。英語(yǔ)共有26個(gè)字母,對(duì)應(yīng)44個(gè)音,大致以70種最基本的拼寫形式存在。對(duì)于拼讀法來說,有綜合拼讀法(synthetic phonics approach)與分析拼讀法(analytic phonics approach)、直接拼讀法(explicit phonics approach)與間接拼讀法(implicit phonics approach)、系統(tǒng)拼讀法(systematic phonics approach)與附帶拼讀法(incidental phonics approach)之別,但其無(wú)非體現(xiàn)兩種不同的取向。一種認(rèn)為系統(tǒng)的、直接的、綜合的學(xué)習(xí)更有效,而另一種認(rèn)為間接的、偶發(fā)的、分析的學(xué)習(xí)更好。筆者認(rèn)為,對(duì)于外語(yǔ)學(xué)習(xí)者來說,系統(tǒng)的、直接的、綜合的學(xué)習(xí)是十分必要的,對(duì)于初學(xué)者更是必不可少。而對(duì)于復(fù)雜的和個(gè)例的單詞解碼可以在漸進(jìn)的學(xué)習(xí)中以間接的、偶發(fā)的、分析的方法持續(xù)教授。
(二)直接拼讀法在小學(xué)生單詞語(yǔ)音識(shí)別技能培養(yǎng)中的使用
系統(tǒng)拼讀法強(qiáng)調(diào)系統(tǒng)地設(shè)計(jì)與安排拼讀教學(xué)內(nèi)容,以直接法有序教學(xué)。而附帶拼讀法則相反,其要求教師不要遵循有序的拼讀內(nèi)容教學(xué),而是在文本中對(duì)偶遇的個(gè)別拼讀內(nèi)容進(jìn)行學(xué)習(xí)。綜合拼讀法指將單詞中字母或字母組合對(duì)應(yīng)的音讀出,然后再將它們整合起來讀出整個(gè)單詞。例如,在教授小學(xué)生解碼cat這個(gè)單詞時(shí),教師指導(dǎo)學(xué)生將cat這個(gè)單詞區(qū)分出三個(gè)字母,即c,a,t,然后讓學(xué)生讀出三個(gè)字母的字母音/k, ?, t/,最后將這個(gè)三個(gè)字母音混合讀出形成單詞的讀音。分析拼讀法則不會(huì)孤立地讀出字母或字母組合的讀音。通常,要求學(xué)生分析一組含有共同音素的單詞。例如,教師引導(dǎo)學(xué)生討論cat, fat, sad三個(gè)單詞的相似之處,從而學(xué)生可以推論出三個(gè)詞共同含有字母a,對(duì)應(yīng)的讀音為/?/。通過上面例子不難發(fā)現(xiàn),就算學(xué)生可以發(fā)現(xiàn)三個(gè)單詞共同含有字母a,但在教師沒有教授或讀出字母a對(duì)應(yīng)的字母音/?/時(shí),學(xué)生是無(wú)法提取預(yù)教的字母音的。由此可見,直接教授字母或字母組合與字母音的對(duì)應(yīng)是單詞語(yǔ)音識(shí)別不可逾越的前提。
直接拼讀法要求首先完成字母和字母音的一一對(duì)應(yīng),然后再將它們混合形成詞匯的語(yǔ)音解碼。直接法拼讀教學(xué)的關(guān)鍵環(huán)節(jié)是將孤立的字母或字母組合音混合并完成整個(gè)單詞的發(fā)音。間接拼讀法與分析拼讀法持有相同觀點(diǎn),即不能孤立地教授字母與字母音的對(duì)應(yīng)??尚Φ氖?,分析拼讀法恰恰假設(shè)學(xué)生已經(jīng)形成了字母與字母音的對(duì)應(yīng)。對(duì)于直接拼讀教學(xué)來說,口語(yǔ)詞匯的語(yǔ)音識(shí)別要基于準(zhǔn)確的孤立的單音,而對(duì)于教師和學(xué)生來說學(xué)得或習(xí)得標(biāo)準(zhǔn)的個(gè)別字母和字母組合音是十分必要的,否則不準(zhǔn)確的孤立音將成為聽覺詞匯解碼的阻礙。因此,在拼讀教學(xué)中教師要利用各種條件幫助學(xué)生獲得標(biāo)準(zhǔn)的或更加近似的音。
四、小學(xué)生單詞語(yǔ)音識(shí)別技能培養(yǎng)的具體建議
(一) 全面發(fā)展單詞識(shí)別技能,為兒童閱讀學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)
單詞識(shí)別能力既包含單詞語(yǔ)音識(shí)別技能,也包含單詞語(yǔ)義識(shí)別技能。因此,在小學(xué)生單詞識(shí)別技能教學(xué)時(shí)要將兩者結(jié)合起來,兩者不可偏廢。盡管英語(yǔ)單詞的解碼需要語(yǔ)音通達(dá)語(yǔ)義,但是在單詞語(yǔ)音解碼教學(xué)中可以始終以間接或直接的方式進(jìn)行單詞語(yǔ)義的滲透或?qū)W習(xí)。另外,值得一提的是初學(xué)者高頻詞匯的解碼也應(yīng)該在起始階段進(jìn)行學(xué)習(xí)。高頻詞匯的教學(xué)應(yīng)該分成兩組來分別對(duì)待,對(duì)于符合拼讀規(guī)律的單音節(jié)單詞應(yīng)該先學(xué)習(xí),而對(duì)于符合規(guī)律的多音節(jié)和特殊的高頻詞可以隨著學(xué)生單詞識(shí)別技能的提升而漸進(jìn)地學(xué)習(xí)。高頻詞的解碼與熟練認(rèn)讀是小學(xué)生能夠流利閱讀的重要條件。
單詞識(shí)別技能不僅有利于兒童詞匯學(xué)習(xí),更重要的是單詞識(shí)別與解碼技能是小學(xué)生閱讀學(xué)習(xí)的主要策略(Aaron,1999:221-244)。在英語(yǔ)早期閱讀教學(xué)中拼讀法備受親賴的一個(gè)重要原因是:它是作為培養(yǎng)初學(xué)者英語(yǔ)閱讀的一種重要方法。而拼讀教學(xué)的立身的根本便是,形成字母形音對(duì)應(yīng),從而實(shí)現(xiàn)單詞的解碼,進(jìn)而提升與改善學(xué)生的閱讀學(xué)習(xí)。盡管拼讀法在英語(yǔ)作為母語(yǔ)的教學(xué)中經(jīng)歷了曲折的發(fā)展,但21世紀(jì)伊始它的價(jià)值被重新準(zhǔn)確定位。由此可見,在進(jìn)行單詞識(shí)別技能培養(yǎng)中要始終以促進(jìn)學(xué)生閱讀學(xué)習(xí)為最終目的,也就是說,除了關(guān)注單詞識(shí)別技能本身的發(fā)展外,還要兼顧有利于閱讀學(xué)習(xí)發(fā)展的其他因素,如語(yǔ)音意識(shí)、閱讀理解、流利度等。
(二)整合課內(nèi)外資源,合理安排英語(yǔ)課程與教學(xué)
篇6
飛康CDP成功救災(zāi)基金公司業(yè)務(wù)系統(tǒng)
日前,國(guó)內(nèi)某基金公司的IT管理人員發(fā)現(xiàn),由于前一天的誤操作,導(dǎo)致其清算系統(tǒng)已經(jīng)全面故障,嚴(yán)重地影響到了當(dāng)天下午的清算業(yè)務(wù)。清算系統(tǒng)是這家基金公司生產(chǎn)系統(tǒng)中最為核心的系統(tǒng)之一,發(fā)生故障將直接影響到前臺(tái)的業(yè)務(wù)交易正常運(yùn)行。因此,IT管理人員決定啟用CDP災(zāi)備系統(tǒng),將系統(tǒng)恢復(fù)到誤操作前的最近時(shí)間點(diǎn),以最快的速度恢復(fù)系統(tǒng)正常運(yùn)行。在飛康技術(shù)人員的協(xié)助下,該公司利用飛康CDP的全回滾和生產(chǎn)磁盤增量同步技術(shù),在1小時(shí)內(nèi)就將出現(xiàn)故障的清算系統(tǒng)全面恢復(fù)了正常運(yùn)行,避免了不可估計(jì)的業(yè)務(wù)、資產(chǎn)及名譽(yù)損失。
博科降低虛擬化IT環(huán)境中的網(wǎng)絡(luò)復(fù)雜性
日前,博科公司宣布推出Brocade ServerIron ADX 4000系列擴(kuò)展產(chǎn)品,其中包括高性價(jià)比的入門級(jí)機(jī)箱解決方案ServerIron ADX 4000 ASM-4捆綁包,能夠提供業(yè)界領(lǐng)先的4~7層交換功能,以幫助客戶實(shí)現(xiàn)按需、自動(dòng)化數(shù)據(jù)中心計(jì)算的承諾。專為中型市場(chǎng)企業(yè)環(huán)境而設(shè)計(jì)的ASM-4捆綁包使客戶能夠體驗(yàn)?zāi)K化平臺(tái)的靈活性和可擴(kuò)展性優(yōu)勢(shì)。ASM-4模塊可以通過許可證激活的方式按需擴(kuò)展,使客戶能夠采用“按需付費(fèi)”的投資方式,在不增加硬件或從網(wǎng)絡(luò)移除交換機(jī)的情況下,使吞吐量翻一番,構(gòu)建面向未來的負(fù)載均衡網(wǎng)絡(luò)。
篇7
關(guān)鍵詞 語(yǔ)音識(shí)別;硬件系統(tǒng);硬件模塊;系統(tǒng)設(shè)計(jì)
中圖分類號(hào)TP242 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2011)38-0202-01
1 語(yǔ)音智能識(shí)別原理概述
語(yǔ)音識(shí)別是建立在對(duì)人類語(yǔ)言的交互與判斷上的,這是一種多維度的識(shí)別過程,一般可以分為兩個(gè)階段,即信息匯集和識(shí)別。具體的識(shí)別過程包括了語(yǔ)音信號(hào)的前期處理、語(yǔ)音特征提取、建立語(yǔ)音模型庫(kù)、進(jìn)行模型的匹配、后期處理等主要的環(huán)節(jié)。機(jī)器人的語(yǔ)音識(shí)別實(shí)際上一種仿生式的模式,即將語(yǔ)音轉(zhuǎn)化為一直可以對(duì)別的語(yǔ)音特征,然后與儲(chǔ)存的信息進(jìn)行對(duì)比,并形成對(duì)其含義的判斷,人類對(duì)語(yǔ)音的含義的判斷也是這樣的過程,只不過人類使用的是大腦而機(jī)器人利用的是數(shù)據(jù)庫(kù)和芯片,目前占有主導(dǎo)地位的語(yǔ)音識(shí)別技術(shù)的技術(shù)基礎(chǔ)是統(tǒng)計(jì)模式的識(shí)別理論。
2 機(jī)器人語(yǔ)音識(shí)別系統(tǒng)的硬件設(shè)計(jì)
2.1 硬件系統(tǒng)的整體構(gòu)成
語(yǔ)音識(shí)別的硬件系統(tǒng)中體的構(gòu)成應(yīng)當(dāng)為了兩個(gè)大系統(tǒng)構(gòu)成,即發(fā)射端和接收端,即利用主要的芯片系統(tǒng)來接收語(yǔ)音信號(hào),并進(jìn)行計(jì)算和識(shí)別,然后利用信號(hào)輸出端口將形成的指令傳輸給接收端的執(zhí)行系統(tǒng),并以此控制機(jī)器人的各個(gè)電機(jī)和肢體部件,來完成整個(gè)語(yǔ)音指令的執(zhí)行。在這個(gè)系統(tǒng)中主要的硬件系統(tǒng)有:微處理器、音頻模塊、電機(jī)驅(qū)動(dòng)模塊、避障系統(tǒng)、機(jī)器人系統(tǒng)、電源控制模塊。具體的系統(tǒng)構(gòu)成如圖1。
2.2 硬件系統(tǒng)的設(shè)計(jì)
在具有語(yǔ)音識(shí)別功能的機(jī)器人硬件系設(shè)計(jì)中應(yīng)當(dāng)對(duì)前面提到的各種功能模塊進(jìn)行單獨(dú)的設(shè)計(jì)和實(shí)現(xiàn),然后利用線路和端口將整個(gè)系統(tǒng)連接起來,這樣就實(shí)現(xiàn)了機(jī)器人硬件系統(tǒng)的搭建。
1)電子芯片(微處理器)。在這里應(yīng)用的是SPCE061A單機(jī)芯片。這種語(yǔ)音識(shí)別的專業(yè)芯片來構(gòu)建機(jī)器人的語(yǔ)音識(shí)別和控制系統(tǒng)可以實(shí)現(xiàn)機(jī)器人的自動(dòng)運(yùn)行。這種語(yǔ)音系統(tǒng)的硬件基礎(chǔ)就是SPCE061A控制器為核心的語(yǔ)音識(shí)別平臺(tái)。這種SPCE061A是一種具有語(yǔ)音特色的16位控制器,采用的是模塊化的結(jié)構(gòu),內(nèi)部集成了在線仿真處理器,閃存、靜態(tài)內(nèi)存、通用的端口、定時(shí)和計(jì)數(shù)器、中斷控制器、通道轉(zhuǎn)換器、電壓監(jiān)控等模塊。另外其數(shù)據(jù)處理核心能夠?yàn)槠涮峁┹^高的處理速度,這樣就可使其完成16位的運(yùn)算、DSP內(nèi)積率波運(yùn)算、復(fù)雜數(shù)字型號(hào)處理,但同時(shí)不需要進(jìn)行額外接入專用的語(yǔ)音控制芯片輔助其進(jìn)行語(yǔ)音的編碼和解碼。因此可以單獨(dú)完成語(yǔ)音識(shí)別和控制,具有體積小、擴(kuò)展能力強(qiáng)、集成度高、性能可靠、中斷處理功能完備,價(jià)格低廉等,即節(jié)省了成本也降低了設(shè)計(jì)難度。因此,微處理模塊采用了這種單機(jī)芯片,并以此為核心開展硬件設(shè)計(jì);
2)音頻處理模塊。音頻處理模塊的構(gòu)成是麥克風(fēng)輸入電路和音頻輸出電路組成。其中麥克風(fēng)音頻采集電路采用的是MICP和MICN,這種設(shè)計(jì)可以通過MIC形成的波形變化在兩個(gè)端口位置形成相反的波形,通過兩級(jí)放大電路的處理,將放大的語(yǔ)音信號(hào)傳輸給ADC進(jìn)行數(shù)字處理。這個(gè)數(shù)字信號(hào)也就是語(yǔ)音訓(xùn)練和進(jìn)行識(shí)別的語(yǔ)音輸入源,音頻輸出模塊對(duì)識(shí)別后的結(jié)果節(jié)能型輸出,采用的是SPY0030音頻放大電路,同時(shí)播放提示語(yǔ)音,以便于實(shí)現(xiàn)智能化的語(yǔ)音控制,以此完成了人與機(jī)器人的交互訓(xùn)練;
3)電機(jī)驅(qū)動(dòng)系統(tǒng)。在一般的設(shè)計(jì)中多采用ULN2803集成放大矩陣模塊來完成對(duì)電動(dòng)機(jī)的驅(qū)動(dòng),這樣可以實(shí)現(xiàn)對(duì)機(jī)器人內(nèi)部多個(gè)電機(jī)的正向和反向運(yùn)行。這個(gè)模塊有高度集成、簡(jiǎn)單可靠等優(yōu)勢(shì),為了實(shí)現(xiàn)避障功能的實(shí)現(xiàn)提供了較好的硬件基礎(chǔ)和很好的驅(qū)動(dòng)能力。因?yàn)闄C(jī)器人使用的電機(jī)都需要實(shí)現(xiàn)正反向運(yùn)行,并且使用的電機(jī)數(shù)量較多,因此需要一個(gè)穩(wěn)定而功能強(qiáng)大的電機(jī)驅(qū)動(dòng)模塊。同時(shí)也必須可以與微處理芯片和其他系統(tǒng)進(jìn)行良好的配合;
4)紅外線避障控制模塊。利用紅外線原理構(gòu)建的紅外線避障模塊具有紅外線發(fā)射和接收二極管為核心,發(fā)射管所產(chǎn)生的定頻紅外線信號(hào),接收二極管則負(fù)責(zé)接收這一頻率的信號(hào)。當(dāng)紅外線信號(hào)基礎(chǔ)到前面遇到障礙的時(shí)候,紅外線所形成的反射信號(hào)就被接收管接收,并進(jìn)行處理,然后通過數(shù)字傳感器將信號(hào)傳輸?shù)娇刂浦鳈C(jī),然后由主機(jī)進(jìn)行判斷并動(dòng)作。目前設(shè)計(jì)中的紅外線避障模塊多采用多為HARP所生產(chǎn)的紅外線傳感器GP2D12,這種設(shè)備的控制范圍是10cm~80cm,設(shè)備的接口為標(biāo)準(zhǔn)的三線口,適用于智能化機(jī)器人;
5)系統(tǒng)電源模塊。在以SPCE061A芯片為核心的語(yǔ)音控制系統(tǒng)其電壓的要求為3.3V,而I/O端口的電壓則在3.3V~5.0V之間。因此在控制板上將出現(xiàn)兩種電壓,即5.0V和3.3V。系統(tǒng)可以采用3節(jié)電池來進(jìn)行供電,4.5V的直流電源可以通過穩(wěn)壓裝置降低到3.3V,為整個(gè)系統(tǒng)提供4.5V和3.3V的工作電壓。
3 結(jié)論
機(jī)器人的語(yǔ)音識(shí)別功能需要最佳的硬件組合才能夠?qū)崿F(xiàn)較好的控制效果,其中單機(jī)芯片是其控制的核心,因此選擇SPCE061A這樣比較成熟的芯片來作為語(yǔ)音識(shí)別硬件系統(tǒng)的核心是有著明顯優(yōu)勢(shì)的。同時(shí)配合其他硬件模塊的合理選擇就可以實(shí)現(xiàn)較理想的控制效果。
參考文獻(xiàn)
篇8
關(guān)鍵詞:Mel頻率倒譜系數(shù);支持向量機(jī);語(yǔ)音識(shí)別;特征提取
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2012)003-0153-02
作者簡(jiǎn)介:李玲俐(1977-),女,湖北洪湖人,碩士,廣東司法警官職業(yè)學(xué)院講師,研究方向?yàn)閿?shù)據(jù)挖掘與模式識(shí)別。
0 引言
語(yǔ)音識(shí)別是一種模式識(shí)別,就是讓機(jī)器通過識(shí)別和理解過程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)3個(gè)方面。目前一些語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性比較差,主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng),因此要提高系統(tǒng)魯棒性和自適應(yīng)能力。支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計(jì)學(xué)理論發(fā)展起來的新的機(jī)器學(xué)習(xí)方法,采用將數(shù)據(jù)從低維空間映射到高維空間的思想,由支持向量來決定最優(yōu)分割線,SVM先自動(dòng)找出對(duì)分類有較好區(qū)分能力的支持矢量,然后構(gòu)造出分類器來最大化類與類的間隔,因此有較好的適應(yīng)能力和較高的分準(zhǔn)率。
本文在現(xiàn)有語(yǔ)音識(shí)別技術(shù)基礎(chǔ)上,提出一種MFCC(Mel Frequency Cepstrum Coefficients,Mel頻率倒譜系數(shù))+SVM的語(yǔ)音識(shí)別方法,實(shí)現(xiàn)對(duì)幾種英文單詞的分類。實(shí)驗(yàn)結(jié)果表明,該識(shí)別方法具有較高的準(zhǔn)確率。
1 語(yǔ)音識(shí)別系統(tǒng)
語(yǔ)音識(shí)別過程一般分為3個(gè)階段:信號(hào)處理、特征提取和模式識(shí)別,如圖1所示。
1.1 MFCC特征提取
特征提取是數(shù)據(jù)挖掘和模式識(shí)別中的一個(gè)重要步驟。其目的是從原有特征數(shù)據(jù)中提取出與特定任務(wù),如分類、壓縮、識(shí)別等密切相關(guān)的新特征(或特征子集),以有效地完成特定任務(wù)或進(jìn)一步減少計(jì)算量。
研究者通常使用經(jīng)典的特征提取技術(shù),如MFCC、連續(xù)小波變換(Continuous Wavelet Transform,CWT)和短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)來提取語(yǔ)音片段的特征。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對(duì)應(yīng)關(guān)系。MFCC則是利用它們之間的這種關(guān)系,計(jì)算得到的Hz頻譜特征。由于MFCC具有良好的識(shí)別性能和抗噪能力,在語(yǔ)音識(shí)別中得到廣泛的使用,而且研究人員仍在對(duì)MFCC的各種參數(shù)進(jìn)行實(shí)驗(yàn)和調(diào)整,并通過同其它模型的協(xié)同工作來找出提高識(shí)別率的方法。
MFCC參數(shù)的提取包括以下幾個(gè)步驟(如圖2所示):
(1)預(yù)加重。通過一個(gè)一階有限激勵(lì)響應(yīng)高通濾波器,使信號(hào)的頻譜變得平坦,不易受到有限字長(zhǎng)效應(yīng)的影響。
(2)分幀。根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特性,語(yǔ)音可以以幀為單位進(jìn)行處理。n為每一幀語(yǔ)音采樣序列的點(diǎn)數(shù),本系統(tǒng)取n=256。
(3)加窗。為了減小語(yǔ)音幀的截?cái)嘈?yīng),降低幀兩端的坡度,使語(yǔ)音幀的兩端不引起急劇變化而平滑過渡,需要讓語(yǔ)音幀乘以一個(gè)窗函數(shù)。目前常用的窗函數(shù)是Hamming窗。
(4)對(duì)每幀序列s(n)進(jìn)行預(yù)加重、分幀加窗后,然后經(jīng)過離散FFT變換,將s(n)取模的平方得到離散功率譜S(n)。
(5)計(jì)算S(n)通過M個(gè)濾波器Hm(n)后所得的功率譜,即計(jì)算S(n)和Hm(n)在各離散頻率點(diǎn)上的乘積之和,得到M個(gè)參數(shù)Pm,m=0,1,…,M-1。
(6)計(jì)算Pm的自然對(duì)數(shù),得到Lm,m=0,1,…,M-1。
(7)對(duì)L0,L1,…,Lm-1計(jì)算其離散余弦變換,得到Dm,m=0,1,…,M-1。
(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作為MFCC參數(shù)。
1.2 SVM分類器設(shè)計(jì)
在線性可分的情況下,SVM構(gòu)造一個(gè)超平面H,設(shè)線性可分樣本集為(xi,yi),i=1,2,…,n,U∈{+1,-1} 是類別標(biāo)號(hào)。所有在這個(gè)超平面上的點(diǎn)x滿足:
w?x+b=0
其中:w為權(quán)重向量,b為分類閾值。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,在保證分類間隔最大,即尋找最優(yōu)分類面的條件下,w和b必須滿足如下條件:
yi[(w?xi)+b]≥1
xi為訓(xùn)練樣本,在此約束下,求解最優(yōu)超平面問題可以轉(zhuǎn)換為求函數(shù):Φ(w)=12w2=12(w?w)的最小值。最優(yōu)問題的解由Lagrange函數(shù)的極值點(diǎn)給出:
L(w,b,α)=12w2-∑li=1αi{yi[(w?xi)+b]-1}
αi為L(zhǎng)agrange乘子,對(duì)w和b求偏導(dǎo),并令所求式為零,求得:
∑li=1yiαi=0
對(duì)于線性不可分的情況,可以通過非線性變換轉(zhuǎn)化為某個(gè)高維空間中的線性問題。即將SVM中的內(nèi)積x?y由核函數(shù)K(x,y)所取代。常用的核函數(shù)有:
(1)多項(xiàng)式核函數(shù)K(x,xi)=[(x?xi)+b]d,其中d是多項(xiàng)式的階數(shù)。
(2)Gauss核函數(shù)K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函數(shù)的寬度。
(3)Sigmoid核函數(shù)K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置參數(shù)。
由經(jīng)驗(yàn)觀察可知,Gauss核函數(shù)比其它兩種核函數(shù)優(yōu)越,所以本文選用Gauss核函數(shù),對(duì)于給定的核函數(shù)。最優(yōu)分類函數(shù)為:
yi=sgn∑xi∈wiyik(xi,xj)+
2 實(shí)驗(yàn)設(shè)置及結(jié)果分析
本實(shí)驗(yàn)使用的語(yǔ)音信號(hào)采用Windows自帶的錄音軟件錄制,錄音背景為普通環(huán)境,錄制的語(yǔ)音以Wave 格式保存,采樣頻率為8KHz,16bit量化,單聲道。對(duì)10(5男5女)個(gè)人進(jìn)行錄音,語(yǔ)音樣本分別為6個(gè)單詞,并且每個(gè)人每個(gè)詞發(fā)音9遍,得到540個(gè)采樣數(shù)據(jù)。隨機(jī)抽取2/3的采樣作為訓(xùn)練樣本集,1/3作為測(cè)試樣本集。
由上述語(yǔ)音識(shí)別系統(tǒng)得到每一種語(yǔ)音的正確分類的樣本數(shù),并采用
識(shí)別準(zhǔn)確率=正確識(shí)別的樣本數(shù)樣本總數(shù)×100%
得到表1所示的識(shí)別結(jié)果,包括每種待識(shí)別單詞以及總計(jì)得到的正確識(shí)別數(shù)和識(shí)別準(zhǔn)確率。
3 結(jié)束語(yǔ)
本文提出了一種采用MFCC特征提取參數(shù),以SVM作為分類器識(shí)別幾種容易混淆的單詞的方法,結(jié)果表明,該語(yǔ)音識(shí)別方法具有結(jié)構(gòu)簡(jiǎn)單、高識(shí)別精度的特點(diǎn),可以在語(yǔ)音識(shí)別系統(tǒng)中得到實(shí)際應(yīng)用。當(dāng)然,今后的工作中還要考慮將SVM理論和其它分類方法結(jié)合起來,如SVM和隱馬爾可夫模型(HMM)相結(jié)合、將多類SVM等綜合方法應(yīng)用于更多的語(yǔ)音識(shí)別領(lǐng)域。
參考文獻(xiàn):
\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.
\[2\] 陳剛,陳莘萌.一種考慮類別信息的音頻特征提取方法\[J\].計(jì)算機(jī)研究與發(fā)展,2006(11).
篇9
關(guān)鍵詞:動(dòng)態(tài)時(shí)間歸整算法;隱馬爾可夫算法;語(yǔ)音識(shí)別
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 11-0000-02
隨著人們對(duì)人機(jī)交流技術(shù)的要求越來越高,語(yǔ)音識(shí)別技術(shù)應(yīng)運(yùn)而生。語(yǔ)音識(shí)別是將語(yǔ)音信號(hào)轉(zhuǎn)換成相應(yīng)文本的高技術(shù),是一種重要的人機(jī)交互技術(shù)[1]。在近二十年,越來越多高水平的研究機(jī)構(gòu)和企業(yè)加入到語(yǔ)音識(shí)別的研究領(lǐng)域,并開始向市場(chǎng)上提品。其中具有代表性的產(chǎn)品有微軟的Whisper系統(tǒng),Google的Word Search系統(tǒng),蘋果的Siri系統(tǒng)等。
語(yǔ)音識(shí)別最重要的性能指標(biāo)就是識(shí)別率,而識(shí)別率十分依賴特征參數(shù)的訓(xùn)練和識(shí)別模型。常用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸整算法和隱馬爾可夫算法。文中就這兩種算法特點(diǎn)進(jìn)行了分析和改進(jìn),對(duì)基于改進(jìn)后的算法建立的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行了性能評(píng)估和對(duì)比。
一、語(yǔ)音識(shí)別算法
(一)動(dòng)態(tài)時(shí)間歸整算法
發(fā)音具有隨機(jī)性,同一個(gè)人在不同時(shí)間,不同場(chǎng)合對(duì)同一個(gè)字的發(fā)音長(zhǎng)度都不是完全一樣的。在語(yǔ)音識(shí)別的模版匹配中,這些長(zhǎng)度不一的發(fā)音將降低系統(tǒng)的識(shí)別率。為了解決這一問題,我們引入動(dòng)態(tài)時(shí)間歸整算法(Dynamic Time Warping,DTW)。在語(yǔ)音識(shí)別中,DTW算法是較早出現(xiàn),較為經(jīng)典的算法,它是基于動(dòng)態(tài)規(guī)劃(DP)的[2]。
提取參考語(yǔ)音信號(hào)的特征參數(shù)存入特征模板庫(kù)建立參考模板,提取待識(shí)別語(yǔ)音號(hào)的特征參數(shù)建立測(cè)試模板。DTW算法就是計(jì)算參考模板和測(cè)試模板各幀矢量之間的距離之和,總距離越小說明相似度越高,最后選取最小的總距離作為匹配結(jié)果。
這種識(shí)別算法雖然較為簡(jiǎn)單、有效,但是計(jì)算量大,存儲(chǔ)空間占用多,響應(yīng)時(shí)間長(zhǎng)。因此,文中對(duì)該算法進(jìn)行改進(jìn),以避免以上缺點(diǎn)。
改進(jìn)后的DTW算法將歸整函數(shù)限制在一個(gè)平行四邊形中(其中兩條邊的斜率為1/2,另外兩條邊的斜率為2)。在計(jì)算總距離時(shí)只需計(jì)算平行四邊形之內(nèi)各交點(diǎn)的匹配距離和累積距離,這樣減少了計(jì)算量,提高了系統(tǒng)的反應(yīng)速度,節(jié)省了存儲(chǔ)空間。
(二)隱馬爾可夫算法
隱馬爾可夫模型是在馬爾可夫鏈基礎(chǔ)上發(fā)展起來的一種語(yǔ)音信號(hào)統(tǒng)計(jì)模型,自從用來描述語(yǔ)音信號(hào)后,該模型迅速發(fā)展,使得HMM理論逐漸成為語(yǔ)音研究中的熱點(diǎn),語(yǔ)音識(shí)別的主流技術(shù)。
隱馬爾可夫模型HMM是一個(gè)雙重隨機(jī)過程,一重是可直接觀測(cè)的馬爾可夫鏈,用于描述狀態(tài)的轉(zhuǎn)移;另一重是隱含在觀察序列中的隨機(jī)過程,用于描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。
將HMM用于語(yǔ)音識(shí)別系統(tǒng)前,必須解決三個(gè)基本問題[3]:
1.模型評(píng)估
已知一個(gè)觀察序列和一個(gè)HMM模型,如何計(jì)算由此模型產(chǎn)生此觀察符號(hào)序列的輸出概率。
2.最優(yōu)狀態(tài)序列搜索
已知一個(gè)觀察序列和一個(gè)HMM模型,如何確定一個(gè)最佳狀態(tài)序列,使之產(chǎn)生的觀察序列的概率最大。
3.模型訓(xùn)練
已知一個(gè)觀察序列和一個(gè)HMM模型,如何根據(jù)觀察序列來確定模型的參數(shù)。
針對(duì)以上三個(gè)問題,可分別用前向-后向算法,Viterbi算法和Baum-Welch算法改進(jìn),改進(jìn)后的HMM算法較傳統(tǒng)算法在識(shí)別率方面有了明顯的提高。
(三)算法比較
基于模版匹配技術(shù)的DTW算法和基于隨機(jī)過程理論的HMM算法是比較有代表性的孤立詞識(shí)別算法。DTW算法應(yīng)用動(dòng)態(tài)規(guī)劃的方法解決了語(yǔ)音信號(hào)特征參數(shù)序列時(shí)間對(duì)準(zhǔn)問題,克服了語(yǔ)速的差異。DTW算法適用于訓(xùn)練樣本較少的情況下,訓(xùn)練過程簡(jiǎn)單,識(shí)別過程較復(fù)雜,多用于特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)。
HMM算法HMM運(yùn)用狀態(tài)序列描述觀測(cè)向量的時(shí)間邏輯,通過多變量混合高斯分布表現(xiàn)觀測(cè)向量序列的空間分布[4]。為了獲得高識(shí)別率,HMM算法需要大量的訓(xùn)練樣本和存儲(chǔ)量,訓(xùn)練過程要耗費(fèi)較多時(shí)間,識(shí)別過程較簡(jiǎn)單,多用于連續(xù)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。
二、系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)
語(yǔ)音識(shí)別系統(tǒng)由預(yù)處理、特征提取、模型庫(kù)和模式匹配等四個(gè)基本單元構(gòu)成。系統(tǒng)的基本結(jié)構(gòu)如圖1所示:
(一)預(yù)處理
通過話筒將語(yǔ)音信號(hào)變成電信號(hào)輸入到語(yǔ)音識(shí)別系統(tǒng)中。首先對(duì)信號(hào)進(jìn)行一系列的預(yù)處理,包括采樣、量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。
采樣和量化就是將離散信號(hào)分別在時(shí)間上和幅度上轉(zhuǎn)化成離散形式。為了濾除低頻干擾,提升信號(hào)高頻部分,對(duì)信號(hào)進(jìn)行預(yù)加重處理。由于系統(tǒng)對(duì)信號(hào)的處理都是以短時(shí)為前提的,這就要將信號(hào)分割成許多語(yǔ)音段,即對(duì)語(yǔ)音信號(hào)分幀、加窗處理。原始語(yǔ)音信號(hào)往往包含無(wú)音段和有音段,端點(diǎn)檢測(cè)就是運(yùn)用數(shù)字處理技術(shù)來判斷各語(yǔ)音段的起點(diǎn)和終點(diǎn),從而找到有用的語(yǔ)音成分。文中使用基于短時(shí)能量和短時(shí)平均過零率的檢測(cè)方法判定語(yǔ)音信號(hào)的起始點(diǎn)和終止點(diǎn),即雙門限比較法。
(二)提取特征參數(shù)
經(jīng)過預(yù)處理的語(yǔ)音信號(hào)中并不是所有信息都是有用的,這就需要將語(yǔ)音信號(hào)經(jīng)過一次變換,去掉冗余部分,提取代表語(yǔ)音本質(zhì)的特征參數(shù)。文中采用近年來運(yùn)用比較廣泛的Mel頻率倒譜參數(shù),先將頻譜轉(zhuǎn)變?yōu)槊罓栴l標(biāo)的非線性頻譜,接著再轉(zhuǎn)換到倒譜域上[6]。MFCC參數(shù)充分考慮了人耳的聽覺特性,有很高的穩(wěn)健性和抗噪性能。
(三)模式匹配算法
篇10
關(guān)鍵詞:英語(yǔ)口語(yǔ);語(yǔ)音識(shí)別;英文朗讀;評(píng)分機(jī)制
語(yǔ)音識(shí)別技術(shù)使人與機(jī)器的交流成為現(xiàn)實(shí),它開創(chuàng)了口語(yǔ)移動(dòng)學(xué)習(xí)的全新教育方式,受到越來越多的關(guān)注。借助互聯(lián)網(wǎng),移動(dòng)學(xué)習(xí)以其學(xué)習(xí)時(shí)間靈活,學(xué)習(xí)內(nèi)容豐富、精煉且片段化等特點(diǎn),開辟了學(xué)習(xí)的新理念,讓口語(yǔ)學(xué)習(xí)真正擺脫了時(shí)間和空間的限制,使任何人在任何時(shí)間、任何地點(diǎn)根據(jù)需要進(jìn)行自主學(xué)習(xí)成為可能。目前,已有的基于PC的智能英語(yǔ)學(xué)習(xí)軟件,能提供基于計(jì)算機(jī)的輔助技術(shù),讓學(xué)習(xí)者及時(shí)得到發(fā)音質(zhì)量評(píng)分的智能化功能,但是基于手機(jī)端的口語(yǔ)學(xué)習(xí)應(yīng)用不多。
本終端是一款基于Android系統(tǒng)開發(fā)的,進(jìn)行英語(yǔ)口語(yǔ)學(xué)習(xí)的安卓語(yǔ)音軟件。產(chǎn)品結(jié)合Google語(yǔ)音識(shí)別技術(shù),使用GPRS或WiFi進(jìn)行移動(dòng)終端與Google云服務(wù)端之間的數(shù)據(jù)交流,并通過對(duì)語(yǔ)音識(shí)別結(jié)果的處理,最終設(shè)計(jì)成一個(gè)可以進(jìn)行英語(yǔ)口語(yǔ)專線訓(xùn)練和自主訓(xùn)練的應(yīng)用Oral Storm。
1 研究基礎(chǔ)
Android平臺(tái)自底層向上由四個(gè)層次組成:Linux內(nèi)核層、Android運(yùn)行時(shí)庫(kù)與其他庫(kù)層、應(yīng)用框架層、應(yīng)用程序?qū)?。它采用軟件堆層(software stack),又名軟件疊層的構(gòu)架,主要分為3部分:底層以Linux內(nèi)核工作為基礎(chǔ),由C語(yǔ)言開發(fā),只提供基本功能;中間層包括函數(shù)庫(kù)Library和虛擬機(jī)(virtual machine),用C++開發(fā),最上層是各種應(yīng)用軟件。
2 應(yīng)用架構(gòu)及功能說明
專項(xiàng)訓(xùn)練模塊主要是對(duì)英語(yǔ)口語(yǔ)比較重要的四個(gè)發(fā)音類別進(jìn)行系統(tǒng)訓(xùn)練,這4個(gè)發(fā)音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進(jìn)入訓(xùn)練界面之前,有對(duì)各類發(fā)音方法和技巧的介紹,利于用戶方便快速地學(xué)習(xí)口語(yǔ)的正確發(fā)音。我們將每種發(fā)音訓(xùn)練模式中的單詞都分成10個(gè)小組,這些單詞都是由學(xué)校專業(yè)英語(yǔ)教師挑選的有代表性的詞,適合用于英語(yǔ)口語(yǔ)基礎(chǔ)訓(xùn)練。用戶在進(jìn)行完每個(gè)小組的單詞訓(xùn)練后,系統(tǒng)都會(huì)對(duì)用戶的發(fā)音作出評(píng)價(jià)和打分,對(duì)經(jīng)常出現(xiàn)發(fā)音錯(cuò)誤的單詞,用戶可以選擇保存,用于以后專門的訓(xùn)練。
自主學(xué)習(xí)模塊是用戶根據(jù)自身實(shí)際需求進(jìn)行訓(xùn)練的板塊。用戶先輸入想要訓(xùn)練的單詞或語(yǔ)句,如果不知道如何發(fā)音,可以求助于應(yīng)用中的英文朗讀功能。英文朗讀功能是將文本轉(zhuǎn)換成語(yǔ)音信號(hào),幫助用戶輕松方便地學(xué)習(xí)每一個(gè)英語(yǔ)發(fā)音。用戶還可以選擇性地保存輸入的學(xué)習(xí)內(nèi)容,方便以后復(fù)習(xí)使用。
總之,專項(xiàng)訓(xùn)練模塊針對(duì)學(xué)生英語(yǔ)學(xué)習(xí)中的四大類發(fā)音難題設(shè)計(jì),通過專題式的學(xué)習(xí)、測(cè)試和智能評(píng)分,給用戶提供隨身的英語(yǔ)單詞學(xué)習(xí)和測(cè)試環(huán)境;自主訓(xùn)練模塊則專注于為用戶提供可定制的英語(yǔ)單詞學(xué)習(xí)專題,通過學(xué)習(xí)內(nèi)容的自定義給用戶最大限度的學(xué)習(xí)自由度。
3 研究技術(shù)
應(yīng)用功能的實(shí)現(xiàn)主要使用了兩大技術(shù),獲取語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)。
3.1 獲取語(yǔ)音識(shí)別技術(shù)
單詞發(fā)音練習(xí)需要使用Google語(yǔ)音搜索服務(wù),因此必須判斷當(dāng)前用戶手機(jī)是否支持該服務(wù),所采用的方法是通過queryIntentActivities()方法,查詢Android系統(tǒng)所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應(yīng)用程序,點(diǎn)擊后能啟動(dòng)該應(yīng)用。
在Android語(yǔ)音識(shí)別應(yīng)用研究與開發(fā)的同時(shí),Google語(yǔ)音服務(wù)需要網(wǎng)絡(luò)支持,所以也需要判斷當(dāng)前用戶的網(wǎng)絡(luò)連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網(wǎng)絡(luò)是否連接正常。
3.2 語(yǔ)音合成技術(shù)
語(yǔ)音合成技術(shù),是一種將文本轉(zhuǎn)換為語(yǔ)音輸出的技術(shù),其主要工作是將文本按字或詞分解為音素,然后將音素生成的數(shù)字音頻用揚(yáng)聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機(jī)平臺(tái),綁定了英文語(yǔ)音引擎,對(duì)英文語(yǔ)音提供內(nèi)置的支持。要將文本轉(zhuǎn)換為語(yǔ)音,首先要檢查TTS數(shù)據(jù)可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結(jié)果為真,表明TTSEngine可以使用。除此之外,還有語(yǔ)音數(shù)據(jù)損壞和缺少發(fā)音數(shù)據(jù)等原因?qū)е耇TSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設(shè)置發(fā)音語(yǔ)言引擎setLanguage(Locale.US)、發(fā)音音量Len(Volume)等。在這個(gè)過程中,還需要檢測(cè)設(shè)置的發(fā)音語(yǔ)言類型是否可用。
4 結(jié)束語(yǔ)
我們開發(fā)的口語(yǔ)學(xué)習(xí)軟件Oral Storm,可為訓(xùn)練單詞發(fā)音提供專業(yè)、智能及終端化的一體化學(xué)習(xí)和測(cè)試環(huán)境,專題分類科學(xué)、全面,涵蓋了爆破音、摩擦音等發(fā)音難點(diǎn),可在專題學(xué)習(xí)后提供智能評(píng)分和語(yǔ)音糾正。用戶使用這款應(yīng)用,可以方便快速地學(xué)習(xí)英語(yǔ)口語(yǔ)的正確發(fā)音。
參考文獻(xiàn)
[1] 邢銘生,朱浩,王宏斌.語(yǔ)音識(shí)別技術(shù)綜述[J].科協(xié)論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動(dòng)學(xué)習(xí)的理論研究和實(shí)踐探索[J].中國(guó)電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語(yǔ)音識(shí)別應(yīng)用的研究與開發(fā)[J].廣東通信技術(shù),2013,33(4):15-18.
[4] 涂惠燕,陳一寧.基于語(yǔ)音識(shí)別和手機(jī)平臺(tái)的英語(yǔ)口語(yǔ)發(fā)音學(xué)習(xí)系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(9):64-66.