国产美女18禁www,五月色五月激情

導(dǎo)語：模具畢業(yè)論文:模板設(shè)計(jì)開題報(bào)告一文來源于網(wǎng)友上傳，不代表本站觀點(diǎn)，若需要原創(chuàng)文章可咨詢客服老師，歡迎參考。

模具畢業(yè)論文:模板設(shè)計(jì)開題報(bào)告

本文的主要圍繞兩方面內(nèi)容:

提出一個(gè)基于模板的統(tǒng)計(jì)翻譯模型以及相應(yīng)的訓(xùn)練和翻譯算法;

根據(jù)這種算法模型實(shí)現(xiàn)一個(gè)漢英機(jī)器翻譯系統(tǒng).

首先,我們將提出一個(gè)基于模板的統(tǒng)計(jì)機(jī)器翻譯算法.這種算法是傳統(tǒng)的基于轉(zhuǎn)換的方法和統(tǒng)計(jì)機(jī)器翻譯方法的有效結(jié)合.克服了現(xiàn)有的統(tǒng)計(jì)機(jī)器翻譯方法忽視語言結(jié)構(gòu)的缺點(diǎn),同時(shí)又繼承了其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好的優(yōu)點(diǎn).

然后,在我們已有工作的基礎(chǔ)上,我們將根據(jù)以上算法,提出一個(gè)完整漢英機(jī)器翻譯系統(tǒng)及其測試系統(tǒng)的實(shí)現(xiàn)方案.

本文第一章是對已有的各種基于語料庫的機(jī)器翻譯方法以及機(jī)器翻譯評測方法的一個(gè)綜述,第二章結(jié)合我們已有的工作,提出我們自己的研究思路——基于深層結(jié)構(gòu)的統(tǒng)計(jì)機(jī)器翻譯方法,第三章給出一個(gè)具體的漢英機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)方案,第四章是總結(jié).

綜述

機(jī)器翻譯方法概述

和自然語言處理的其他技術(shù)一樣,機(jī)器翻譯方法也主要分為兩類:人工編寫規(guī)則的方法和從語料庫中學(xué)習(xí)知識(shí)(規(guī)則或參數(shù))的方法.從目前的趨勢看,從語料庫中學(xué)習(xí)知識(shí)的方法已經(jīng)占到了主流.當(dāng)然從語料庫中學(xué)習(xí)知識(shí)并不排斥人類語言學(xué)知識(shí)的應(yīng)用,不過這種語言學(xué)知識(shí)的應(yīng)用一般不再表現(xiàn)為直接為某個(gè)系統(tǒng)手工編寫規(guī)則,而更多的是通過語料庫標(biāo)注,詞典建設(shè)等大規(guī)模語言工程的方式體現(xiàn)出來,應(yīng)該說,這是一種計(jì)算機(jī)研究者和語言學(xué)研究者互相合作的一種更為有效的方式.

基于語料庫的機(jī)器翻譯方法主要有:基于實(shí)例的機(jī)器翻譯方法,基于統(tǒng)計(jì)的機(jī)器翻譯方法,混合(Hybrid)的方法.這幾種方法各有特點(diǎn).其中,統(tǒng)計(jì)機(jī)器翻譯方法由于其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好,可以自動(dòng)學(xué)習(xí),魯棒性強(qiáng)等優(yōu)點(diǎn),越來越受到人們的重視.本文中提出的機(jī)器翻譯方法就是統(tǒng)計(jì)機(jī)器翻譯方法中的一種.

根據(jù)我所查閱的文獻(xiàn),我把基于統(tǒng)計(jì)的機(jī)器翻譯方法大體上分為以下三類:第一類是基于平行概率語法的統(tǒng)計(jì)機(jī)器翻譯方法,其基本思想是,用一個(gè)雙語平行的概率語法模型,同時(shí)生成兩種語言的句子,在對源語言句子進(jìn)行理解的同時(shí),就可以得到對應(yīng)的目標(biāo)語言句子.這種方法的主要代表有Alshawi的HeadTransducer模型和吳德愷的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT.第二類是基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法是由IBM公司的PeterBrown等人在1990年代初提出的,后來很多人都在這種方法的基礎(chǔ)上做了很多改進(jìn)工作,這也是目前最有影響的統(tǒng)計(jì)機(jī)器翻譯方法,一般說的統(tǒng)計(jì)機(jī)器翻譯方法都是指的這一類方法.第三類是德國Och等人最近提出基于最大熵的統(tǒng)計(jì)機(jī)器翻譯方法,這種方法是比信源信道模型更一般化的一種模型.

機(jī)器翻譯的范式

機(jī)器翻譯經(jīng)過50多年的發(fā)展,產(chǎn)生了很多種不同的范式(Paradigm),大致歸納起來,可以分為以下幾類,如下圖所示:

直接翻譯方法:早期的不經(jīng)過句法分析直接進(jìn)行詞語翻譯和詞序調(diào)整的方法;

基于轉(zhuǎn)換的方法:基于某種深層表示形式進(jìn)行轉(zhuǎn)換的方法,典型的轉(zhuǎn)換方法要求獨(dú)立分析,獨(dú)立生成;注意,這里的深層表示既可以是句法表示,也可以是語義表示;

基于中間語言的方法:利用某種獨(dú)立于語言的中間表示形式(稱為中間語言)實(shí)現(xiàn)兩種語言之間的翻譯.

基于平行概率語法的統(tǒng)計(jì)機(jī)器翻譯方法

這一類方法的基本思想是,用一個(gè)雙語平行的概率語法模型,即兩套相互對應(yīng)的帶概率的規(guī)則體系,同時(shí)生成兩種語言的句子,在對源語言句子進(jìn)行理解的同時(shí),就可以得到對應(yīng)的目標(biāo)語言句子的生成過程.

這一類方法有幾個(gè)共同的特點(diǎn):有明確的規(guī)則形式;源語言規(guī)則和目標(biāo)語言規(guī)則一一對應(yīng);源語言與目標(biāo)語言共享一套概率語法模型,對于兩種語言的轉(zhuǎn)換過程不使用概率模型進(jìn)行描述.

以下我們分別介紹這一類方法的有代表性的幾種形式.

Alshawi的基于加權(quán)中心詞轉(zhuǎn)錄機(jī)的統(tǒng)計(jì)機(jī)器翻譯方法

有限狀態(tài)轉(zhuǎn)錄機(jī)(Finite-StateTransducer)和有限狀態(tài)識(shí)別器(Finite-StateRecognizer)是有限狀態(tài)自動(dòng)機(jī)(Finite-StateAutomata)的兩種基本形式.其主要區(qū)別在于有限狀態(tài)轉(zhuǎn)錄機(jī)在識(shí)別的過程中同時(shí)可以產(chǎn)生一個(gè)輸出,其每一條邊上面同時(shí)有輸入符號(hào)和輸出符號(hào)兩個(gè)標(biāo)記,而有限狀態(tài)識(shí)別器只能識(shí)別,不能輸出,其每一條邊上只有一個(gè)輸入符號(hào)標(biāo)記.

中心詞轉(zhuǎn)錄機(jī)(HeadTransducer)是對有限狀態(tài)轉(zhuǎn)錄機(jī)的一種改進(jìn).對于中心詞轉(zhuǎn)錄機(jī),識(shí)別的過程不是自左向右進(jìn)行,而是從中心詞開始向兩邊執(zhí)行.所以在每條邊上,除了輸入輸出信息外,還有語序調(diào)整的信息,用兩個(gè)整數(shù)表示.下圖是一個(gè)能夠?qū)⑷我鈇,b組成的串逆向輸出的一個(gè)HT的示意圖:

基于加權(quán)中心詞轉(zhuǎn)錄機(jī)(WeightedHeadTransducer)的統(tǒng)計(jì)機(jī)器翻譯方法是由AT&T實(shí)驗(yàn)室的Alshawi等人提出的,用于AT&T的語音機(jī)器翻譯系統(tǒng).該系統(tǒng)由語音識(shí)別,機(jī)器翻譯,語音合成三部分組成.其中機(jī)器翻譯系統(tǒng)的總體工作流程如下圖所示:

在加權(quán)中心詞轉(zhuǎn)錄機(jī)模型中,中心詞轉(zhuǎn)錄機(jī)是唯一的知識(shí)表示方法,所有的機(jī)器翻譯知識(shí),包括詞典,都表示為一個(gè)帶概率的HeadTransducer的集合.知識(shí)獲取的過程是全自動(dòng)的,從語料庫中訓(xùn)練得到,但獲取的結(jié)果(就是中心詞轉(zhuǎn)錄機(jī))很直觀,可以由人進(jìn)行調(diào)整.中心詞轉(zhuǎn)錄機(jī)的表示是完全基于詞的,不采用任何詞法,句法或語義標(biāo)記.

整個(gè)知識(shí)獲取的過程實(shí)際上就是一個(gè)雙語語料庫結(jié)構(gòu)對齊的過程.句子的結(jié)構(gòu)用依存樹表示(但依存關(guān)系不作任何標(biāo)記).他們經(jīng)過一番公式推導(dǎo),把一個(gè)完整的雙語語料庫的分析樹構(gòu)造并對齊的過程轉(zhuǎn)化成了一個(gè)數(shù)學(xué)問題的求解過程.這個(gè)過程可用一個(gè)算法高效實(shí)現(xiàn).得到對齊的依存樹后,很容易就訓(xùn)練出一組帶概率的中心詞轉(zhuǎn)錄機(jī),也就得到了一個(gè)機(jī)器翻譯系統(tǒng).不過要說明的是,通過這種純統(tǒng)計(jì)方法得到的依存樹,與語言學(xué)意義上的依存樹并不符合,而且相差甚遠(yuǎn).

這種方法的主要特點(diǎn)是:1.訓(xùn)練可以全自動(dòng)進(jìn)行,效率很高,由一個(gè)雙語句子對齊的語料庫可以很快訓(xùn)練出一個(gè)機(jī)器翻譯系統(tǒng);2.不使用任何人為定義的語言學(xué)標(biāo)記(如詞性,短語類,語義類等等),無需任何語言學(xué)知識(shí);3.訓(xùn)練得到的參數(shù)包含了句子的深層結(jié)構(gòu)信息,這一點(diǎn)比IBM的統(tǒng)計(jì)語言模型更好.

這種方法比較適合于語音翻譯這種領(lǐng)域比較受限,詞匯集較小的場合.

吳德愷的ITG模型

InversionTransductionGrammar(ITG)是香港科技大學(xué)吳德愷(DekaiWu)提出的一種供機(jī)器翻譯使用的語法形式[Wu1997].

這種語法的特點(diǎn)是,源語言和目標(biāo)語言共用一套規(guī)則系統(tǒng).

具體來說,ITG規(guī)則有三種形式:

A→[BC]

A→

A→x/y

其中A,B,C都是非終結(jié)符,x,y是終結(jié)符.而且B,C,x,y都可以是空(用e表示).

對于源語言來說,這三條規(guī)則產(chǎn)生的串分別是:

BCBCx

對于目標(biāo)語言來說,這三條規(guī)則產(chǎn)生的串分別是:

BCCBy

可以看到,第三條規(guī)則主要用于產(chǎn)生兩種語言的詞語,第一條規(guī)則和第二條規(guī)則的區(qū)別在于,前者產(chǎn)生兩個(gè)串語序相同,后者產(chǎn)生的串語序相反.例如,兩個(gè)互為翻譯的漢語和英語句子分別是:

比賽星期三開始.

ThegamewillstartonWednesday.

采用ITG分析后得到的句法樹就是:

其中,VP結(jié)點(diǎn)上的紅色標(biāo)記表示該結(jié)點(diǎn)對應(yīng)的漢語句子中兩個(gè)子結(jié)點(diǎn)的順序需要交換.

通過雙語對齊的語料庫對這種形式的規(guī)則進(jìn)行訓(xùn)練就可以直接用來做機(jī)器翻譯.

呂雅娟[Lü2001,2002]基于ITG模型實(shí)現(xiàn)一個(gè)小規(guī)模(2000個(gè)例句)的英漢機(jī)器翻譯系統(tǒng),取得了較好的實(shí)驗(yàn)結(jié)果.這個(gè)系統(tǒng)利用的英語的單語分析器和英漢雙語詞對齊的結(jié)果來獲取ITG.系統(tǒng)結(jié)構(gòu)如下圖所示:

Takeda的Pattern-basedCFGforMT

[Takeda96]提出了基于模式的機(jī)器翻譯上下文無關(guān)語法(Pattern-basedCFGforMT).該模型對于翻譯模板定義如下:

每個(gè)翻譯模板由一個(gè)源語言上下文無關(guān)規(guī)則和一個(gè)目標(biāo)語言上下文無關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成;

中心詞約束:對于上下文無關(guān)語法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非終結(jié)符,可以指定其中心詞;對于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞;

鏈接約束:源語言骨架和目標(biāo)語言骨架的非終結(jié)符子結(jié)點(diǎn)通過使用相同的序號(hào)建立對應(yīng)關(guān)系,具有對應(yīng)關(guān)系的非終結(jié)符互為翻譯.

舉例來說,一個(gè)漢英機(jī)器翻譯模板可以表示如下:

S:2→NP:1歲:MP:2了

————————————

S:be→NP:1beyear:NP:2old

可以看到,這種規(guī)則比上下文無關(guān)規(guī)則表達(dá)上更為細(xì)膩.例如上述模板中如果去掉中心詞約束,考慮一般的情況,顯然這兩條規(guī)則不能互為翻譯.與實(shí)例相比,這個(gè)模板又具有更強(qiáng)的表達(dá)能力,因?yàn)檫@兩個(gè)句子的主語(NP:1)和具體的歲數(shù)值都是可替換的.

該文還證明了這種模板的識(shí)別能力等價(jià)于CFG,提出了使用這種模板進(jìn)行翻譯的算法,討論了如何將屬性運(yùn)算引入翻譯模板當(dāng)中,并研究了如何從實(shí)例庫中提取翻譯模板的算法.該文作者在小規(guī)模范圍內(nèi)進(jìn)行了實(shí)驗(yàn),取得了較好的效果.

基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法

基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法源于Weaver在1947年提出的把翻譯看成是一種解碼的過程.其正式的數(shù)學(xué)框架是由IBM公司的Brown等人建立的[Brown1990,1993].這一類方法的影響非常大,甚至成了統(tǒng)計(jì)機(jī)器翻譯方法的同義詞.不過在本文中,我們只把它作為統(tǒng)計(jì)機(jī)器翻譯方法中的一類.

IBM的統(tǒng)計(jì)機(jī)器翻譯方法

基本原理

基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法的基本思想是,把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^程,用一種信源信道模型對機(jī)器翻譯進(jìn)行解釋.假設(shè)一段源語言文本S,經(jīng)過某一噪聲信道后變成目標(biāo)語言T,也就是說,假設(shè)目標(biāo)語言文本T是由一段源語言文本S經(jīng)過某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將T還原成S,這也就是就是一個(gè)解碼的過程.

有兩個(gè)容易混淆的術(shù)語在這里需要解釋一下.一般談到機(jī)器翻譯時(shí),我們都稱被翻譯的文本語言是源語言,要翻譯到的文本語言是目標(biāo)語言.而在基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法中,源語言和目標(biāo)語言是相對于噪聲信道而言的,噪聲信道的輸入端是源語言,噪聲信道的輸出端是目標(biāo)語言,翻譯的過程被理解為"已知目標(biāo)語言,猜測源語言"的解碼過程.這與傳統(tǒng)的說法剛好相反.

根據(jù)Bayes公式可推導(dǎo)得到:

這個(gè)公式在Brown等人的文章中稱為統(tǒng)計(jì)機(jī)器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation).在這個(gè)公式中,P(S)是源語言的文本S出現(xiàn)的概率,稱為語言模型.P(T|S)是由源語言文本S翻譯成目標(biāo)語言文本T的概率,稱為翻譯模型.語言模型只與源語言相關(guān),與目標(biāo)語言無關(guān),反映的是一個(gè)句子在源語言中出現(xiàn)的可能性,實(shí)際上就是該句子在句法語義等方面的合理程度;翻譯模型與源語言和目標(biāo)語言都有關(guān)系,反映的是兩個(gè)句子互為翻譯的可能性.

也許有人會(huì)問,為什么不直接使用P(S|T),而要使用P(S)P(T|S)這樣一個(gè)更加復(fù)雜的公式來估計(jì)譯文的概率呢其原因在于,如果直接使用P(S|T)來選擇合適的S,那么得到的S很可能是不符合譯文語法的(ill-formed),而語言模型P(S)就可以保證得到的譯文盡可能的符合語法.

這樣,機(jī)器翻譯問題被分解為三個(gè)問題:

1.語言模型Pr(s)的參數(shù)估計(jì);

2.翻譯模型Pr(t|s)的參數(shù)估計(jì);

3.搜索問題:尋找最優(yōu)的譯文;

模具畢業(yè)論文:模板設(shè)計(jì)開題報(bào)告

熱門標(biāo)簽

相關(guān)文章

精品范文