模具畢業(yè)論文:模板設(shè)計開題報告

時間:2022-04-20 10:26:00

導(dǎo)語:模具畢業(yè)論文:模板設(shè)計開題報告一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

模具畢業(yè)論文:模板設(shè)計開題報告

模具畢業(yè)論文

本文的主要圍繞兩方面內(nèi)容:

提出一個基于模板的統(tǒng)計翻譯模型以及相應(yīng)的訓(xùn)練和翻譯算法;

根據(jù)這種算法模型實現(xiàn)一個漢英機器翻譯系統(tǒng).

首先,我們將提出一個基于模板的統(tǒng)計機器翻譯算法.這種算法是傳統(tǒng)的基于轉(zhuǎn)換的方法和統(tǒng)計機器翻譯方法的有效結(jié)合.克服了現(xiàn)有的統(tǒng)計機器翻譯方法忽視語言結(jié)構(gòu)的缺點,同時又繼承了其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好的優(yōu)點.

然后,在我們已有工作的基礎(chǔ)上,我們將根據(jù)以上算法,提出一個完整漢英機器翻譯系統(tǒng)及其測試系統(tǒng)的實現(xiàn)方案.

本文第一章是對已有的各種基于語料庫的機器翻譯方法以及機器翻譯評測方法的一個綜述,第二章結(jié)合我們已有的工作,提出我們自己的研究思路——基于深層結(jié)構(gòu)的統(tǒng)計機器翻譯方法,第三章給出一個具體的漢英機器翻譯系統(tǒng)的實現(xiàn)方案,第四章是總結(jié).

綜述

機器翻譯方法概述

和自然語言處理的其他技術(shù)一樣,機器翻譯方法也主要分為兩類:人工編寫規(guī)則的方法和從語料庫中學(xué)習(xí)知識(規(guī)則或參數(shù))的方法.從目前的趨勢看,從語料庫中學(xué)習(xí)知識的方法已經(jīng)占到了主流.當(dāng)然從語料庫中學(xué)習(xí)知識并不排斥人類語言學(xué)知識的應(yīng)用,不過這種語言學(xué)知識的應(yīng)用一般不再表現(xiàn)為直接為某個系統(tǒng)手工編寫規(guī)則,而更多的是通過語料庫標(biāo)注,詞典建設(shè)等大規(guī)模語言工程的方式體現(xiàn)出來,應(yīng)該說,這是一種計算機研究者和語言學(xué)研究者互相合作的一種更為有效的方式.

基于語料庫的機器翻譯方法主要有:基于實例的機器翻譯方法,基于統(tǒng)計的機器翻譯方法,混合(Hybrid)的方法.這幾種方法各有特點.其中,統(tǒng)計機器翻譯方法由于其數(shù)學(xué)推導(dǎo)嚴(yán)密,模型一致性好,可以自動學(xué)習(xí),魯棒性強等優(yōu)點,越來越受到人們的重視.本文中提出的機器翻譯方法就是統(tǒng)計機器翻譯方法中的一種.

根據(jù)我所查閱的文獻,我把基于統(tǒng)計的機器翻譯方法大體上分為以下三類:第一類是基于平行概率語法的統(tǒng)計機器翻譯方法,其基本思想是,用一個雙語平行的概率語法模型,同時生成兩種語言的句子,在對源語言句子進行理解的同時,就可以得到對應(yīng)的目標(biāo)語言句子.這種方法的主要代表有Alshawi的HeadTransducer模型和吳德愷的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT.第二類是基于信源信道模型的統(tǒng)計機器翻譯方法,這種方法是由IBM公司的PeterBrown等人在1990年代初提出的,后來很多人都在這種方法的基礎(chǔ)上做了很多改進工作,這也是目前最有影響的統(tǒng)計機器翻譯方法,一般說的統(tǒng)計機器翻譯方法都是指的這一類方法.第三類是德國Och等人最近提出基于最大熵的統(tǒng)計機器翻譯方法,這種方法是比信源信道模型更一般化的一種模型.

機器翻譯的范式

機器翻譯經(jīng)過50多年的發(fā)展,產(chǎn)生了很多種不同的范式(Paradigm),大致歸納起來,可以分為以下幾類,如下圖所示:

直接翻譯方法:早期的不經(jīng)過句法分析直接進行詞語翻譯和詞序調(diào)整的方法;

基于轉(zhuǎn)換的方法:基于某種深層表示形式進行轉(zhuǎn)換的方法,典型的轉(zhuǎn)換方法要求獨立分析,獨立生成;注意,這里的深層表示既可以是句法表示,也可以是語義表示;

基于中間語言的方法:利用某種獨立于語言的中間表示形式(稱為中間語言)實現(xiàn)兩種語言之間的翻譯.

基于平行概率語法的統(tǒng)計機器翻譯方法

這一類方法的基本思想是,用一個雙語平行的概率語法模型,即兩套相互對應(yīng)的帶概率的規(guī)則體系,同時生成兩種語言的句子,在對源語言句子進行理解的同時,就可以得到對應(yīng)的目標(biāo)語言句子的生成過程.

這一類方法有幾個共同的特點:有明確的規(guī)則形式;源語言規(guī)則和目標(biāo)語言規(guī)則一一對應(yīng);源語言與目標(biāo)語言共享一套概率語法模型,對于兩種語言的轉(zhuǎn)換過程不使用概率模型進行描述.

以下我們分別介紹這一類方法的有代表性的幾種形式.

Alshawi的基于加權(quán)中心詞轉(zhuǎn)錄機的統(tǒng)計機器翻譯方法

有限狀態(tài)轉(zhuǎn)錄機(Finite-StateTransducer)和有限狀態(tài)識別器(Finite-StateRecognizer)是有限狀態(tài)自動機(Finite-StateAutomata)的兩種基本形式.其主要區(qū)別在于有限狀態(tài)轉(zhuǎn)錄機在識別的過程中同時可以產(chǎn)生一個輸出,其每一條邊上面同時有輸入符號和輸出符號兩個標(biāo)記,而有限狀態(tài)識別器只能識別,不能輸出,其每一條邊上只有一個輸入符號標(biāo)記.

中心詞轉(zhuǎn)錄機(HeadTransducer)是對有限狀態(tài)轉(zhuǎn)錄機的一種改進.對于中心詞轉(zhuǎn)錄機,識別的過程不是自左向右進行,而是從中心詞開始向兩邊執(zhí)行.所以在每條邊上,除了輸入輸出信息外,還有語序調(diào)整的信息,用兩個整數(shù)表示.下圖是一個能夠?qū)⑷我鈇,b組成的串逆向輸出的一個HT的示意圖:

基于加權(quán)中心詞轉(zhuǎn)錄機(WeightedHeadTransducer)的統(tǒng)計機器翻譯方法是由AT&T實驗室的Alshawi等人提出的,用于AT&T的語音機器翻譯系統(tǒng).該系統(tǒng)由語音識別,機器翻譯,語音合成三部分組成.其中機器翻譯系統(tǒng)的總體工作流程如下圖所示:

在加權(quán)中心詞轉(zhuǎn)錄機模型中,中心詞轉(zhuǎn)錄機是唯一的知識表示方法,所有的機器翻譯知識,包括詞典,都表示為一個帶概率的HeadTransducer的集合.知識獲取的過程是全自動的,從語料庫中訓(xùn)練得到,但獲取的結(jié)果(就是中心詞轉(zhuǎn)錄機)很直觀,可以由人進行調(diào)整.中心詞轉(zhuǎn)錄機的表示是完全基于詞的,不采用任何詞法,句法或語義標(biāo)記.

整個知識獲取的過程實際上就是一個雙語語料庫結(jié)構(gòu)對齊的過程.句子的結(jié)構(gòu)用依存樹表示(但依存關(guān)系不作任何標(biāo)記).他們經(jīng)過一番公式推導(dǎo),把一個完整的雙語語料庫的分析樹構(gòu)造并對齊的過程轉(zhuǎn)化成了一個數(shù)學(xué)問題的求解過程.這個過程可用一個算法高效實現(xiàn).得到對齊的依存樹后,很容易就訓(xùn)練出一組帶概率的中心詞轉(zhuǎn)錄機,也就得到了一個機器翻譯系統(tǒng).不過要說明的是,通過這種純統(tǒng)計方法得到的依存樹,與語言學(xué)意義上的依存樹并不符合,而且相差甚遠.

這種方法的主要特點是:1.訓(xùn)練可以全自動進行,效率很高,由一個雙語句子對齊的語料庫可以很快訓(xùn)練出一個機器翻譯系統(tǒng);2.不使用任何人為定義的語言學(xué)標(biāo)記(如詞性,短語類,語義類等等),無需任何語言學(xué)知識;3.訓(xùn)練得到的參數(shù)包含了句子的深層結(jié)構(gòu)信息,這一點比IBM的統(tǒng)計語言模型更好.

這種方法比較適合于語音翻譯這種領(lǐng)域比較受限,詞匯集較小的場合.

吳德愷的ITG模型

InversionTransductionGrammar(ITG)是香港科技大學(xué)吳德愷(DekaiWu)提出的一種供機器翻譯使用的語法形式[Wu1997].

這種語法的特點是,源語言和目標(biāo)語言共用一套規(guī)則系統(tǒng).

具體來說,ITG規(guī)則有三種形式:

A→[BC]

A→

A→x/y

其中A,B,C都是非終結(jié)符,x,y是終結(jié)符.而且B,C,x,y都可以是空(用e表示).

對于源語言來說,這三條規(guī)則產(chǎn)生的串分別是:

BCBCx

對于目標(biāo)語言來說,這三條規(guī)則產(chǎn)生的串分別是:

BCCBy

可以看到,第三條規(guī)則主要用于產(chǎn)生兩種語言的詞語,第一條規(guī)則和第二條規(guī)則的區(qū)別在于,前者產(chǎn)生兩個串語序相同,后者產(chǎn)生的串語序相反.例如,兩個互為翻譯的漢語和英語句子分別是:

比賽星期三開始.

ThegamewillstartonWednesday.

采用ITG分析后得到的句法樹就是:

其中,VP結(jié)點上的紅色標(biāo)記表示該結(jié)點對應(yīng)的漢語句子中兩個子結(jié)點的順序需要交換.

通過雙語對齊的語料庫對這種形式的規(guī)則進行訓(xùn)練就可以直接用來做機器翻譯.

呂雅娟[Lü2001,2002]基于ITG模型實現(xiàn)一個小規(guī)模(2000個例句)的英漢機器翻譯系統(tǒng),取得了較好的實驗結(jié)果.這個系統(tǒng)利用的英語的單語分析器和英漢雙語詞對齊的結(jié)果來獲取ITG.系統(tǒng)結(jié)構(gòu)如下圖所示:

Takeda的Pattern-basedCFGforMT

[Takeda96]提出了基于模式的機器翻譯上下文無關(guān)語法(Pattern-basedCFGforMT).該模型對于翻譯模板定義如下:

每個翻譯模板由一個源語言上下文無關(guān)規(guī)則和一個目標(biāo)語言上下文無關(guān)規(guī)則(這兩個規(guī)則稱為翻譯模板的骨架),以及對這兩個規(guī)則的中心詞約束和鏈接約束構(gòu)成;

中心詞約束:對于上下文無關(guān)語法規(guī)則中右部(子結(jié)點)的每個非終結(jié)符,可以指定其中心詞;對于規(guī)則左部(父結(jié)點)的非終結(jié)符,可以直接指定其中心詞,也可以通過使用相同的序號規(guī)定其中心詞等于其右部的某個非終結(jié)符的中心詞;

鏈接約束:源語言骨架和目標(biāo)語言骨架的非終結(jié)符子結(jié)點通過使用相同的序號建立對應(yīng)關(guān)系,具有對應(yīng)關(guān)系的非終結(jié)符互為翻譯.

舉例來說,一個漢英機器翻譯模板可以表示如下:

S:2→NP:1歲:MP:2了

————————————

S:be→NP:1beyear:NP:2old

可以看到,這種規(guī)則比上下文無關(guān)規(guī)則表達上更為細(xì)膩.例如上述模板中如果去掉中心詞約束,考慮一般的情況,顯然這兩條規(guī)則不能互為翻譯.與實例相比,這個模板又具有更強的表達能力,因為這兩個句子的主語(NP:1)和具體的歲數(shù)值都是可替換的.

該文還證明了這種模板的識別能力等價于CFG,提出了使用這種模板進行翻譯的算法,討論了如何將屬性運算引入翻譯模板當(dāng)中,并研究了如何從實例庫中提取翻譯模板的算法.該文作者在小規(guī)模范圍內(nèi)進行了實驗,取得了較好的效果.

基于信源信道模型的統(tǒng)計機器翻譯方法

基于信源信道模型的統(tǒng)計機器翻譯方法源于Weaver在1947年提出的把翻譯看成是一種解碼的過程.其正式的數(shù)學(xué)框架是由IBM公司的Brown等人建立的[Brown1990,1993].這一類方法的影響非常大,甚至成了統(tǒng)計機器翻譯方法的同義詞.不過在本文中,我們只把它作為統(tǒng)計機器翻譯方法中的一類.

IBM的統(tǒng)計機器翻譯方法

基本原理

基于信源信道模型的統(tǒng)計機器翻譯方法的基本思想是,把機器翻譯看成是一個信息傳輸?shù)倪^程,用一種信源信道模型對機器翻譯進行解釋.假設(shè)一段源語言文本S,經(jīng)過某一噪聲信道后變成目標(biāo)語言T,也就是說,假設(shè)目標(biāo)語言文本T是由一段源語言文本S經(jīng)過某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將T還原成S,這也就是就是一個解碼的過程.

有兩個容易混淆的術(shù)語在這里需要解釋一下.一般談到機器翻譯時,我們都稱被翻譯的文本語言是源語言,要翻譯到的文本語言是目標(biāo)語言.而在基于信源信道模型的統(tǒng)計機器翻譯方法中,源語言和目標(biāo)語言是相對于噪聲信道而言的,噪聲信道的輸入端是源語言,噪聲信道的輸出端是目標(biāo)語言,翻譯的過程被理解為"已知目標(biāo)語言,猜測源語言"的解碼過程.這與傳統(tǒng)的說法剛好相反.

根據(jù)Bayes公式可推導(dǎo)得到:

這個公式在Brown等人的文章中稱為統(tǒng)計機器翻譯的基本方程式(FundamentalEquationofStatisticalMachineTranslation).在這個公式中,P(S)是源語言的文本S出現(xiàn)的概率,稱為語言模型.P(T|S)是由源語言文本S翻譯成目標(biāo)語言文本T的概率,稱為翻譯模型.語言模型只與源語言相關(guān),與目標(biāo)語言無關(guān),反映的是一個句子在源語言中出現(xiàn)的可能性,實際上就是該句子在句法語義等方面的合理程度;翻譯模型與源語言和目標(biāo)語言都有關(guān)系,反映的是兩個句子互為翻譯的可能性.

也許有人會問,為什么不直接使用P(S|T),而要使用P(S)P(T|S)這樣一個更加復(fù)雜的公式來估計譯文的概率呢其原因在于,如果直接使用P(S|T)來選擇合適的S,那么得到的S很可能是不符合譯文語法的(ill-formed),而語言模型P(S)就可以保證得到的譯文盡可能的符合語法.

這樣,機器翻譯問題被分解為三個問題:

1.語言模型Pr(s)的參數(shù)估計;

2.翻譯模型Pr(t|s)的參數(shù)估計;

3.搜索問題:尋找最優(yōu)的譯文;