大數(shù)據(jù)分析網(wǎng)絡(luò)多語(yǔ)言探討

時(shí)間:2022-11-12 10:11:30

導(dǎo)語(yǔ):大數(shù)據(jù)分析網(wǎng)絡(luò)多語(yǔ)言探討一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

大數(shù)據(jù)分析網(wǎng)絡(luò)多語(yǔ)言探討

摘要:由于網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)受到字符串長(zhǎng)度的影響,導(dǎo)致系統(tǒng)的翻譯速度變慢且匹配率也比較低。為了提高網(wǎng)絡(luò)多語(yǔ)言翻譯系統(tǒng)在翻譯速度和匹配率方面的性能,文中提出一種基于大數(shù)據(jù)分析網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)設(shè)計(jì)。將大數(shù)據(jù)分析應(yīng)用到網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)設(shè)計(jì)中,在大數(shù)據(jù)分析的基礎(chǔ)上,通過(guò)網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器設(shè)計(jì)和網(wǎng)絡(luò)多語(yǔ)言詞法分析器設(shè)計(jì),完成系統(tǒng)的硬件設(shè)計(jì);采用特征提取算法實(shí)現(xiàn)網(wǎng)絡(luò)多語(yǔ)言的語(yǔ)義特征的提取,結(jié)合設(shè)計(jì)網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯算法,完成系統(tǒng)的軟件設(shè)計(jì)。最終實(shí)現(xiàn)了網(wǎng)絡(luò)多語(yǔ)言的及時(shí)翻譯系統(tǒng)設(shè)計(jì)。進(jìn)行仿真測(cè)試分析,測(cè)試結(jié)果表明,基于大數(shù)據(jù)分析的網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)在翻譯速度和匹配率方面性能均具有較好的提升。

關(guān)鍵詞:網(wǎng)絡(luò)多語(yǔ)言;及時(shí)翻譯系統(tǒng);大數(shù)據(jù)分析;語(yǔ)義特征提??;系統(tǒng)設(shè)計(jì);仿真測(cè)試

在人類(lèi)社會(huì)交往日益國(guó)際化的今天,英漢之間的語(yǔ)言翻譯早已經(jīng)成為學(xué)術(shù)界研究的熱點(diǎn),也引起了人們的關(guān)注,與此同時(shí)便產(chǎn)生了語(yǔ)言翻譯系統(tǒng)[1]。對(duì)于網(wǎng)絡(luò)上的多語(yǔ)言翻譯來(lái)講,提高其翻譯質(zhì)量,使得網(wǎng)絡(luò)多語(yǔ)言翻譯系統(tǒng)的使用頻率逐漸升高,已經(jīng)成為系統(tǒng)設(shè)計(jì)者和研發(fā)者需要思考的重點(diǎn)[2]。網(wǎng)絡(luò)多語(yǔ)言翻譯系統(tǒng)之所以能夠被大多數(shù)用戶認(rèn)可,是因?yàn)楹芏嘌邪l(fā)者在設(shè)計(jì)過(guò)程中應(yīng)用了機(jī)器翻譯算法,從而有效提高了語(yǔ)言翻譯的準(zhǔn)確度。機(jī)器翻譯是利用計(jì)算機(jī)編程軟件將一種語(yǔ)言文本翻譯成另一種語(yǔ)言文本的方式,實(shí)現(xiàn)多種語(yǔ)言之間的相互轉(zhuǎn)換[3]。在大數(shù)據(jù)分析技術(shù)的背景下,語(yǔ)言翻譯系統(tǒng)已經(jīng)不僅僅局限于多種語(yǔ)音的在線識(shí)別,在語(yǔ)義、語(yǔ)境處理上也具有很好的應(yīng)用效果。雷花等人對(duì)基于開(kāi)源CMU⁃EBMT范例的機(jī)器翻譯系統(tǒng)特性進(jìn)行了深入的描述[4],包括詞典歸納、單詞和短語(yǔ)對(duì)齊、語(yǔ)料庫(kù)索引和查找、語(yǔ)言模型、解碼器和參數(shù)調(diào)整組件。為了說(shuō)明CMU⁃EBMT最近增加的內(nèi)容,給出的實(shí)驗(yàn)表明,當(dāng)使用一組新的細(xì)粒度對(duì)數(shù)線性特征值來(lái)表示語(yǔ)言模型匹配長(zhǎng)度以及語(yǔ)言模型概率時(shí),在交叉驗(yàn)證的小數(shù)據(jù)英語(yǔ)⁃海地翻譯任務(wù)上提高了0.16個(gè)BLEU點(diǎn)(相對(duì)值為0.9%)。余倩針對(duì)傳統(tǒng)語(yǔ)言翻譯系統(tǒng)存在語(yǔ)義語(yǔ)境模糊、準(zhǔn)確度低的問(wèn)題,將特征提取算法應(yīng)用到交互式英漢翻譯系統(tǒng)設(shè)計(jì)中,在引入特征提取算法的基礎(chǔ)上,選取英語(yǔ)語(yǔ)義的最優(yōu)翻譯解,通過(guò)構(gòu)建英漢語(yǔ)義之間的映射模型,實(shí)現(xiàn)英漢之間的交互最優(yōu)翻譯[5]。仿真結(jié)果顯示,該系統(tǒng)可以在英漢翻譯過(guò)程中尋找到語(yǔ)義之間的最優(yōu)翻譯解?;谝陨涎芯勘尘?,本文將大數(shù)據(jù)分析應(yīng)用到了網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)設(shè)計(jì)中,從而提高網(wǎng)絡(luò)多語(yǔ)言翻譯系統(tǒng)在翻譯速度和匹配率方面的性能。

1網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)硬件設(shè)計(jì)

1.1網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器設(shè)計(jì)

網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器由多個(gè)運(yùn)行Moses程序的服務(wù)器和一個(gè)運(yùn)行Apache程序的服務(wù)器組成,翻譯服務(wù)器的種類(lèi)不同,所承擔(dān)的翻譯服務(wù)也不同[6]。網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器通常由運(yùn)行Apache程序的服務(wù)器進(jìn)行統(tǒng)一管理,可以為系統(tǒng)客戶端提供用戶訪問(wèn)接口[7]。網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器的設(shè)計(jì)分為兩個(gè)步驟,先訓(xùn)練再解碼,訓(xùn)練就是在龐大的網(wǎng)絡(luò)多語(yǔ)言數(shù)據(jù)庫(kù)中統(tǒng)計(jì)出用于求解最大概率的網(wǎng)絡(luò)多語(yǔ)言數(shù)據(jù),解碼就是利用訓(xùn)練結(jié)果尋找出概率最大的解[8]。在訓(xùn)練過(guò)程中,通過(guò)對(duì)數(shù)據(jù)庫(kù)中網(wǎng)絡(luò)多語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)得到訓(xùn)練數(shù)據(jù),解碼是將輸入的網(wǎng)絡(luò)多語(yǔ)言數(shù)據(jù)通過(guò)解碼算法找到最大概率的翻譯結(jié)果。網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器的工作原理如圖2所示。通過(guò)設(shè)計(jì)網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器結(jié)構(gòu),對(duì)網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器的工作原理進(jìn)行詳細(xì)設(shè)計(jì),完成網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器設(shè)計(jì)。

1.2網(wǎng)絡(luò)多語(yǔ)言詞法分析器設(shè)計(jì)

網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)中互相聯(lián)動(dòng)的功能模塊一共有8個(gè),構(gòu)成網(wǎng)絡(luò)多語(yǔ)言翻譯流程的結(jié)構(gòu)[9],如圖3所示。在網(wǎng)絡(luò)多語(yǔ)言翻譯流程結(jié)構(gòu)中,詞性標(biāo)注模塊、詞法分析模塊以及淺層句法分析模塊都能夠分析網(wǎng)絡(luò)多語(yǔ)言的源語(yǔ)言,而實(shí)例模式匹配可以將實(shí)例模式作為基礎(chǔ)[10]。短語(yǔ)目標(biāo)生成模塊可以將翻譯的譯文輸出。網(wǎng)絡(luò)多語(yǔ)言翻譯的知識(shí)源就是將真實(shí)網(wǎng)絡(luò)多語(yǔ)言文本轉(zhuǎn)變成詞性序列的一個(gè)過(guò)程,因此需要設(shè)計(jì)一個(gè)詞法分析器對(duì)網(wǎng)絡(luò)多語(yǔ)言文本進(jìn)行處理[11]。詞法分析器的結(jié)構(gòu)如圖4所示。在網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯服務(wù)器設(shè)計(jì)的基礎(chǔ)上,設(shè)計(jì)了網(wǎng)絡(luò)多語(yǔ)言翻譯流程結(jié)構(gòu),利用詞法分析器結(jié)構(gòu)完成了網(wǎng)絡(luò)多語(yǔ)言詞法分析器設(shè)計(jì),實(shí)現(xiàn)了系統(tǒng)的硬件設(shè)計(jì)。

2網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)軟件設(shè)計(jì)

2.1提取網(wǎng)絡(luò)多語(yǔ)言的語(yǔ)義特征

在提取網(wǎng)絡(luò)多語(yǔ)言的語(yǔ)義特征之前,先引入特征提取算法,將網(wǎng)絡(luò)多語(yǔ)言的最佳語(yǔ)境提取到翻譯過(guò)程中,實(shí)現(xiàn)網(wǎng)絡(luò)多語(yǔ)言語(yǔ)義特征的提取。假設(shè)翻譯過(guò)程中一共存在N種翻譯語(yǔ)境,包括K類(lèi)語(yǔ)義,網(wǎng)絡(luò)多語(yǔ)言翻譯語(yǔ)境的數(shù)量表示為Ni(i=1,2,⋯,K),K類(lèi)網(wǎng)絡(luò)多語(yǔ)言語(yǔ)義翻譯用概率為Xi={X}i1,Xi2,⋯,XiN,其中Xij={i}=1,2,⋯,K;j=1,2,⋯,Ni為一個(gè)定向的n維向量結(jié)果。通過(guò)特征提取過(guò)程[12],將網(wǎng)絡(luò)多語(yǔ)言翻譯的語(yǔ)境翻譯為:(1)式中αi表示能夠達(dá)到網(wǎng)絡(luò)多語(yǔ)言翻譯的語(yǔ)義翻譯語(yǔ)境。那么最佳翻譯語(yǔ)境的選定過(guò)程為:(2)在式(2)的前提下,計(jì)算網(wǎng)絡(luò)多語(yǔ)言非語(yǔ)義翻譯的語(yǔ)境矩陣Sw和網(wǎng)絡(luò)多語(yǔ)言語(yǔ)義翻譯的語(yǔ)境矩陣SB,將其表示為:在網(wǎng)絡(luò)多語(yǔ)言翻譯的輸出結(jié)果集中,求解網(wǎng)絡(luò)多語(yǔ)言翻譯輸出的優(yōu)化解向量R(X)。結(jié)合以下判決模型,來(lái)提取網(wǎng)絡(luò)多語(yǔ)言的語(yǔ)義特征,具體步驟如下:

2.2設(shè)計(jì)網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯算法

在設(shè)計(jì)網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯算法時(shí),利用大數(shù)據(jù)分析技術(shù)抽取出網(wǎng)絡(luò)多語(yǔ)言文本,得到網(wǎng)絡(luò)多語(yǔ)言長(zhǎng)字符X,Y在文本中的相似程度,表示為:根據(jù)網(wǎng)絡(luò)多語(yǔ)言詞匯在文本中的具體位置,并與上下文相匹配,得到網(wǎng)絡(luò)多語(yǔ)言翻譯的模糊概念集。從網(wǎng)絡(luò)多語(yǔ)言的語(yǔ)境出發(fā),得到網(wǎng)絡(luò)多語(yǔ)言文本語(yǔ)義和詞性之間的關(guān)聯(lián)性函數(shù)[15]。結(jié)合詞與詞之間的互信息特征,實(shí)現(xiàn)網(wǎng)絡(luò)多語(yǔ)言的及時(shí)翻譯,最后求解得到翻譯規(guī)則的計(jì)算結(jié)果為:

3測(cè)試分析

3.1設(shè)定測(cè)試參數(shù)

為了驗(yàn)證基于大數(shù)據(jù)分析的網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)的有效性,引入文獻(xiàn)[4]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)和文獻(xiàn)[5]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng),設(shè)定了測(cè)試參數(shù),如表1所示。翻譯系統(tǒng)測(cè)試實(shí)驗(yàn)需要注意測(cè)試對(duì)象選取的隨機(jī)性,為了確保整個(gè)實(shí)驗(yàn)過(guò)程中的準(zhǔn)確性,需要嚴(yán)格對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行條件限定,結(jié)果如表2所示。

3.2網(wǎng)絡(luò)多語(yǔ)言翻譯速度測(cè)試

以網(wǎng)絡(luò)多語(yǔ)言句子數(shù)量為自變量,采用三種翻譯系統(tǒng)測(cè)試了網(wǎng)絡(luò)多語(yǔ)言翻譯的速度,結(jié)果如表3所示。從表3的測(cè)試結(jié)果可以看出,文獻(xiàn)[4]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)由于在硬件設(shè)計(jì)方面,沒(méi)有對(duì)數(shù)據(jù)庫(kù)中網(wǎng)絡(luò)多語(yǔ)言數(shù)據(jù)進(jìn)行統(tǒng)計(jì),無(wú)法得到訓(xùn)練數(shù)據(jù),導(dǎo)致該系統(tǒng)在翻譯網(wǎng)絡(luò)多語(yǔ)言時(shí)的速度變慢,經(jīng)計(jì)算,網(wǎng)絡(luò)多語(yǔ)言測(cè)試過(guò)程中的平均翻譯速度為每秒4.275句子數(shù);而文獻(xiàn)[5]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)的性能相對(duì)要優(yōu)于文獻(xiàn)[4]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng),但是由于無(wú)法提取出網(wǎng)絡(luò)多語(yǔ)言的語(yǔ)義特征,使網(wǎng)絡(luò)多語(yǔ)言的翻譯變得更加復(fù)雜,經(jīng)計(jì)算,網(wǎng)絡(luò)多語(yǔ)言測(cè)試過(guò)程中的平均翻譯速度為每秒5.566句子數(shù);而基于大數(shù)據(jù)分析的網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)結(jié)合了以上兩個(gè)系統(tǒng)的軟硬件優(yōu)勢(shì),加快了網(wǎng)絡(luò)多語(yǔ)言的翻譯速度,經(jīng)計(jì)算,網(wǎng)絡(luò)多語(yǔ)言測(cè)試過(guò)程中的平均翻譯速度為每秒8.34句子數(shù)。

3.3網(wǎng)絡(luò)多語(yǔ)言匹配率測(cè)試

網(wǎng)絡(luò)多語(yǔ)言匹配率可以反映出網(wǎng)絡(luò)多語(yǔ)言翻譯系統(tǒng)的翻譯準(zhǔn)確性,分別采用文獻(xiàn)[4]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)、文獻(xiàn)[5]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)以及基于大數(shù)據(jù)分析的網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng),測(cè)試了網(wǎng)絡(luò)多語(yǔ)言的匹配率,結(jié)果如圖6所示。從圖6的測(cè)試結(jié)果可以看出,基于大數(shù)據(jù)分析的網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)的匹配率是最高的,其次是文獻(xiàn)[5]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng),而文獻(xiàn)[4]網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)由于沒(méi)有計(jì)算網(wǎng)絡(luò)多語(yǔ)言長(zhǎng)字符在文本中的相似程度,導(dǎo)致匹配率的測(cè)試結(jié)果偏低。

4結(jié)語(yǔ)

本文提出一種基于大數(shù)據(jù)分析的網(wǎng)絡(luò)多語(yǔ)言及時(shí)翻譯系統(tǒng)設(shè)計(jì),通過(guò)網(wǎng)絡(luò)多語(yǔ)言翻譯系統(tǒng)的硬件設(shè)計(jì)和軟件設(shè)計(jì),完成了系統(tǒng)的設(shè)計(jì),實(shí)現(xiàn)了網(wǎng)絡(luò)多語(yǔ)言的及時(shí)翻譯。測(cè)試結(jié)果顯示,該系統(tǒng)的性能是最好的。

作者:祁偉 牛歡 肖蕾 單位:廣東技術(shù)師范大學(xué) 北京外國(guó)語(yǔ)大學(xué)