語料庫范文10篇
時間:2024-04-12 03:24:43
導(dǎo)語:這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗,為你推薦的十篇語料庫范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。
語料庫研究論文
語料庫語言學(xué)主要研究機器可讀自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機器翻譯等領(lǐng)域中的應(yīng)用。多年來,機器翻譯和自然語言理解的研究中,分析語言的主要方法是句法語義分析。因此,在很長一段時間內(nèi),許多系統(tǒng)都是基于規(guī)則的,而根據(jù)當(dāng)前計算機的理論和技術(shù)的水平很難把語言學(xué)的各種事實和理解語言所需的廣泛的背景知識用規(guī)則的形式充分地表達出來,這樣,這些基于規(guī)則的機器翻譯和自然語言理解系統(tǒng)只能在極其受限的某些子語言(sub-language)中獲得一定的成功。為了擺脫困境,自然語言處理的研究者者們開始對大規(guī)模的非受限的自然語言進行調(diào)查和統(tǒng)計,以便采用一種基于統(tǒng)計的模型來處理大量的非受限語言。不言而喻,語料庫語言學(xué)將有可能在大量語言材料的基礎(chǔ)上來檢驗傳統(tǒng)的理論語言學(xué)基于手工搜集材料的方法所得出的各種結(jié)論,從而使我們對于自然語言的各種復(fù)雜現(xiàn)象獲得更為深刻全面的認(rèn)識。
本文首先簡要介紹國外語料庫的發(fā)展情況,然后,比較詳細地介紹中國語料庫的發(fā)展情況和主要的成績,使我們對于語料庫研究得到一個鳥瞰式的認(rèn)識。
一、國外語料庫概況
現(xiàn)在,美國Brown大學(xué)建立了BROWN語料庫(布朗語料庫),英國Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了LOB語料庫。歐美各國學(xué)者利用這兩個語料庫開展了大規(guī)模的研究,其中最引人注目的是對語料庫進行語法標(biāo)注的研究。他們設(shè)計了基于規(guī)則的自動標(biāo)注系統(tǒng)TAGGIT來給布朗語料庫的100萬詞的語料作自動標(biāo)注,正確率為77%.他們還設(shè)計了CLAWS系統(tǒng)來給LOB語料庫的100萬詞的語料作自動標(biāo)注,根據(jù)統(tǒng)計信息來建立算法,自動標(biāo)注正確率達96%,比基于規(guī)則的TAGGIT系統(tǒng)提高了將近20%.最近他們同時考察三個相鄰標(biāo)記的同現(xiàn)頻率,使自動語法標(biāo)注的正確率達到99.5%。這個指標(biāo)已經(jīng)超過了人工標(biāo)注所能達到的最高正確率。
現(xiàn)在,國外的主要語料庫還有:
London-Lund口語語料庫:收篇目87篇,每篇5000詞,共為43.4萬詞,有詳細的韻律標(biāo)注(prosodicmarking)。
語料庫語言學(xué)研究
一、研究基礎(chǔ):語料語言學(xué)庫研究范式
利用語料庫研究語言或者語言變體就是語料庫語言學(xué)。語料庫語言學(xué)形成了獨特的研究范式,包括研究目的、研究對象和研究方法。各種語料庫為包括閱讀在內(nèi)的教學(xué)提供了豐富的素材。教師可從中提取大量的語言素材,創(chuàng)造真實語境,擺脫了傳統(tǒng)教學(xué)的一些弊端。基于語料庫的研究主要從三個方面開展:詞匯、句法和語篇。下面我們從這三個方面簡述語料庫研究的思路。詞匯是指詞素、單詞、連續(xù)的短語和詞塊等。這是語料庫研究的優(yōu)勢所在。在詞匯方面,Sin-clair通過對nakedeye的探討提出了語料庫中詞項分析的思路。具體來說,在詞匯分析時,首先檢索一個或者多個詞項,在索引行中觀察分析詞項的搭配情況,概括詞匯的搭配關(guān)系,歸納出與詞項有關(guān)的類聯(lián)接。然后基于這些形式上的分析可進一步探索詞項的語義傾向問題以及詞項的感情色彩等語義韻問題。語言句法層面研究關(guān)注的焦點是句法結(jié)構(gòu),或者稱為型式。在語料庫研究范式下,對句法結(jié)構(gòu)的研究需要對語料庫中的語料進行詞性標(biāo)注,并使用正則表達式進行復(fù)雜檢索以深度挖掘。目前研究最多也是技術(shù)操作上最為成熟的句法結(jié)構(gòu)為類聯(lián)接。類聯(lián)接是句法層面的“結(jié)伴關(guān)系”,包括詞的類聯(lián)接、詞組或短語的類聯(lián)接、詞類或語法類的類聯(lián)接,是“搭配的更高層次,與語言的句法層面有密切關(guān)系”。通過類聯(lián)接不僅可以探討語義韻等語義方面的問題,還可以研究某些結(jié)構(gòu)所體現(xiàn)的社會文化屬性,從而洞察語言的語體和語用等方面。
二、基于語料庫語言學(xué)的讀寫教學(xué)模式構(gòu)建
(一)悉尼學(xué)派基于語類的讀寫教學(xué)法
前兩個階段側(cè)重閱讀教學(xué),而后兩個階段重點是寫作教學(xué)。所有四個階段處于循環(huán)中。在設(shè)定的真實的情景中,教師與學(xué)生磋商、互動以充分理解閱讀文本,同時學(xué)生不斷獲得教師關(guān)于語類的知識,直至能夠單獨完成語篇的寫作。
(二)語料庫語言學(xué)視角下的讀寫教學(xué)模式構(gòu)建
商務(wù)英語語料庫構(gòu)建
摘要:京津冀地區(qū)是我國北方經(jīng)濟發(fā)展的一塊腹地。加大對該地區(qū)的經(jīng)濟開發(fā),推進多樣化的經(jīng)濟形式向外延展是河北省現(xiàn)階段的重大戰(zhàn)略。當(dāng)前,河北省外貿(mào)企業(yè)順勢發(fā)展,外貿(mào)企業(yè)對外的經(jīng)濟需求也增大,因而對商務(wù)英語語料庫的構(gòu)建提出了更高的要求?;诖?,以茶貿(mào)易英語語料庫為例,分析商務(wù)英語語料庫的構(gòu)建要素,探討對外茶貿(mào)易對語言和茶文化的要求,研究商務(wù)英語語料庫的構(gòu)建在茶貿(mào)易中的應(yīng)用。另外,全面增強商務(wù)英語應(yīng)用化的作用力,推進商務(wù)英語語料庫的經(jīng)濟應(yīng)用價值,為茶貿(mào)易經(jīng)濟結(jié)構(gòu)系統(tǒng)化構(gòu)建穩(wěn)固奠基,彰顯出河北省對外經(jīng)濟發(fā)展的新動態(tài)、新方向。
關(guān)鍵詞:對外經(jīng)濟;商務(wù)英語;語料庫構(gòu)建;茶貿(mào)易
河北省是人口大省,人口基數(shù)大,同時也是中國的對外貿(mào)易大省。依據(jù)2016年石家莊海關(guān)數(shù)據(jù)記錄,2016年進出口總貿(mào)易額達到了746.8億美元,對外貿(mào)易處于出超地位。同比上年增長8個百分點。自河北省實施對外貿(mào)易的重大戰(zhàn)略以來,其貿(mào)易總額1.4的百分點發(fā)展到25的百分點。另外,區(qū)域經(jīng)濟對外發(fā)展是經(jīng)濟發(fā)展到成熟階段呈現(xiàn)出來的特征,顯現(xiàn)出經(jīng)濟發(fā)展的態(tài)勢。基于對外經(jīng)濟需求的發(fā)展背景,河北省借助地理位置、優(yōu)厚的人才、科技資源等優(yōu)勢,充分地將資源嵌入到經(jīng)濟的發(fā)展當(dāng)中。商務(wù)英語在對外貿(mào)易中起到的聯(lián)系紐帶作用,是推進對外貿(mào)易持續(xù)動力,也是貿(mào)易經(jīng)濟發(fā)展的不竭力量之源。
1商務(wù)英語語料庫的構(gòu)建
為了與經(jīng)濟社會發(fā)展的步伐相適應(yīng),在競爭劇烈的貿(mào)易市場中逆流而上。河北省對外貿(mào)易經(jīng)濟提出更為嚴(yán)格的專業(yè)要求。商務(wù)英語語料庫的構(gòu)建是一個商務(wù)語言體系化、學(xué)科專業(yè)化的前提,更是英語語言與實際經(jīng)濟應(yīng)用資源相銜接的根本途徑。1.1語料的采集與錄入在龐大的商務(wù)英語語料庫中,數(shù)據(jù)庫需要定期的進行資源的更新,以適應(yīng)新時代知識的融合與完善,而數(shù)據(jù)輸入的準(zhǔn)確性直接影響到后期使用戶的使用效果。因此,在進行商務(wù)英語語料的采集與錄入時,須確保錄入商務(wù)英語語料庫真實性。為保證商務(wù)英語語料輸入的準(zhǔn)確性,就需要對英語數(shù)據(jù)輸入的端口進行篩選檢查。首先,從錄入的信息源來看,錄入進電子商務(wù)英語數(shù)據(jù)庫的信息資源需要從有權(quán)威的刊物或者相關(guān)文獻中選取,而不是任意地從出版刊物中選??;其次,對相關(guān)不確定、待考證的信息資源需要進行明確的標(biāo)注;最后,在錄入商務(wù)英語信息資料時,需要平衡各二級學(xué)科的應(yīng)用領(lǐng)域的信息,按照一定的比例調(diào)研各二級學(xué)科的數(shù)據(jù)資源,分別與商務(wù)英語相銜接契合。1.2語料庫的檢索電子商務(wù)英語語料庫,如現(xiàn)代化的浩如煙海的活字典,它是為了滿足人們快速檢索商務(wù)英語詞匯、詞義以及語法等資源而構(gòu)建的。實質(zhì)上是根據(jù)商務(wù)用途的而合成的電子數(shù)據(jù)資料庫。商務(wù)英語語料庫檢索詞匯、錄入詞義的功能。在商務(wù)英語語料庫中,英語知識被轉(zhuǎn)化為字符,以字節(jié)為單位輸入到計算機數(shù)據(jù)庫中,計算機根據(jù)數(shù)字統(tǒng)計將英語字碼進行多層次的歸類處理,從而使商務(wù)英語可以更好地應(yīng)用到語言教育學(xué)、語言經(jīng)濟學(xué)中。此外茶貿(mào)易發(fā)展如火如荼,在商務(wù)英語的語料采集與錄入時,就應(yīng)該注重茶文化知識與商務(wù)英語的承接,將可利用的茶信息資源與商務(wù)英語深度融合。如,增大對茶詞匯、茶詞義、茶語法信息要素的錄入,以便用戶對商務(wù)英語的檢索,保證茶貿(mào)易經(jīng)濟的內(nèi)應(yīng)力與商務(wù)英語的原生力的協(xié)同配合。
2茶貿(mào)易經(jīng)濟對語言資源整合的要求分析
語料庫在英語教學(xué)中的運用透析
隨著科技進步,計算機技術(shù)的發(fā)展?jié)u漸滲透到了語言文學(xué)與教學(xué)領(lǐng)域。語料庫語言學(xué)作為一門新興的邊緣學(xué)科,很好地結(jié)合了自然科學(xué)與文學(xué),憑借其大規(guī)模的語料資源以及先進的語料庫檢索軟件和工具對語言文本進行深加工,再創(chuàng)造。語料庫檢索工具可以分析統(tǒng)計出文本中需查詞語的出現(xiàn)頻率,詞語與詞語間的搭配狀況,以及在全文本的各個章節(jié)關(guān)鍵詞(人物,事物等)出現(xiàn)的疏密程度等(王雁2007)。使用語料庫檢索工具(concordancer)對文學(xué)文本進行量化分析(quantitativeanalysis),為文學(xué)提供了更加科學(xué)的分析方法,能夠幫助我們提高課堂教學(xué)的質(zhì)量,增加思考的角度,拓展新的想象空間,使學(xué)生更好的掌握教學(xué)內(nèi)容(陳瑩瑩2007)。
如今建立在語料庫基礎(chǔ)上的分析,對文學(xué)作品的研究而言,經(jīng)歷了一個從質(zhì)評到量化、從主觀到客觀的飛躍。當(dāng)然這一轉(zhuǎn)變歸功于計算機的飛速發(fā)展。本文基于語料庫對《小王子》的文學(xué)語言進行分析,對文本的情節(jié)發(fā)展進行掌握,為文學(xué)作品《小王子》的研究者提供了一種新的視角,以便更好的進行課堂教學(xué),用詳實的語言數(shù)據(jù)證實了它的文學(xué)和教學(xué)價值。
文章結(jié)構(gòu)清晰,引言部分介紹寫作目的、意義和價值,并提出文章的結(jié)構(gòu)框架;第二部分文獻綜述介紹語料庫與文學(xué)研究的背景及不足,提出本文使用的研究方法和語料庫;第三部分是數(shù)據(jù)收集、數(shù)據(jù)分類、數(shù)據(jù)分析及提供圖表說明,通過圖表稱述分析過程和觀點;最后結(jié)語部分對文章進行總結(jié)。
1.系統(tǒng)介紹
語料庫應(yīng)用廣泛,實用性強,在文學(xué)研究方面的應(yīng)用已取得成效,而文學(xué)教學(xué)的開放性,使它可以面向語料庫語言學(xué)開放。語料庫語言學(xué)可以為語言文學(xué)的教學(xué)提供一套行之有效的方法和工具,使人們可以對文學(xué)作品進行更詳實、深入和具體的描述?;谡Z料庫的語言文學(xué)教學(xué)不僅僅可以從個別的現(xiàn)象中歸納出答案,還更加重視從眾多的現(xiàn)象和現(xiàn)象之間的聯(lián)系中歸納答案。此外,理論的真實性和概括性可以通過實證研究得以驗證。文學(xué)理論也不例外。
由于文學(xué)語料庫可以容納幾百萬、幾千萬、甚至上億詞的文學(xué)作品語料,人們可以從中得到充分的例證、驗證或說明某些文學(xué)理論(王一川2004)。
自建語料庫在商務(wù)英語翻譯的應(yīng)用
【摘要】因大型或?qū)iT語料庫的翻譯教學(xué)模式不具推廣性,教師可根據(jù)課程設(shè)計需要,有針對性地采集語料,充分利用自建語料庫來輔助翻譯教學(xué)。本研究展示教師如何利用在線計算機輔助翻譯平臺、免費語料庫工具等自建平行語料庫和可比語料庫,并以實際教學(xué)案例展示如何運用語料庫輔助翻譯教學(xué)。自建語料庫在商務(wù)翻譯教學(xué)的價值在于,遵循真實的翻譯情景,提供真實語料,充分發(fā)揮教師的引導(dǎo)作用,訓(xùn)練學(xué)生自主學(xué)習(xí)能力。
【關(guān)鍵詞】自建語料庫;商務(wù)英語翻譯教學(xué);教學(xué)案例
一、引言
關(guān)于語料庫在翻譯教學(xué)中的應(yīng)用,秦洪武、王克非[1]曾指出因語料庫的創(chuàng)建目的、創(chuàng)建技術(shù)、檢索技術(shù)的限制,國內(nèi)的研究還沒有解決語料庫與微觀教學(xué)環(huán)節(jié)的銜接問題,語料庫翻譯教學(xué)的模式研究還有待發(fā)展。而近年來國內(nèi)學(xué)者結(jié)合翻譯教學(xué)實踐,不斷提出基于語料庫的翻譯教學(xué)應(yīng)用范例。其中具代表性的如劉澤權(quán)、劉鼎甲[2]提出通過建設(shè)學(xué)習(xí)者譯文平行語料庫,并在課堂中引入專業(yè)譯者譯文對應(yīng)語料庫與大型通用語料庫,設(shè)計了以學(xué)生主動探索為中心的翻譯教學(xué)路線。王惠[3]則認(rèn)為如果缺乏深層次加工,語料庫在翻譯教學(xué)及學(xué)生自主學(xué)習(xí)中有一定難度,所以他以香港城市大學(xué)的“英漢漢英翻譯遠程教學(xué)系統(tǒng)”語料庫平臺為例,展示如何將“精加工”平行語料庫與教學(xué)內(nèi)容、過程和課后反饋等環(huán)節(jié)相結(jié)合。此外,另有學(xué)者提出單語語料庫在翻譯教學(xué)中不可替代的作用,如朱曉敏[4]探討了COCA和CCL語料庫在翻譯教學(xué)中的用途,孫東云[5]則以BCC漢語語料庫在英漢翻譯教學(xué)中的應(yīng)用為例,總結(jié)出母語語料庫驅(qū)動的翻譯教學(xué)模式。以上研究的共性是從教學(xué)實踐出發(fā),探索如何將語料庫的豐富語料和便捷的檢索工具等優(yōu)勢服務(wù)于教學(xué)目標(biāo),并且也注重發(fā)揮語料庫在培養(yǎng)學(xué)生的自主學(xué)習(xí)能力上的作用。需要指出的是,在翻譯教學(xué)中,語料庫的使用主體是翻譯初學(xué)者,他們還無法深入針對真實語料或某些翻譯現(xiàn)象做出快速準(zhǔn)確的總結(jié),而語料庫檢索出的大量的例子往往容易使其受挫。在學(xué)生具備基本翻譯能力和翻譯素養(yǎng)之前直接使用COCA、BNC等語料庫對翻譯教學(xué)的作用并不直接。而上述研究中其他基于語料庫的教學(xué)實踐都有系統(tǒng)成熟的專門語料庫支持,這些語料庫在前期建設(shè)上有非常高的要求,往往因版權(quán)無法公開使用,所以,其在教學(xué)實踐推廣上有一定的限制。因此,文本認(rèn)為教師可根據(jù)課程設(shè)計需要,有針對性地采集語料,制作旨在幫助學(xué)生理解特定語言現(xiàn)象的語料庫,充分利用自建語料庫來輔助翻譯教學(xué)。相較大型語料庫,小型的自建語料庫在輔助教學(xué)、編寫翻譯教材和教輔材料方面更具有針對性、即時性和新穎性。[6]不僅如此,在翻譯教學(xué)中,教師可以將平行語料庫、可比語料庫及單語語料庫等多種形式語料庫結(jié)合以配合教學(xué)目的。筆者將以自己教授的“商務(wù)英語翻譯”課程為例,介紹如何根據(jù)教學(xué)目標(biāo)自建小型專題語料庫,并在微觀層面展示如何運用語料庫開展商務(wù)翻譯教學(xué)活動。
二、自建語料庫
(一)語料的分類與選擇。商務(wù)英語文本專業(yè)性明顯,且新詞層出不窮,且各類語篇都“使用各種程式化語言使商務(wù)文本表達格式規(guī)范”。[4]所以在語料選擇上需要甄選有時效性、代表性的文本,語料來源可以包括網(wǎng)絡(luò)、時報、雜志等。建庫時可根據(jù)教學(xué)安排和需求把每類商務(wù)體裁文本分別建成小型的專門用途語料庫。蘇雯超、李德鳳、何元建[7]通過統(tǒng)計分析國內(nèi)具有影響力的商務(wù)翻譯教材,通過確定商務(wù)翻譯的核心話題與拓展話題來界定商務(wù)翻譯的內(nèi)涵和外延。筆者借鑒其統(tǒng)計的核心話題來確定商務(wù)翻譯課堂教學(xué)的文本,包括“公司宣傳文本”“商務(wù)信函”及“商務(wù)廣告”等。舉例而言,本文中筆者將介紹的“企業(yè)簡介”的語料來源主要來自于全球知名企業(yè)官方網(wǎng)站,《金融時報》(FinancialTimes)、《經(jīng)濟學(xué)人》(TheEconomist)等。(二)語料對齊。收集語料后,構(gòu)建平行語料庫的下一個核心步驟是進行語料對齊。王正、孫東云[8]介紹過如何利用計算機輔助翻譯軟件(CAT)進行語料對齊。他們利用TRADOSTranslator’sWorkbench帶有的組件WinAlign組件進行對齊,但是對齊后的語料導(dǎo)出后的文件還再導(dǎo)入DéjàvuCAT軟件進行文本格式的一系列轉(zhuǎn)換才能生成純文本。其他計算機輔助翻譯軟件如雪人CAT的語料也帶有對齊功能[9],但是同樣需要一系列格式轉(zhuǎn)換成可以使用的TXT文本。為省去這一系列操作,現(xiàn)在的在線語料大數(shù)據(jù)及智能翻譯平臺可以提供更快捷的操作,比如Tmaxmall()自主研發(fā)的智能對齊算法可以快速地自動對齊原文譯文,能自動識別“一對多”“多對一”“多對多”句子對應(yīng)關(guān)系,極大地提高對齊的效率以及準(zhǔn)確度。調(diào)整對齊的界面直觀,操作便捷,用戶可以便捷地在線預(yù)覽對齊語料,并且該平臺支持docx、xlsx、pptx、pdf、txt等36種主流格式的導(dǎo)入,并且可直接導(dǎo)出tmx、xlsx、txt、docx等4種格式。(三)自建平行語料庫。準(zhǔn)備好對齊的txt語料文件后,一種方法是可以使用平行語料庫檢索工具進行檢索。Paraconc是經(jīng)典的雙語平行語料庫檢索工具,可以在其官網(wǎng)下載Demo體驗軟件。但是中文文本仍不能直接使用Paraconc進行檢索,需對語料進行分詞處理。本文推薦使用北京外國語大學(xué)的BFSUParaConc,漢語文本可不進行分詞處理,中英文文本文件要求分別以*.ZH.txt和*.EN.txt方式命名后導(dǎo)入就可以使用,方便地呈現(xiàn)翻譯中原文與譯文在字/詞/句層面的對應(yīng)關(guān)系。另外一種是利用計算機翻譯輔助軟件,因為這些軟件本身也提供了靈活簡便的雙語平行語料庫功能。只要把對齊后語料tmx文件可以導(dǎo)入CAT軟件存為翻譯記憶庫,可以在軟件上查看、調(diào)用來輔助翻譯教學(xué)??梢酝ㄟ^下載Trados試用版或者雪人免費版,但是這些軟件在安裝操作上較費時,所以筆者推薦更簡易的在線翻譯管理平臺如Yicat,Yicat帶有CAT的所有核心功能,直接打開網(wǎng)頁就可以免費使用。用戶注冊后進入主界面在記憶庫管理里導(dǎo)入tmx文件就可以進行雙語平行語料庫的檢索查看。(四)自建雙語可比語料庫。與譯者培訓(xùn)有關(guān)的雙語可比語料庫,Zanettin[10]將其定義為在不同語言中基于相似的內(nèi)容、領(lǐng)域和交際功能收集的相互獨立的文本。而將這種雙語可比文本用于翻譯研究和培訓(xùn)在語料庫出現(xiàn)之前已很常見,如Snell-Hornby[11]分別收集了英文和德文的公示語進行比較,她認(rèn)為通過比較源語和目的語同一文本類型的大量文本有助于定義該文本的原型特征,為譯者呈現(xiàn)譯文的基本“輪廓”。而在翻譯課堂中這類的雙語可比語料庫是培養(yǎng)其語言的直覺,學(xué)習(xí)專用文體特有表達方式的理想工具。在課堂教學(xué)活動設(shè)計與實施過程中,可比語料庫可以“構(gòu)建輸入目標(biāo)語材料”,相對于平行語料庫,學(xué)生可以“在自主研究所提供的語言數(shù)據(jù)中分析現(xiàn)象、找到規(guī)律,而不是一味地去模仿前人的翻譯”。[4]建立這一類語料庫的分析工具比較多且都很成熟,最廣為使用的是AntConc,其界面簡約直觀、功能專業(yè)實用,使用者只需下載安裝就能使用,但這款軟件只能用于英文文本的語料分析。所以,筆者也推薦BFSUPowerConc,這款軟件支持漢語和英語兩種語言,同時支持粗語料和標(biāo)注語料兩種形式的語料檢索。研究者可用其建設(shè)英漢雙語的可比語料庫。比如教學(xué)設(shè)計中讓學(xué)生掌握英漢兩種語言同一文體的語言特征,就需要用到BFSUPowerConc來分別建立中英文雙語可比語料庫。
我國語料庫的研究歷史分析論文
語言學(xué)的研究必須以語言事實作為根據(jù),必須詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結(jié)論。傳統(tǒng)的語言材料的搜集、整理和加工完全是靠手工進行的,這是一種枯燥無味、費力費時的工作。計算機出現(xiàn)后,人們可以把這些工作交給計算機去作,大大地減輕了人們的勞動。后來,在這種工作中逐漸創(chuàng)造了一整套完整的理論和方法,形成了一門新的學(xué)科——語料庫語言學(xué)(corpuslinguistics),并成為了自然語言處理的一個分支學(xué)科。
語料庫語言學(xué)主要研究機器可讀自然語言文本的采集、存儲、檢索、統(tǒng)計、語法標(biāo)注、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機器翻譯等領(lǐng)域中的應(yīng)用。多年來,機器翻譯和自然語言理解的研究中,分析語言的主要方法是句法語義分析。因此,在很長一段時間內(nèi),許多系統(tǒng)都是基于規(guī)則的,而根據(jù)當(dāng)前計算機的理論和技術(shù)的水平很難把語言學(xué)的各種事實和理解語言所需的廣泛的背景知識用規(guī)則的形式充分地表達出來,這樣,這些基于規(guī)則的機器翻譯和自然語言理解系統(tǒng)只能在極其受限的某些子語言(sub-language)中獲得一定的成功。為了擺脫困境,自然語言處理的研究者者們開始對大規(guī)模的非受限的自然語言進行調(diào)查和統(tǒng)計,以便采用一種基于統(tǒng)計的模型來處理大量的非受限語言。不言而喻,語料庫語言學(xué)將有可能在大量語言材料的基礎(chǔ)上來檢驗傳統(tǒng)的理論語言學(xué)基于手工搜集材料的方法所得出的各種結(jié)論,從而使我們對于自然語言的各種復(fù)雜現(xiàn)象獲得更為深刻全面的認(rèn)識。
本文首先簡要介紹國外語料庫的發(fā)展情況,然后,比較詳細地介紹中國語料庫的發(fā)展情況和主要的成績,使我們對于語料庫研究得到一個鳥瞰式的認(rèn)識。
一、國外語料庫概況
現(xiàn)在,美國Brown大學(xué)建立了BROWN語料庫(布朗語料庫),英國Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了LOB語料庫。歐美各國學(xué)者利用這兩個語料庫開展了大規(guī)模的研究,其中最引人注目的是對語料庫進行語法標(biāo)注的研究。他們設(shè)計了基于規(guī)則的自動標(biāo)注系統(tǒng)TAGGIT來給布朗語料庫的100萬詞的語料作自動標(biāo)注,正確率為77%.他們還設(shè)計了CLAWS系統(tǒng)來給LOB語料庫的100萬詞的語料作自動標(biāo)注,根據(jù)統(tǒng)計信息來建立算法,自動標(biāo)注正確率達96%,比基于規(guī)則的TAGGIT系統(tǒng)提高了將近20%.最近他們同時考察三個相鄰標(biāo)記的同現(xiàn)頻率,使自動語法標(biāo)注的正確率達到99.5%。這個指標(biāo)已經(jīng)超過了人工標(biāo)注所能達到的最高正確率。
現(xiàn)在,國外的主要語料庫還有:
BNC語料庫的近義詞對比研究
摘要:近義詞辨析一直是中學(xué)英語詞匯教學(xué)的重點和難點,近義詞意思相近但是在具體使用上卻有細微的差別。學(xué)生在記憶相近意思的單詞時,一般都會選擇死記硬背或者一概而論,教師在教授近義詞時也大多進行字面解釋。而語料庫可以為學(xué)習(xí)者提供大量真實的材料,這將為近義詞的辨析和使用提供強大的數(shù)據(jù)支持。該文選取近義詞acknowledge和ad?mit,以BNC(英國當(dāng)代語料庫)為工具,從語域、搭配、語義韻等方面研究這一對近義詞的搭配和使用,旨在為中國英語學(xué)習(xí)者提供學(xué)習(xí)近義詞的方法,并為英語詞匯教學(xué)帶來啟示。
關(guān)鍵詞:語料庫;近義詞;語義韻;詞匯教學(xué)
1引言
1.1研究背景
二語教學(xué)是為了提高學(xué)習(xí)者的詞匯能力,詞匯是提高英語寫作、閱讀、會話等技能的關(guān)鍵[1]。然而對于詞語的研究到近代才剛剛開始,“Lexis”一詞在英語中只有相對短暫的歷史,直到大約20世紀(jì)50年代才開始在英國英語中使用[2]。Firth提出了著名的“語境論”,他認(rèn)為詞的意義不在人的大腦里,而是在語境之中。近義詞在二語詞匯教學(xué)和習(xí)得中是一個重難點,因為它們在結(jié)構(gòu)、詞形、詞義和語義等方面具有較大的相似性。近義詞在英語詞匯中占比較大,在中學(xué)階段,英語詞匯教學(xué)的重難點也在于如何辨析這類詞匯。傳統(tǒng)的詞匯教學(xué)采用中文釋義或同義詞講解的方法,學(xué)生利用漢語意思記憶和歸類單詞,忽略了單詞所處的語境。學(xué)生在使用近義詞時,也會因為語境不當(dāng),概念模糊而導(dǎo)致誤用。語料庫中有大量的語言事實,也就是人們在交際中使用的真實的語言。因此,語料庫將單詞與真實語境相結(jié)合,能夠幫助學(xué)生辨析近義詞之間的異同,因此學(xué)生能理解詞匯的準(zhǔn)確內(nèi)涵并正確使用。
1.2國內(nèi)外研究現(xiàn)狀
語料庫在商務(wù)英語口譯的應(yīng)用
[摘要]新經(jīng)濟環(huán)境的變革影響著社會整體環(huán)境的變化,從全球化的經(jīng)濟貿(mào)易形式,到我國的整體經(jīng)濟產(chǎn)業(yè)結(jié)構(gòu),都會受到新經(jīng)濟環(huán)境的影響。人才培養(yǎng)基本方向和需求也將發(fā)生一定程度的轉(zhuǎn)變,商務(wù)英語口譯類人才在新經(jīng)濟環(huán)境作為對外交流的高級人才其市場需求將不斷增大,克服目前商務(wù)英語口譯教學(xué)難點,培養(yǎng)商務(wù)英語口譯人才,可以從語料庫的建設(shè)入手,通過平行語料庫在教學(xué)中的應(yīng)用,實現(xiàn)內(nèi)涵式的高等人才培養(yǎng)。
[關(guān)鍵詞]語料庫;商務(wù)英語;口譯;應(yīng)用
2017年國家教育部反饋的數(shù)據(jù)顯示,2017年報考口譯的人才僅有11772人,商務(wù)英語口譯人才短板是新經(jīng)濟環(huán)境下我國經(jīng)濟發(fā)展下的人才缺口之一。1997年,意大利舉行的CorpusUseandlearningtoTranslate中對翻譯教學(xué)中語料庫的運用展開了深入探討,隨著語料庫建設(shè)方式的多樣化和豐富化,翻譯教學(xué)管理和操作的多樣化教學(xué)展開已經(jīng)成為翻譯教學(xué)的共識??谧g教學(xué)作為翻譯教學(xué)中的一個分支,能夠通過平行語料庫的運用,在學(xué)生主題理解、術(shù)語選擇、慣用表達等方面都能夠得到提升。因此,研究語料庫在商務(wù)英語口譯教學(xué)中的應(yīng)用,對于商務(wù)英語口譯教學(xué)質(zhì)量和整體水平的提高有著重要價值。
一、商務(wù)英語口譯教學(xué)現(xiàn)狀
商務(wù)英語口譯教學(xué)具有實時和不可預(yù)測兩大性質(zhì),這兩大性質(zhì)讓商務(wù)英語口譯教學(xué)難度要遠遠大于商務(wù)英語的筆譯教學(xué)。由于口譯中對學(xué)生的語言輸入輸出能力有著極高的要求,因此教學(xué)過程中需要對學(xué)生語言能力、反應(yīng)能力、速記能力表達能力等方面均需要培養(yǎng)。就目前商務(wù)英語口譯教學(xué)現(xiàn)狀而言,高要求和高難度都讓商務(wù)英語口譯教學(xué)發(fā)展現(xiàn)狀存在較多問題:一是商務(wù)英語口譯教學(xué)中的源語輸入問題,在具體的教學(xué)展開過程中學(xué)生無法規(guī)避誤聽、信息遺漏等問題,在當(dāng)下的教學(xué)方法中也無法有效規(guī)避以上問題;二是商務(wù)英語口譯教學(xué)中的編碼問題,學(xué)生在具體的口譯過程中會出現(xiàn)句型結(jié)構(gòu)混淆、遺漏,英漢轉(zhuǎn)換過程中的語態(tài)、時態(tài)難以有效轉(zhuǎn)換等問題。在商務(wù)英語口譯教學(xué)中也并沒有針對這一問題出現(xiàn)有效的解決措施;三是目的語的輸出問題,詞匯的精準(zhǔn)選擇,中英語言轉(zhuǎn)換中的信息殘缺以及難以做到口譯翻譯的即時性;四是商務(wù)英語口譯教學(xué)的時間限制,口譯教學(xué)需要大量的教學(xué)時間和前期系統(tǒng)的學(xué)習(xí),但是就目前高校的商務(wù)英語口譯教學(xué)課時安排分析,一個學(xué)期的課時難以滿足當(dāng)前的教學(xué)需求,短暫的課時難以培養(yǎng)出大量優(yōu)秀的口譯人才。
二、語料庫在商務(wù)英語口譯中的應(yīng)用
小議小學(xué)語文語料庫的設(shè)計與開發(fā)
一、開發(fā)和研究小學(xué)語文教學(xué)
語料庫主要是采用的ASP語言寫程序,采用SQLSE1KVE1K2000數(shù)據(jù)庫服務(wù)器做數(shù)據(jù)存儲服務(wù)以及采用IIS60Web服務(wù)器語料庫檢索網(wǎng)站。這個過程主要有:語料采集、原料庫加工和開發(fā)語料庫的檢索功能等環(huán)節(jié)。
1、語料一般都是來源于互聯(lián)網(wǎng)上的一些讀書網(wǎng)站,這是主要來源。
2、在小學(xué)語文教學(xué)語料庫設(shè)計時肯定會碰到難點,在建設(shè)資料庫時需要收集的資料并不是匯集在一起的,需要設(shè)計者進行搜集,要把這些結(jié)構(gòu)多樣的資源轉(zhuǎn)化為結(jié)構(gòu)統(tǒng)一的語料庫并不是一件簡單的事,而且很多資源都是網(wǎng)頁形式的,而語料庫的全文卻是文本形式的,這樣就要求設(shè)計者進行處理,這也是一項比較困難繁雜的工作。
3、對于小學(xué)語文教學(xué)語料庫所遇到問題的解決方法,大多數(shù)網(wǎng)站的資源格式基本上都是一樣的。這樣我們就可以利用這些相同點來進行解決,我們可以去發(fā)現(xiàn)各個網(wǎng)站對于文章的作者、標(biāo)題等的標(biāo)記的規(guī)則,將其轉(zhuǎn)化為我們需要的文本格式,運用到我們的語料庫中。但是在有些情況下某個網(wǎng)站的不同的頁面中對文章的同一部分所用的標(biāo)記也不相同,這些地方我們的解決方法是尋找兩者之間的共性,尤其是在標(biāo)記部分的共性,利用這些共性對這兩種標(biāo)記方式進行統(tǒng)一的表達。
4、注意結(jié)果的統(tǒng)計。小學(xué)的語料庫中共收集了一萬零六百六十五篇,這些結(jié)果的收集對教學(xué)和研究是非常有益的。小學(xué)語文教學(xué)語料庫的加工要注意句子層次的加工和篇章層次的加工,句子層次的加工主要是將篇章分割成若干句子,同時確定每句話的長度,而后將這些句子數(shù)據(jù)存入句子數(shù)據(jù)表中。篇章層次的加工在語料采集過程已經(jīng)部分的完成,包括對標(biāo)題、作者、體裁和字?jǐn)?shù)等屬性。
語料庫在英語詞匯教學(xué)中的應(yīng)用
1指導(dǎo)學(xué)習(xí)高頻詞
英語的詞匯總量可以說是難以計數(shù)的,如此海量的詞匯,在實際學(xué)習(xí)中沒有必要完全掌握,教師應(yīng)當(dāng)引導(dǎo)學(xué)生充分掌握和學(xué)習(xí)最基本、能產(chǎn)性最強以及高頻使用的詞匯。(肖忠華、戴光榮,2010)語料庫的詞頻統(tǒng)計就正好符合該要求,通過詞頻統(tǒng)計,學(xué)生能夠充分了解不同等級高頻詞匯的數(shù)量及應(yīng)用范圍。根據(jù)Kucera與Francis統(tǒng)計,在Brown語料庫中進行檢索,結(jié)果顯示,頻率排名在1000以內(nèi)的單詞,覆蓋普通文本72%;頻率排名在2000以內(nèi)的單詞,覆蓋普通文本達到了79.6%。為此,在實施教學(xué)時,教師應(yīng)在有限的時間內(nèi),將精力集中在詞頻2000以內(nèi)的單詞,若學(xué)生能夠基本掌握這些詞匯,那么也就基本掌握了所閱讀文章的大概意思,這不僅能提高學(xué)生對詞匯積累的興趣和成就感,同時也有利于教師教學(xué)質(zhì)量和效率的提高。
2分析語義韻
語義韻是詞匯教學(xué)中重要的方面,根據(jù)節(jié)點詞與共現(xiàn)詞的語義特點,可將語義韻分為消極、中性和積極三種類型。其中消極語義韻的語境通常具有濃厚的消極色彩;中性語義韻能夠吸引各種詞項語義,氛圍較為復(fù)雜,故又稱之為錯綜語義韻;積極語義韻的語義氛圍具有強烈的積極語義。
3辨析詞語搭配錯誤
單詞本身的含義,并非獨立存在,是與其他詞匯共同組成語句來體現(xiàn)的。詞項與結(jié)伴詞項間有一定的結(jié)伴規(guī)律,能夠相互吸引、相互期待,并且搭配成份的類聯(lián)接關(guān)系等都主要通過詞語搭配的方式存在,這也是詞語搭配研究的關(guān)鍵內(nèi)容。通過語料庫的運用,學(xué)生不僅能夠更加形象、直觀地了解詞語搭配,而且能夠辨析和糾正詞語搭配錯誤。