大數(shù)據(jù)語言學(xué)研究形勢(shì)探究

時(shí)間:2022-04-10 04:27:42

導(dǎo)語:大數(shù)據(jù)語言學(xué)研究形勢(shì)探究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

大數(shù)據(jù)語言學(xué)研究形勢(shì)探究

摘要:近年來隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)、數(shù)據(jù)庫等概念頻繁地出現(xiàn)在人們視野。其中,大數(shù)據(jù)以及構(gòu)建外文語料庫在學(xué)術(shù)研究領(lǐng)域蔚然成風(fēng)。通過查閱相關(guān)的期刊、論文和書籍對(duì)其有一定的了解。本文從大數(shù)據(jù)是什么,構(gòu)建語料庫對(duì)于語言學(xué)研究的意義是什么,以及在大數(shù)據(jù)背景下語言學(xué)研究的形勢(shì)變化入手,對(duì)當(dāng)今大數(shù)據(jù)背景下數(shù)據(jù)和語言學(xué)研究的現(xiàn)狀進(jìn)行簡(jiǎn)要的解釋和討論,同時(shí)希望對(duì)數(shù)據(jù)庫有一個(gè)比較整體的認(rèn)識(shí)和了解。

關(guān)鍵詞:大數(shù)據(jù);語言學(xué)研究;語料庫

一、前言

隨著計(jì)算機(jī)科學(xué)技術(shù)的快速發(fā)展人們迎來了信息時(shí)代。信息時(shí)代的一個(gè)重要特點(diǎn)就是大量的數(shù)據(jù)的涌現(xiàn)。這使得人們的生活方式和思維方式發(fā)生改變,也對(duì)語言學(xué)研究產(chǎn)生重大的影響。語言學(xué)研究離不開對(duì)語言資料搜集、處理、整合。傳統(tǒng)的語言研究在搜集語料方面是十分低效的,需要大量的人力去翻閱典籍、做記錄?,F(xiàn)在通過大數(shù)據(jù)與語言研究的結(jié)合,使得這些問題都迎刃而解。根據(jù)不同的語言研究目的,學(xué)者們將會(huì)構(gòu)建不同內(nèi)容的語料庫,從而完成對(duì)語料的處理、加工等事宜??梢哉f,大數(shù)據(jù)開啟語言研究的一個(gè)新的天地。

二、大數(shù)據(jù)

近年來在計(jì)算機(jī)科學(xué)領(lǐng)域最火的一個(gè)詞就是“大數(shù)據(jù)”。對(duì)于“大數(shù)據(jù)”,人們起初是一個(gè)朦朧的認(rèn)識(shí)狀態(tài),但是,隨著科技發(fā)展以及對(duì)大數(shù)據(jù)的運(yùn)用,人們開始認(rèn)識(shí)到大數(shù)據(jù)的巨大作用和意義。大數(shù)據(jù)不僅改變著人們的日常生活方式,而且對(duì)人們的思維方式也有了潛移默化的影響。與此同時(shí),它也拉近不同領(lǐng)域之間的距離,從而對(duì)交叉學(xué)科發(fā)展具有重要的意義。它帶動(dòng)著各個(gè)領(lǐng)域的發(fā)展,使人們更加清晰地認(rèn)識(shí)我們所生活的世界。大數(shù)據(jù)不僅僅是體現(xiàn)在它數(shù)據(jù)的龐大上,更重要的是透過這些龐大的數(shù)據(jù)背后所隱藏的信息價(jià)值——人類認(rèn)知、行為的模式以及人和社會(huì)、自然交互的規(guī)律。在過去的科學(xué)研究中,我們能利用的資源是有限的,或者說很難搜集到比較全面的信息內(nèi)容,很多時(shí)候人們都是通過有限的事例來總結(jié)普遍的規(guī)律。這樣往往會(huì)使人忽略掉一些重要的規(guī)律,甚至走向錯(cuò)誤的方向。大數(shù)據(jù)卻可以快速高效為我們提供相應(yīng)的數(shù)據(jù)信息,同時(shí)也會(huì)提供相關(guān)信息,這是在傳統(tǒng)研究方式中不曾有的操作。身處在這個(gè)大數(shù)據(jù)的時(shí)代,我們不可避免要受到它的影響。通過網(wǎng)絡(luò),我們可以快速便捷的找到需要的信息,也能通過編輯、搜索等產(chǎn)生各種數(shù)據(jù)。我們總是接收、檢索新信息和處理現(xiàn)有信息。通過不同地區(qū)、不同領(lǐng)域、不同國家,在某一時(shí)段內(nèi)信息的檢索和處理,我們可以對(duì)其在該時(shí)間段的狀況有一個(gè)初步了解和預(yù)判。例如:2018年的春運(yùn),我們通過大數(shù)據(jù)獲取各地間往返的客流量以及他們所選取的交通方式,進(jìn)而在飛機(jī)航班、高鐵發(fā)車次數(shù)、火車列次上作出相應(yīng)的調(diào)整,減輕了客運(yùn)樞紐的壓力,減輕了春運(yùn)的壓力。語言作為人類的交際工具,廣泛應(yīng)用于各個(gè)領(lǐng)域。古往今來,人們不斷開拓新事物、新領(lǐng)域,隨之相應(yīng)地語言體系也逐漸形成并壯大。因此大數(shù)據(jù)為語言學(xué)研究提供了大量的事實(shí)語料。同時(shí),也在影響著語言研究的方法。面對(duì)大量的事實(shí)語料,我們要對(duì)其進(jìn)行科學(xué)地分析、處理以及整理,這需要一個(gè)完整的系統(tǒng)工具來完成這項(xiàng)任務(wù)。

三、語料庫——語言學(xué)研究工具

20世紀(jì)60年代開始語料庫語言學(xué)逐漸建立。語料庫語言學(xué)是以經(jīng)驗(yàn)主義和科學(xué)理性主義為哲學(xué)基礎(chǔ),自下而上的歸納法為其方法論。從建立起,就一直以真實(shí)語料為研究的基礎(chǔ),以大量的日常用語為依據(jù),以概率為特征,通過統(tǒng)計(jì)量化的手段建立模型。語言學(xué)研究應(yīng)該以語言事實(shí)為依據(jù),廣泛地、細(xì)致地搜索語言資料。隨著計(jì)算機(jī)的發(fā)展,通過構(gòu)建語料庫來進(jìn)行語言研究已經(jīng)成為一個(gè)趨勢(shì)。語料庫是儲(chǔ)存了很多事實(shí)語料的庫房。語言學(xué)要重視對(duì)自然真實(shí)語料的意義研究,所以,語料庫的數(shù)據(jù)不僅要追求“量”,也要重視其“質(zhì)”。語料庫作為語言研究的工具,需要收錄大量的真實(shí)語料。在構(gòu)建語料庫時(shí),文本采集要有一定的標(biāo)準(zhǔn),采集的文本量也要達(dá)到電腦可以處理的規(guī)模。其中,需要對(duì)采集來的文本進(jìn)行標(biāo)注、賦碼等過程的加工。語料庫在語言研究的各個(gè)領(lǐng)域都有重要的作用。在語言教育的領(lǐng)域,對(duì)語料詞頻、讀音、句型、搭配等進(jìn)行分析統(tǒng)計(jì),可對(duì)語料有十分清晰的把握。在應(yīng)用語言學(xué)領(lǐng)域也運(yùn)用廣泛。如:利用相關(guān)的系統(tǒng)軟件,對(duì)語料庫可以進(jìn)行句法、詞匯、口語、語義、語言變異、話語分析等的研究。除此之外,還能通過運(yùn)用語料庫技術(shù)進(jìn)行語音合成、識(shí)別的任務(wù)等。在社會(huì)語言學(xué)領(lǐng)域,依據(jù)大規(guī)模真實(shí)語料進(jìn)行社會(huì)語言現(xiàn)象、語言變異等分析,可以得到更加客觀的準(zhǔn)確的數(shù)據(jù)和結(jié)論。在文學(xué)領(lǐng)域,開拓文學(xué)研究同語料庫相結(jié)合的新型研究模式。通過構(gòu)建文學(xué)典籍及作品評(píng)論的語料庫,并對(duì)其進(jìn)行標(biāo)注和檢索等處理和加工。分別研究當(dāng)中的人物形象、作品風(fēng)格、主題、意象等進(jìn)行分析,可以為觀點(diǎn)提供更加客觀的數(shù)據(jù)支撐。在翻譯領(lǐng)域,為了提高翻譯的效率和準(zhǔn)確性會(huì)利用建成的雙語平行語料庫。同時(shí),雙語平行語料庫還能為翻譯研究和實(shí)踐,提供實(shí)證材料的支持。在語言定量分析領(lǐng)域,通過利用大規(guī)模的真實(shí)語料,設(shè)計(jì)出要進(jìn)行定量分析的知識(shí)點(diǎn)和所使用的各種題型,可以提高定量分析結(jié)果的效率和認(rèn)可度。在大數(shù)據(jù)的背景下,我們能更加方便、快捷地實(shí)現(xiàn)資源共享,語料庫亦是如此。如:日本構(gòu)建的免費(fèi)文庫“青空文庫”,它收錄了大量的日本著名作家的文學(xué)作品。這對(duì)很多日本文學(xué)的研究者提供一個(gè)高效地收集一手資料的途徑。在語言研究方面起到了很大作用。我們可以通過語料庫檢索到所需的語言信息,然后通過相應(yīng)的軟件進(jìn)行分析、研究。由此可見,語料庫是語言研究的重要工具。通過利用日文語料庫檢索信息的時(shí)候,我無意間發(fā)現(xiàn),他們不止建立了自己本民族語言的語料庫,而且對(duì)其他語言也構(gòu)建了相對(duì)完整的語料庫。如:中文的方言語庫、讀音語庫、同義詞語庫等。通過對(duì)這些語料庫的利用和觀察,我們可以認(rèn)識(shí)到日本人對(duì)中國文字的理解程度,同時(shí),這對(duì)兩中語言在翻譯和習(xí)得等方面有很大幫助。語料庫不僅處在雙方語言的立場(chǎng),它應(yīng)該是多方的。如:中國和日本都會(huì)建立自己的相應(yīng)的英語、法語等的語料庫,對(duì)這些語料庫的考察我們可以看到作為第二語言習(xí)得的國家,對(duì)這一第二語言的認(rèn)識(shí)和發(fā)展的程度。實(shí)際上,語料庫中有太多我們要檢索的未知。

四、語言學(xué)研究形勢(shì)

在大數(shù)據(jù)的背景下,語言研究煥發(fā)出新的生命力。語言作為信息交流的工具,與各個(gè)領(lǐng)域都關(guān)系密切。而大數(shù)據(jù)又縮短了各個(gè)領(lǐng)域間的距離,這使得語言研究不再是一個(gè)孤立的課題,我們要重視其相關(guān)學(xué)科的研究與發(fā)展,為語言學(xué)研究注入新的活力。布里斯南對(duì)于大數(shù)據(jù)時(shí)代的語言研究體會(huì)是從“花園”走向“灌木叢”。她認(rèn)為“花園里的語言學(xué)”主要是分析語言學(xué)家們根據(jù)內(nèi)省或者精挑細(xì)選得到的語言現(xiàn)象,且通過句法樹等符號(hào)來進(jìn)行定性的概括和總結(jié)。“灌木叢中的語言學(xué)”研究的是人們?cè)诂F(xiàn)實(shí)生活所用的真實(shí)語言,往往借助條件概率、信息量等來進(jìn)行定量分析。在這過程中,語言學(xué)研究形勢(shì)會(huì)有顯著的變化。語言學(xué)的研究形勢(shì)在大數(shù)據(jù)背景下呈現(xiàn)出以下幾個(gè)特點(diǎn):第一,由曾經(jīng)尋找語言事實(shí)內(nèi)部的因果關(guān)系轉(zhuǎn)向?qū)で笳Z言事實(shí)間的相關(guān)關(guān)系。第二,不再過度追求微觀層面上的精確性會(huì)讓我們?cè)谡Z言宏觀層面擁有更好的洞察力。第三,語言研究由尋找因果關(guān)系和構(gòu)建各種語言解釋模型轉(zhuǎn)變?yōu)檠芯空Z言事實(shí)的相關(guān)關(guān)系上??偠灾?,每一次的時(shí)代變革,都會(huì)在語言中留下痕跡,我們要追尋、探究這些痕跡,不斷促進(jìn)對(duì)語言的認(rèn)識(shí)。我們要注重語言學(xué)的研究也要關(guān)注其相關(guān)學(xué)科的研究。在大數(shù)據(jù)的背景下,語言研究有著新的機(jī)遇和挑戰(zhàn)。

五、結(jié)語

語言學(xué)從花園到灌木叢,這是信息時(shí)代的大數(shù)據(jù)給予我們的認(rèn)識(shí)。未來,我們是否會(huì)從灌木叢走向森林,這取決科技和語言學(xué)的發(fā)展程度。就目前初進(jìn)灌木叢的語言學(xué)者來說,面臨著無限的新奇和挑戰(zhàn)。一方面語言學(xué)家享受的大數(shù)據(jù)帶來的便利,另一方面也認(rèn)識(shí)大數(shù)據(jù)本身這個(gè)事物。如何更好地利用它進(jìn)行語言學(xué)研究已成為一個(gè)重要課題。

【參考文獻(xiàn)】

[1]劉海濤,林燕妮.大數(shù)據(jù)時(shí)代語言研究的方法和趨向[J].新疆師范大學(xué)報(bào),2018(1):72-83.

[2]林海倫,王元卓,賈巖濤等.面向網(wǎng)絡(luò)大數(shù)據(jù)的知識(shí)融合方法綜述[J].計(jì)算機(jī)學(xué)報(bào),2017(1):1-27.

[3]袁昌萬,劉承宇,常淑麗.系統(tǒng)功能語言學(xué)與語料庫的契合[J].外國語文,2016(1):104-109.

[4]李華勇.大數(shù)據(jù)視野下的語言研究新觀[J].重慶交通大學(xué)學(xué)報(bào),2015(4):134-137.

[5]詹衛(wèi)東.大數(shù)據(jù)時(shí)代的漢語語言研究[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科版).2013(5):70-77.

作者:田春媛 單位:黑龍江大學(xué)