詞匯分布語(yǔ)義的語(yǔ)言學(xué)基礎(chǔ)分析

時(shí)間:2022-12-24 10:20:47

導(dǎo)語(yǔ):詞匯分布語(yǔ)義的語(yǔ)言學(xué)基礎(chǔ)分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢(xún)客服老師,歡迎參考。

詞匯分布語(yǔ)義的語(yǔ)言學(xué)基礎(chǔ)分析

一、引言

自然語(yǔ)言處理是人工智能領(lǐng)域極其重要也極具挑戰(zhàn)的研究方向,屬于計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科。它將抽象的人類(lèi)語(yǔ)言轉(zhuǎn)換成適合計(jì)算機(jī)處理的形式,從而建立語(yǔ)言、知識(shí)與客觀世界之間的可計(jì)算關(guān)系。自然語(yǔ)言處理的核心,是讓機(jī)器具備理解各種語(yǔ)言形式(詞匯、短語(yǔ)、句子、篇章等)內(nèi)在含義的能力。詞匯是自然語(yǔ)言的基本單位,詞匯的語(yǔ)義表示因此也成為自然語(yǔ)言理解的基本問(wèn)題之一。傳統(tǒng)上,人們采用人工構(gòu)建語(yǔ)義詞典和語(yǔ)義知識(shí)庫(kù)的方式來(lái)表達(dá)詞匯語(yǔ)義①。但人工標(biāo)注的方式成本高昂,覆蓋面亦有限,難以獲得大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展和文本數(shù)據(jù)的爆炸式增長(zhǎng),利用機(jī)器學(xué)習(xí)算法在大規(guī)模語(yǔ)料上對(duì)詞匯表示進(jìn)行抽象和學(xué)習(xí),成為當(dāng)前詞匯語(yǔ)義表示的主流方法。這種表示方法又稱(chēng)分布語(yǔ)義,它通過(guò)對(duì)語(yǔ)料的學(xué)習(xí),將符號(hào)表示的詞匯轉(zhuǎn)化為數(shù)學(xué)表示的向量,使得詞匯具有語(yǔ)義可計(jì)算的能力,已經(jīng)在智能搜索、語(yǔ)音識(shí)別、機(jī)器翻譯、詩(shī)歌創(chuàng)作、古文斷句、信息過(guò)濾、意圖理解等領(lǐng)域得到了廣泛使用②。盡管詞匯分布語(yǔ)義在應(yīng)用上取得了很大的成功,然而也應(yīng)當(dāng)看到,對(duì)其背后的語(yǔ)言學(xué)機(jī)理,我們還缺乏全面的認(rèn)識(shí)。我們要問(wèn),這種通過(guò)對(duì)語(yǔ)料的學(xué)習(xí)而自動(dòng)獲得的分布語(yǔ)義,本質(zhì)上是一種什么樣的語(yǔ)義?它能否涵蓋詞匯的完整意義?這種語(yǔ)義表示的潛力和局限又是什么?我們認(rèn)為,要回答這些問(wèn)題,需要結(jié)合相關(guān)的語(yǔ)言學(xué)理論來(lái)深入思考。本文試圖從語(yǔ)言學(xué)學(xué)說(shuō)史的角度審視詞匯分布語(yǔ)義的理論基礎(chǔ),并以在海量《人民日?qǐng)?bào)》語(yǔ)料庫(kù)上訓(xùn)練得到的詞匯分布語(yǔ)義作為實(shí)證分析的依據(jù)③,以厘清詞匯分布語(yǔ)義在自然語(yǔ)言處理領(lǐng)域的潛力和邊界,并為自然語(yǔ)言理解模型的構(gòu)建和應(yīng)用提供新的思路。

二、意義即使用:詞匯分布語(yǔ)義的語(yǔ)言哲學(xué)基礎(chǔ)

詞匯的意義理論是語(yǔ)言哲學(xué)的兩個(gè)基本問(wèn)題之一④。什么是詞義?對(duì)這個(gè)問(wèn)題的討論,最早可追溯至古希臘時(shí)期對(duì)“詞”與“物”的關(guān)系之辯,即名實(shí)之爭(zhēng)?!斑壐魉梗╨ogs)”學(xué)說(shuō)的提出者,古希臘哲學(xué)家赫拉克里特(Heraclitus)主張“本質(zhì)說(shuō)”,認(rèn)為名稱(chēng)與它所代表的事物之間的聯(lián)系是不可分割的,名稱(chēng)包含了事物的本質(zhì)⑤。與此相反,德謨克里特(Democletus)主張“約定說(shuō)”,認(rèn)為名稱(chēng)與事物之間的聯(lián)系并非由事物的本質(zhì)決定,而是約定俗成的⑥。后來(lái)柏拉圖(Plato)在他的《對(duì)話(huà)錄》中提出了“語(yǔ)詞是命名(naming)”的折中觀點(diǎn),認(rèn)為事物的意義在于名稱(chēng)和事物之間的自然聯(lián)系,但這種內(nèi)在聯(lián)系會(huì)隨著時(shí)間推移而減弱。柏拉圖的學(xué)生亞里斯多德則堅(jiān)決主張名實(shí)分離,認(rèn)為名稱(chēng)不是自然賦予的,而是約定俗成的具有意義的聲音,在成為一種符號(hào)時(shí)才成為名稱(chēng)⑦。公元二世紀(jì)語(yǔ)言學(xué)的亞歷山大里亞學(xué)派(theAlexandrians)也傳承了這一觀點(diǎn)⑧。古希臘哲學(xué)家關(guān)于名實(shí)關(guān)系的爭(zhēng)辯,對(duì)中世紀(jì)以后的語(yǔ)言哲學(xué)學(xué)說(shuō),產(chǎn)生了極其深遠(yuǎn)的影響。意義的指稱(chēng)論(referentialtheoryofmeaning)即秉持“約定說(shuō)”的名實(shí)分離觀點(diǎn),認(rèn)為詞的意義就是詞所指的對(duì)象。近代英國(guó)哲學(xué)家、邏輯學(xué)家密爾(J.S.Mill)把名稱(chēng)分為專(zhuān)名和通名,其中通名既有外延又有內(nèi)涵,外延表示所指稱(chēng)的事物,而內(nèi)涵表示所指事物的特性,即意義⑨。德國(guó)哲學(xué)家弗雷格(G.Frege)進(jìn)一步發(fā)展了指稱(chēng)論,在1892年發(fā)表的《論意義和所指》一文中,弗雷格對(duì)符號(hào)的意義和所指(一譯“意謂”)做了明確區(qū)分。他以望遠(yuǎn)鏡觀察月亮來(lái)比喻:月亮是所指,望遠(yuǎn)鏡物鏡中的影像是意義,視網(wǎng)膜上的圖像是意象,意義介于所指和意象之間,既不是所指對(duì)象本身,也不像意象那樣主觀,而是一種客觀的存在⑩。指稱(chēng)論的另一位代表人物羅素(B.A.W.Russell)則提出,應(yīng)將語(yǔ)詞分為專(zhuān)名和摹狀詞,專(zhuān)名的意義就是所指稱(chēng)的對(duì)象,摹狀詞的意義由所組成的語(yǔ)詞的意義確定輥輯訛,羅素的意義理論被稱(chēng)為“邏輯指稱(chēng)論”,并深刻影響了他的學(xué)生維特根斯坦,早期維特根斯坦就認(rèn)為,名稱(chēng)和對(duì)象之間存在直接的對(duì)應(yīng)關(guān)系,名稱(chēng)所指的對(duì)象就是名稱(chēng)的意義輥輰訛。由上可知,指稱(chēng)論者雖然在具體觀點(diǎn)上有所差異,但都主張語(yǔ)言是對(duì)世界的反映,詞匯的意義在于所指稱(chēng)的世界中的事物。但是,指稱(chēng)論是以名稱(chēng)為范例來(lái)看待詞匯的,而詞匯并不都是名稱(chēng),許多詞匯的意義,要根據(jù)上下文甚至社會(huì)語(yǔ)境才能確定。后期維特根斯坦就否定了自己早期的指稱(chēng)論觀點(diǎn),在后期著作《哲學(xué)研究》中,他提出“意義即用法”的觀點(diǎn),他說(shuō):“一個(gè)字詞的意義是它在語(yǔ)言中的用法?!陛佪嵱灷?,作為路標(biāo)的箭頭符號(hào)之所以能夠指路,是因?yàn)槿藗兪褂盟?,按照它的指向行走,正是使用賦予箭頭符號(hào)以意義。根據(jù)維特根斯坦的觀點(diǎn),詞匯的意義受到語(yǔ)言使用規(guī)則的制約,因此必須研究語(yǔ)言游戲的規(guī)則,這種思路被稱(chēng)作意義的使用論(usetheoryofmeaning),并直接促使人們對(duì)詞的用法進(jìn)行經(jīng)驗(yàn)性研究。意義的使用論被多個(gè)語(yǔ)言學(xué)派所吸收和采納,但“使用”這一概念過(guò)于空泛,不少語(yǔ)言學(xué)家給出了更為明確的關(guān)于“詞義”的闡述。語(yǔ)言學(xué)倫敦學(xué)派的創(chuàng)始人弗斯(J.R.Firth)說(shuō):“詞匯的意義取決于搭配”,認(rèn)為意義存在于詞匯出現(xiàn)的上下文之中,上下文可以幫助理解詞義。輥輲訛英國(guó)語(yǔ)言學(xué)家克魯斯認(rèn)為:“一個(gè)詞項(xiàng)在各種語(yǔ)境中遇到的全部正常關(guān)系稱(chēng)為它的語(yǔ)境關(guān)系(contextualrelations),…,詞的意義是由它的語(yǔ)境關(guān)系構(gòu)成的?!陛佪徲炗迷~的上下文信息來(lái)表達(dá)詞的意義,與傳統(tǒng)語(yǔ)義學(xué)和喬姆斯基(A.N.Chomsky)的生成語(yǔ)法理論形成了鮮明對(duì)比,但在實(shí)踐中卻有很強(qiáng)的可操作性。我們以漢字“塤”為例,假設(shè)一個(gè)人并不清楚這個(gè)字的含義,但告訴他這個(gè)字在如下的文本中出現(xiàn)輥輴訛:(1)正是周敏在城墻頭上吹動(dòng)了塤,聲音沉緩悠長(zhǎng),嗚嗚如夜風(fēng)臨窗。(賈平凹《廢都》)(2)它的外形有橢圓形、圓形、橄欖形不等,大多由陶土燒制而成,所以又叫陶塤。(新華社新聞文本)(3)若不會(huì)吹笛,塤和簫都成,曲風(fēng)應(yīng)是悠揚(yáng)輕遠(yuǎn)的。(劇本《武林外傳》)那么,根據(jù)“塤”這個(gè)詞在上下文中的分布,不難推斷出它的意義:“一種陶制的吹奏樂(lè)器”。由此可見(jiàn),如果給定足夠多的上下文,就能夠利用分布統(tǒng)計(jì)方法來(lái)刻畫(huà)每個(gè)詞的含義。詞匯分布語(yǔ)義各種模型的基本思想,正是通過(guò)機(jī)器學(xué)習(xí)算法來(lái)學(xué)習(xí)詞匯在大規(guī)模文本語(yǔ)料中的分布模式,從而獲得詞匯的語(yǔ)義表示。在各具特色的詞匯分布語(yǔ)義學(xué)習(xí)模型中,Word2Vec神經(jīng)網(wǎng)絡(luò)模型是較有影響力的一種輥輵訛。本文采用Word2Vec的Skip-Gram算法對(duì)《人民日?qǐng)?bào)》語(yǔ)料進(jìn)行訓(xùn)練,然后將得到的詞向量降到3維(原參數(shù)設(shè)為256維),再檢索“塤”的語(yǔ)義近鄰分布,結(jié)果如下圖1所示。由圖1中詞匯的空間分布,可以得到更多關(guān)于“塤”的語(yǔ)義知識(shí),例如,由“編鐘”、“篪”、“古琴”、“青銅器”等近鄰詞可以推斷,“塤”應(yīng)是一種遠(yuǎn)古樂(lè)器??梢?jiàn),詞匯分布語(yǔ)義實(shí)質(zhì)上是通過(guò)詞匯在空間中的位置來(lái)表達(dá)語(yǔ)義的。自然語(yǔ)言本質(zhì)上是符號(hào)化的,而在分布表示框架下,符號(hào)表示的詞匯最終被轉(zhuǎn)換成了數(shù)學(xué)表示的向量,這種轉(zhuǎn)換具有非常重要的意義,因?yàn)樵谵D(zhuǎn)為數(shù)學(xué)向量之后,詞匯語(yǔ)義變得可計(jì)算甚至可推理了。例如,通過(guò)向量計(jì)算,可以發(fā)現(xiàn)“塤”與“簫”的距離要明顯小于它與“架子鼓”的距離,也就是說(shuō),“塤”在語(yǔ)義上要更接近“簫”。同時(shí),這種語(yǔ)義距離還具有可推理的性質(zhì),例如,通過(guò)計(jì)算,我們可以得到類(lèi)似于“吹奏樂(lè)器-塤=打擊樂(lè)器-架子鼓”這樣的語(yǔ)義推理結(jié)果。那么,通過(guò)空間距離來(lái)表達(dá)詞匯語(yǔ)義,是否符合人類(lèi)對(duì)概念的認(rèn)知規(guī)律呢?我們可以從認(rèn)知語(yǔ)言學(xué)的角度看待這個(gè)問(wèn)題。溫格樂(lè)(F.Ungereer)認(rèn)為,概念結(jié)構(gòu)是體驗(yàn)性的(embodied,一譯“具身”),語(yǔ)義的形成,很大程度上源于我們的身體體驗(yàn)輥輶訛。認(rèn)知語(yǔ)言學(xué)的代表人物萊考夫(G.Lakoff)指出,隱喻是人類(lèi)語(yǔ)言的普遍現(xiàn)象,是人類(lèi)認(rèn)知和思維的本質(zhì)輥輷訛。格雷迪(E.J.Grady)的基本隱喻理論認(rèn)為,兒童在概念認(rèn)知的早期,能學(xué)會(huì)數(shù)百個(gè)可被辨識(shí)的基本隱喻,基本隱喻又進(jìn)一步構(gòu)成了復(fù)雜隱喻輦輮訛。萊考夫總結(jié)分析了約50條基本隱喻,其中非常重要的一條就是“相似是近(similarityiscloseness)”,該隱喻是人類(lèi)對(duì)挨近的相似對(duì)象進(jìn)行觀察而獲得的基本經(jīng)驗(yàn),表明人類(lèi)的思維會(huì)將實(shí)體概念映射到空間,而相似的概念在空間中的距離也相近輦輯訛。萊考夫認(rèn)為,人類(lèi)正是通過(guò)“相似是近”這一基本隱喻來(lái)進(jìn)行概念層面的抽象思維。由此可見(jiàn),用詞匯在向量空間中的位置來(lái)表示詞匯,用詞匯間的空間距離來(lái)表示詞匯的語(yǔ)義相似度,可以從認(rèn)知語(yǔ)義學(xué)中找到理論依據(jù)。

三、句段與聯(lián)想:詞匯分布語(yǔ)義的兩類(lèi)上下文

詞匯分布語(yǔ)義通過(guò)空間距離表達(dá)語(yǔ)義相似程度,而這種距離正是通過(guò)對(duì)詞匯在語(yǔ)料中的“使用”模式進(jìn)行統(tǒng)計(jì),由學(xué)習(xí)模型自動(dòng)習(xí)得的。因此,有必要審視詞匯的“使用”指的是什么?以及對(duì)“使用”的不同定義得到的詞匯語(yǔ)義有何區(qū)別?瑞士語(yǔ)言學(xué)家索緒爾(F.D.Saussure)是現(xiàn)代語(yǔ)言學(xué)的奠基者輦輰訛。索緒爾認(rèn)為,語(yǔ)言是一套具有價(jià)值的符號(hào)系統(tǒng),符號(hào)的價(jià)值在于對(duì)不同功能的區(qū)分,而這種區(qū)分是不能脫離系統(tǒng)而存在的。按照索緒爾的觀點(diǎn),作為語(yǔ)言符號(hào)系統(tǒng)的一部分,詞匯不僅具有意義,而且具有價(jià)值,詞匯的價(jià)值由它與其他詞的關(guān)系決定,索緒爾將這種關(guān)系分為兩類(lèi):句段關(guān)系和聯(lián)想關(guān)系輦輱訛。句段關(guān)系是指話(huà)語(yǔ)中各個(gè)要素挨序排列結(jié)成的線條性關(guān)系,其特征是有序的,在現(xiàn)場(chǎng)的(法語(yǔ)inpraesentia)輦輲訛,例如,語(yǔ)詞中構(gòu)字成詞,連詞成句,集句成段等都屬于句段關(guān)系;聯(lián)想關(guān)系的特征是無(wú)序的,非現(xiàn)場(chǎng)的(法語(yǔ)inabsentia),可替換的輦輳訛。下面以一個(gè)簡(jiǎn)單例子來(lái)說(shuō)明句段關(guān)系和聯(lián)想關(guān)系,如下圖2所示。在這個(gè)例子中,“李白”和“詩(shī)人”屬于句段關(guān)系,“李白”和“杜甫”則屬于聯(lián)想關(guān)系。索緒爾指出,整個(gè)語(yǔ)言機(jī)構(gòu)都無(wú)外乎對(duì)這兩種關(guān)系的運(yùn)用。從這個(gè)角度來(lái)看,詞匯分布語(yǔ)義模型對(duì)語(yǔ)義的學(xué)習(xí),最終可以歸結(jié)為對(duì)這兩種關(guān)系的學(xué)習(xí)。句段關(guān)系是詞匯的橫向組合,通過(guò)對(duì)固定的語(yǔ)言單元內(nèi)(如句子、段落、篇章)詞匯的共現(xiàn)關(guān)系(co-occurrence)的建模,可以刻畫(huà)詞匯的分布語(yǔ)義。例如,我們統(tǒng)計(jì)詞匯在上述3個(gè)句子中的共現(xiàn)次數(shù),如下表1所示。不難看出,“李白”和“詩(shī)人”的共現(xiàn)頻率最高,因此語(yǔ)義上更為接近。具有聯(lián)想關(guān)系的詞匯不在同一現(xiàn)場(chǎng)共現(xiàn),但具有相似的上下文語(yǔ)境,且一般能夠互相替換。例如,我們依據(jù)上述語(yǔ)料可以構(gòu)建一個(gè)詞詞共現(xiàn)矩陣,如下表2所示??梢钥闯觯袄畎住焙汀岸鸥Α彪m然不在同一個(gè)句子中出現(xiàn),但擁有相似的上下文(即“唐代、詩(shī)人”),因此語(yǔ)義相似度較高。當(dāng)然,上述例子僅是一個(gè)簡(jiǎn)單示例,但如果依據(jù)海量的語(yǔ)料來(lái)構(gòu)建詞匯的共現(xiàn)矩陣,無(wú)疑可以表達(dá)更為豐富全面的語(yǔ)義。這個(gè)共現(xiàn)矩陣的規(guī)模通常會(huì)很大,潛語(yǔ)義分析、非負(fù)矩陣分解、典型相關(guān)分析等自然語(yǔ)言處理領(lǐng)域的分布語(yǔ)義技術(shù),通過(guò)不同的途徑對(duì)共現(xiàn)矩陣進(jìn)行降維,從而得到詞匯的潛在分布語(yǔ)義。但這些方法對(duì)詞匯上下文的使用,仍可以歸結(jié)到索緒爾關(guān)于句段關(guān)系和聯(lián)想關(guān)系的論述。由此可見(jiàn),詞匯在語(yǔ)料中的“使用”,最終可以用索緒爾的句段關(guān)系和聯(lián)想關(guān)系來(lái)概括,那么這兩類(lèi)關(guān)系得到的詞匯語(yǔ)義又有何不同?我們?cè)凇度嗣袢請(qǐng)?bào)》語(yǔ)料上的實(shí)證結(jié)果表明,句段關(guān)系得到的詞匯語(yǔ)義,更偏向于語(yǔ)法搭配的相似性,較易得到主題相關(guān)性的詞匯語(yǔ)義(例如“杭州”與“西湖”,“李白”與“詩(shī)人”等);聯(lián)想關(guān)系得到的詞匯語(yǔ)義,更偏向于功能相似性的詞匯語(yǔ)義(例如“杭州”與“蘇州”,“李白”與“杜甫”等)。

四、描寫(xiě)語(yǔ)言學(xué):詞匯分布語(yǔ)義的理論依據(jù)

布龍菲爾德(L.Bloomfield)的結(jié)構(gòu)主義語(yǔ)言學(xué)是對(duì)索緒爾語(yǔ)言觀的繼承和發(fā)展,其1933年出版的代表作《語(yǔ)言論》,奠定了描寫(xiě)語(yǔ)言學(xué)的理論基礎(chǔ),標(biāo)志著語(yǔ)言學(xué)一個(gè)新時(shí)期的誕生。作為結(jié)構(gòu)語(yǔ)言學(xué)的一個(gè)重要流派,描寫(xiě)語(yǔ)言學(xué)建立了一整套描寫(xiě)語(yǔ)言的嚴(yán)格技術(shù),包括替換分析、對(duì)比分析、分布分析、直接成分分析等語(yǔ)言分析方法輦輴訛。布龍菲爾德之后,在海里斯(Z.S.Harris)等人的努力下,美國(guó)描寫(xiě)語(yǔ)言學(xué)呈現(xiàn)出精密的分析手續(xù)和高度的形式化,其中分布分析技術(shù)成為最重要的方法論。在《結(jié)構(gòu)語(yǔ)言學(xué)》中,海里斯給出了分布的定義:“一個(gè)語(yǔ)言成分(element)的分布就是它所出現(xiàn)的全部環(huán)境(environments)的總和,也就是這個(gè)成分的所有的(不同的)位置(positions)或出現(xiàn)的場(chǎng)合(occurrences)的總和,這個(gè)成分出現(xiàn)的這些位置是和其它成分的出現(xiàn)有關(guān)系的。”輦輵訛海里斯認(rèn)為,分布是語(yǔ)言結(jié)構(gòu)分析的主要依據(jù),分布可以確定語(yǔ)言的成分以及各個(gè)成分之間的關(guān)系。他又認(rèn)為依據(jù)分布能夠得到意義,分布的不同,也就是意義上的不同輦輶訛。海里斯的“分布區(qū)別意義”的思想后來(lái)不斷被其他學(xué)者的實(shí)驗(yàn)所證實(shí),并成為詞匯分布語(yǔ)義的理論基礎(chǔ)?;凇跋嗨圃~的上下文也相似”的分布假設(shè),研究者提出了各種詞匯分布語(yǔ)義學(xué)習(xí)模型。除了詞匯的上下文外,還可以通過(guò)其他語(yǔ)言要素的分布來(lái)學(xué)習(xí)詞匯語(yǔ)義,這些語(yǔ)言要素包括詞匯的形態(tài)學(xué)特征,如前后綴、詞元、詞干、偏旁部首等,以及詞匯的語(yǔ)言學(xué)特征如詞性、語(yǔ)法成分樹(shù)、語(yǔ)義角色、句法依存樹(shù)、回指等輦輷訛。詞匯分布語(yǔ)義模型是建立在對(duì)海量語(yǔ)料分析的基礎(chǔ)上的,它天然符合美國(guó)描寫(xiě)語(yǔ)言學(xué)的主張,即通過(guò)客觀和機(jī)械的方法來(lái)研究語(yǔ)言。因此,如果語(yǔ)料中詞匯的語(yǔ)義發(fā)生變遷(詞義擴(kuò)大、縮小、產(chǎn)生新義或消亡),模型中的詞匯分布語(yǔ)義也會(huì)隨之改變。我們對(duì)《人民日?qǐng)?bào)》語(yǔ)料進(jìn)行歷時(shí)分割,使用字+詞+詞性的分布,訓(xùn)練得到詞匯分布表示后,發(fā)現(xiàn)某些詞匯隨社會(huì)發(fā)展而出現(xiàn)詞義變遷現(xiàn)象。以詞匯“革命”的為例,可以觀察到其詞義在20世紀(jì)70年代和80年代的有著顯著變化。如下圖3所示,70年代,“革命”一詞與緊密相關(guān),語(yǔ)義近鄰中包含大批與階級(jí)斗爭(zhēng)密切相關(guān)的詞匯。80年代,鄧小平“改革是中國(guó)的第二次革命”的著名論斷賦予了“革命”一詞新的科學(xué)內(nèi)涵,其語(yǔ)義近鄰詞中出現(xiàn)了“拓荒?!薄ⅰ伴_(kāi)拓創(chuàng)新”、“奮力拼搏”等反映社會(huì)變革的具有鮮明時(shí)代特征的詞匯。可見(jiàn),通過(guò)歷時(shí)語(yǔ)料的訓(xùn)練,詞匯分布語(yǔ)義能夠?yàn)橛^察社會(huì)變遷和文化演變提供新的視角。

五、結(jié)語(yǔ)

自然語(yǔ)言理解是人工智能的一種高級(jí)表現(xiàn)形式,詞匯的語(yǔ)義表示屬于自然語(yǔ)言理解的基礎(chǔ)研究。通過(guò)對(duì)語(yǔ)言學(xué)學(xué)說(shuō)史的梳理和對(duì)語(yǔ)料庫(kù)的實(shí)證分析,可以認(rèn)為,當(dāng)前以神經(jīng)語(yǔ)言模型為代表的詞匯分布語(yǔ)義,其哲學(xué)淵源是意義的“使用論”;而詞匯和語(yǔ)言要素之間的句段和聯(lián)想關(guān)系,是詞匯“使用”的具體表現(xiàn),并可由此來(lái)刻畫(huà)詞匯的意義;以美國(guó)描寫(xiě)語(yǔ)言學(xué)為代表的結(jié)構(gòu)語(yǔ)言學(xué),構(gòu)成了詞匯分布語(yǔ)義的理論基礎(chǔ),分布的不同將導(dǎo)致意義的不同。至此我們可以回答引言中的三個(gè)問(wèn)題。第一,詞匯分布語(yǔ)義本質(zhì)上是從語(yǔ)料中習(xí)得的語(yǔ)義,反映的是相應(yīng)語(yǔ)料中詞匯的使用模式和偏好,因此也會(huì)客觀折射出社會(huì)文化生活的某些風(fēng)貌特征。第二,詞匯分布語(yǔ)義建立在描寫(xiě)語(yǔ)言學(xué)的結(jié)構(gòu)主義之上,結(jié)構(gòu)主義是由索緒爾關(guān)于語(yǔ)言是一個(gè)符號(hào)系統(tǒng)的理論發(fā)展而來(lái)的,主張語(yǔ)言分析要使用機(jī)械方法的立場(chǎng)。如果承認(rèn)這一點(diǎn),那么基于語(yǔ)料的詞匯分布語(yǔ)義,理論上是能夠完整覆蓋語(yǔ)料范圍內(nèi)的所有詞義的。需要指出的是,雖然詞匯分布語(yǔ)義表達(dá)的是作為語(yǔ)言的基本單元的詞匯的意義,但在深度學(xué)習(xí)領(lǐng)域發(fā)展起來(lái)的循環(huán)、卷積、遞歸等神經(jīng)網(wǎng)絡(luò)模型,目前已經(jīng)能夠?qū)Σ煌6鹊恼Z(yǔ)言單元進(jìn)行組合,從而獲得更大粒度的語(yǔ)義表示,因此,詞匯語(yǔ)義表示研究的進(jìn)步,對(duì)意義“使用論”在語(yǔ)言哲學(xué)方向的發(fā)展,也提供了一種新的視角和途徑。第三,詞匯分布語(yǔ)義建立在分布假設(shè)基礎(chǔ)上,不可避免存在固有的局限。首先,分布語(yǔ)義的假設(shè)是“相似的詞具有相似的上下文”,然而此處的“相似”這個(gè)概念,實(shí)際上指的是語(yǔ)義上的關(guān)聯(lián),既包括同義,也包括反義、上下位等其他語(yǔ)義關(guān)系;其次,分布語(yǔ)義反映的是語(yǔ)料庫(kù)中詞匯的使用模式,而語(yǔ)料庫(kù)又不可避免地帶有社會(huì)文化和制度的烙印,包括現(xiàn)實(shí)世界中固有的偏見(jiàn)或歧視,例如性別歧視、種族差異等,因此,在基于詞匯分布語(yǔ)義的人工智能決策應(yīng)用中,需要充分考慮社會(huì)公平和基本倫理。

作者:潘俊 吳宗大 單位:南京大學(xué)