論語言科學(xué)與語言技術(shù)

時間:2022-12-18 05:07:00

導(dǎo)語:論語言科學(xué)與語言技術(shù)一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

論語言科學(xué)與語言技術(shù)

一、“語言科技”新思維的提出

雖然計算機(jī)設(shè)計的初衷是緣于數(shù)值計算,但是英國數(shù)學(xué)家圖靈(a.m.turing)在《機(jī)器能思維嗎?》(1950)一文中已經(jīng)預(yù)見到計算機(jī)和自然語言將結(jié)下不解之緣,并且提出檢驗計算機(jī)智能的最好方法就是對語言信息的處理能力。1977年,費根鮑姆(feigenbaum)提出知識工程,計算機(jī)信息處理出現(xiàn)了從“數(shù)據(jù)世界”向“知識世界”的轉(zhuǎn)移趨勢。知識世界的載體是語言符號系統(tǒng),語言信息處理的需求促使語言研究過程和語言研究成果的技術(shù)化趨勢日益明顯,當(dāng)代語言學(xué)已凸顯出“語言科學(xué)”與“語言技術(shù)”的二分互補(bǔ)格局,由此我在《南京師范大學(xué)語言科技系建設(shè)發(fā)展規(guī)劃》(2001年2月)中提出“語言科技”的新思維?!罢Z言科學(xué)”主要指基礎(chǔ)性的描寫語言學(xué)和理論語言學(xué)?!罢Z言技術(shù)”主要指面向信息處理的應(yīng)用語言學(xué)或計算語言學(xué),其研究任務(wù)可劃分為“文本處理技術(shù)”和“語言模擬技術(shù)”。簡而言之,語言文本處理技術(shù)是通過編輯和編程,將印刷文本轉(zhuǎn)化為可供計算機(jī)使用的電子文本的技術(shù)。語言系統(tǒng)模擬(simulation)或者語言能力仿真(emulation)技術(shù)是通過算法和編程,將自然語言的理解和生成能力輸入計算機(jī)的技術(shù)。獲得語言能力的計算機(jī)可以實現(xiàn)“人—機(jī)對話”而成為名實相符的“電腦”。為研制智能機(jī)服務(wù)的“語言系統(tǒng)模擬”,可比喻為“語言基因圖譜分析工程”和“語言能力移植工程”。強(qiáng)調(diào)語言研究的技術(shù)化,并非忽視傳統(tǒng)語言學(xué)研究存在技術(shù)性的一面,例如實驗語音學(xué)和方言語音調(diào)查等。之所以以往未能突出語言研究的技術(shù)化,其原因在于——除語音研究可借助聲學(xué)技術(shù)設(shè)備以外——語言研究的絕大多數(shù)領(lǐng)域還一直沒有相應(yīng)的實驗性技術(shù)設(shè)備。

雖然當(dāng)代語言學(xué)家不可能也不必要都轉(zhuǎn)向計算語言學(xué)研究,但具有一定的語言信息處理意識卻非常必要。早在1964年11月,美國科學(xué)院語言自動處理咨詢委員會就在《語言與機(jī)器》的報告中明確指出:機(jī)器翻譯遇到了難以克服的semanticbarrier(義障)。然而這一警告,除了致使機(jī)器翻譯研究熱的暫時消退以外,并沒有引起語言學(xué)界的足夠重視。1982年,日本制訂了一個為期10年面向ai(人工智能)的“第五代計算機(jī)”即智能機(jī)的研制計劃,其中包括自然語言處理裝置。1992年結(jié)束時,只部分達(dá)到了預(yù)定目標(biāo)。隨后又公布了另一個為期10年的“真實世界計算機(jī)(rwc)計劃”即“新信息處理技術(shù)計劃”。(許萬增1996,p.61-62)據(jù)說,90年代后期日本不得不宣布暫停研制,其根本原因就在于未能穿過語言研究的“瓶頸”。自然語言處理裝置的任務(wù)無法實現(xiàn),計算機(jī)談何“真實世界”或“人工智能”。時至今日,這一“義障”仍然沒有跨越。在《新世紀(jì)將對人類產(chǎn)生重大影響的十大科技趨勢》(新華社北京2000年12月30日電)的報道中,列出21世紀(jì)的“認(rèn)知神經(jīng)科學(xué)領(lǐng)域”和“信息技術(shù)領(lǐng)域”,并分別提出來“探索意識、思維活動的本質(zhì)”和“計算機(jī)向智能化方向發(fā)展”的任務(wù),然而沒有語言科技領(lǐng)域的合作——關(guān)鍵是認(rèn)知語義結(jié)構(gòu)網(wǎng)絡(luò)研究的根本性突破——則不可能實現(xiàn)。

無論從手段還是就目標(biāo),對準(zhǔn)自然語言處理的當(dāng)代語言學(xué)研究,其性質(zhì)都應(yīng)界定為“語言科技”?!罢Z言科技”的內(nèi)涵是以理論研究為指導(dǎo),以描寫研究為基礎(chǔ),以應(yīng)用研究為樞紐,促使語言研究向計算機(jī)應(yīng)用、數(shù)學(xué)、認(rèn)知科學(xué)和現(xiàn)代教育技術(shù)領(lǐng)域延伸,溝通文理工相關(guān)學(xué)科以實現(xiàn)語言研究過程及其成果的技術(shù)化;“語言科技”的外延表現(xiàn)為語言工程科技、語言教育科技和語言研究科技。語言學(xué)和計算機(jī)科學(xué)等學(xué)科相結(jié)合的“語言工程科技”,研究領(lǐng)域是“人—機(jī)對話”,其目標(biāo)主要是自然語言能力的模擬。語言學(xué)與現(xiàn)代教育技術(shù)相結(jié)合的“語言教育科技”,研究領(lǐng)域是“人—人對話”,其主要目標(biāo)是實現(xiàn)語言教育的多媒體和網(wǎng)絡(luò)化。“語言研究科技”是將語言研究活動與計算機(jī)工具相結(jié)合,其主要目標(biāo)是實現(xiàn)語言學(xué)自身的計算機(jī)化,包括語料庫、詞庫和句庫的研制,語言研究的分析性、統(tǒng)計性、比較性和實驗性軟件的開發(fā)等。這一新思維既突出了當(dāng)代科技發(fā)展所要求的“語言學(xué)的技術(shù)化”,又體現(xiàn)了以語言學(xué)為本而溝通文理工相關(guān)學(xué)科的研究旨趣。

二、計算語言學(xué)的界定要突出技術(shù)性

20世紀(jì)50年代以后,在理論方法交叉滲透而形成諸多邊緣語言學(xué)的同時,語言學(xué)與計算機(jī)結(jié)合的趨勢開始出現(xiàn)。1954年,在美國喬治敦大學(xué)所進(jìn)行的世界上首次機(jī)器翻譯試驗,標(biāo)志著計算機(jī)科學(xué)與語言學(xué)的結(jié)合已經(jīng)起步。在這一研究領(lǐng)域,立足于不同的學(xué)科視角或知識結(jié)構(gòu),先后出現(xiàn)了一系列名稱術(shù)語,如“語言工程”、“語言工程學(xué)”、“自然語言的計算機(jī)處理”(工科視角)、“語言信息處理”(信息學(xué)視角)、“數(shù)理語言學(xué)”(數(shù)學(xué)視角)等等。20世紀(jì)60年代以后,計算機(jī)和語言學(xué)的結(jié)合逐步深入到語言學(xué)的各個領(lǐng)域,形成了包括計算語音學(xué)、計算詞匯學(xué)、計算語法學(xué)、計算語義學(xué)等分支學(xué)科在內(nèi)的計算語言學(xué)(computationallinguistics)。其中“計算語音學(xué)”等名詞,雖然計算語言學(xué)界沒人提過,因為已經(jīng)存在著“言語識別”、“言語合成”等計算機(jī)應(yīng)用專業(yè)術(shù)語,但是從“語言工程學(xué)”到“計算語言學(xué)”的術(shù)語演變中,透露出“語言學(xué)立場”在這門交叉學(xué)科中的日益強(qiáng)化。雖然目前的計算機(jī)運算速度已經(jīng)可以滿足語言信息處理的技術(shù)要求,但是之所以“人—機(jī)對話”尚未實現(xiàn),其“瓶頸”就在于現(xiàn)有的語言研究成果無法滿足計算機(jī)處理的要求。歸根結(jié)底,語言信息處理的最終目標(biāo)就是“計算機(jī)模擬語言能力工程”或“語言能力移植計算機(jī)工程”。探索語言能力的性質(zhì)和描寫語言系統(tǒng)的結(jié)構(gòu),這些艱巨性工作還得由語言學(xué)家先來完成。語言信息處理或計算語言學(xué)務(wù)必以語言學(xué)為本而以計算機(jī)為用。語言學(xué)家必須具備“數(shù)字化”意識,了解計算機(jī)需要怎樣的語言描寫成果,然后才可能將研究目標(biāo)對準(zhǔn)語言工程。

迄今為止,正如許多發(fā)展中學(xué)科一樣,“計算語言學(xué)”的定義尚無一致認(rèn)定,歸納起來蓋有四種觀點(侯敏1999,p.2—p.6):

第一種,計算語言學(xué)是以計算機(jī)為工具研究語言學(xué)。侯敏認(rèn)為,任何一個學(xué)科在使用工具方面都是自由的,使用不同工具研究一個學(xué)科會帶來不同特點,但不因為使用了新工具就產(chǎn)生了新學(xué)科。雖然并不排除新工具的使用沒有導(dǎo)致新學(xué)科的產(chǎn)生,但同樣不能否認(rèn)工具的變革有可能帶來學(xué)科體系的革命,以致于產(chǎn)生新的分支或交叉學(xué)科?,F(xiàn)代自然科學(xué)之所以能夠建立,無疑得益于望遠(yuǎn)鏡和顯微鏡的應(yīng)用,前者打開了人類認(rèn)知的宏觀世界之門,后者打開了人類認(rèn)知的微觀世界之門。望遠(yuǎn)鏡和顯微鏡帶來的不僅僅是“這一個工具”,而是人類認(rèn)知方式的巨大變革,從而引起了天文學(xué)、生物學(xué)等自然科學(xué)的一系列革命,產(chǎn)生了一系列新學(xué)科。因此,問題在于如何使用新的工具或新認(rèn)知方式。如果僅僅利用計算機(jī)做語言研究的統(tǒng)計工具,也許不會產(chǎn)生新的分支學(xué)科,但是利用計算機(jī)作為語音分析和合成的工具,則形成了計算語音學(xué)。

第二種,計算語言學(xué)是把語言學(xué)成果應(yīng)用于計算機(jī)。侯敏認(rèn)為,計算機(jī)的應(yīng)用領(lǐng)域幾乎沒有限度,什么學(xué)科的成果都可以在計算機(jī)上應(yīng)用,因此在計算機(jī)上應(yīng)用語言學(xué)的研究成果不足以建立新學(xué)科。問題不在于在什么學(xué)科的成果能在計算機(jī)上應(yīng)用,而在于在計算機(jī)上所應(yīng)用的成果的性質(zhì)。與其他學(xué)科研究對象的性質(zhì)迥然不同,語言學(xué)科的研究對象——語言——是人類最重要的認(rèn)知符號系統(tǒng)和知識載體,因此面向信息處理的語言成果應(yīng)用于計算機(jī)足以建立新的學(xué)科。以往的語言學(xué)研究是面向人際交流,而計算語言學(xué)研究是面向人機(jī)交流,兩者具有截然不同的性質(zhì)。公務(wù)員之家版權(quán)所有

第三種,計算語言學(xué)是研究語言中的可計算問題。侯敏認(rèn)為,雖然利用可計算理論研究語言符號是建立了一個新學(xué)科,但是這種說法偏于保守,沒有把計算語言學(xué)推進(jìn)語言學(xué)發(fā)展的作用充分體現(xiàn)出來。問題在于面向信息處理的計算語言學(xué)研究,其顯著特點就是語言的可計算性?!巴七M(jìn)語言學(xué)發(fā)展的作用”這不是計算語言學(xué)的定義,強(qiáng)調(diào)“研究語言中的可計算問題”未必保守,反而突出了計算語言學(xué)的顯著特點。

第四種,計算語言學(xué)是建立基于計算機(jī)科學(xué)理論的語言學(xué)理論。侯敏認(rèn)為,把計算機(jī)科學(xué)的基本思想和方法引進(jìn)語言學(xué)領(lǐng)域,不但可以產(chǎn)生許多應(yīng)用性課題,而且能夠促使研究者從新的角度觀察語言學(xué),建立與傳統(tǒng)語言學(xué)不同的理論。因此計算語言學(xué)是一種基于計算機(jī)科學(xué)理論所建立的語言學(xué)理論。問題在于:一方面計算語言學(xué)需要理論但本質(zhì)上不是一門理論科學(xué),同時并非所有的計算語言學(xué)家都樂意或適合從事理論研究,另一方面計算語言學(xué)的應(yīng)用性質(zhì)決定了研究成果的技術(shù)性特征,而絕大多數(shù)人可能更適合于——實際上也更需要——語言信息處理的技術(shù)性研究。

第一種和第二種是歐洲流行的廣義定義,主張計算語言學(xué)是計算機(jī)和語言學(xué)的交叉,第三種和第四種是盛行于美國的狹義定義,主張計算語言學(xué)是計算機(jī)科學(xué)和語言學(xué)的交叉。也就是說,前者僅僅把計算機(jī)當(dāng)成語言學(xué)研究中的一種新工具應(yīng)用,而后者強(qiáng)調(diào)計算機(jī)學(xué)科的要求和理論對語言學(xué)的影響。陳小荷(2001)認(rèn)為,計算語言學(xué)就是以計算機(jī)為手段來研究自然語言,較嚴(yán)格的定義是“通過建立形式化的計算模型來處理自然語言的一門科學(xué)”。要建立形式化的計算模型來處理自然語言,首先要完成適合于計算機(jī)使用的自然語言系統(tǒng)的描寫。這一面向“人—機(jī)對話”的機(jī)用語言系統(tǒng),與以往面向“人—人對話”的日常語法系統(tǒng)不同。因此機(jī)用語言系統(tǒng)的描寫應(yīng)當(dāng)納入計算語言學(xué)的研究范圍,即完成了“機(jī)用語言系統(tǒng)”以后,才能“建立形式化的計算模型”使計算機(jī)獲得自然語言能力。綜上所論,計算語言學(xué)可以定義為——利用計算機(jī)作為工具研究語言、研究機(jī)用自然語言系統(tǒng)、研究語言系統(tǒng)或語言能力的計算性,同時建構(gòu)基于計算機(jī)應(yīng)用、數(shù)學(xué)模型、認(rèn)知科學(xué)等相關(guān)學(xué)科基礎(chǔ)之上的語言理論的新學(xué)科。姑且圖示如下:

工具性:利用計算機(jī)研究語言

計算語言學(xué)描寫性:研究機(jī)用自然語言系統(tǒng)

技術(shù)性:研究語言系統(tǒng)的計算性

理論性:建構(gòu)新的語言學(xué)理論

雖然計算語言學(xué)的關(guān)鍵任務(wù)是研究人機(jī)之間的語言交際問題,即“如何教計算機(jī)學(xué)會說話”。但是從本質(zhì)上來說,研究語言系統(tǒng)或語言能力的可計算性和利用計算機(jī)工具來研究語言是相通的,只是前者探索的是適合于人-機(jī)對話的語言能力,而后者討論的是適合于人-人對話的語言規(guī)則。

依據(jù)目前的語言研究成果和信息處理技術(shù)路線,計算語言學(xué)包括應(yīng)用基礎(chǔ)研究、應(yīng)用研究和理論研究三個方面。(陳小荷2001)應(yīng)用基礎(chǔ)研究指語言處理的基本技術(shù)研究?,F(xiàn)階段的主要進(jìn)展是:1.自動分詞技術(shù):這是計算機(jī)理解自然語言的第一步。目前漢語書面語自動分詞的正確率達(dá)到95%以上。2.詞語特征標(biāo)注技術(shù):現(xiàn)階段的詞語特征包括詞性和義項,這是句法結(jié)構(gòu)理解的基礎(chǔ)。兩種標(biāo)注可采用相似的計算模型但后者要復(fù)雜得多,目前尚無大規(guī)模的實驗結(jié)果報道。3.語句分析技術(shù):句法結(jié)構(gòu)和語義結(jié)構(gòu)是自然語言理解的關(guān)鍵技術(shù),目前分析真實文本句子的正確率僅在40%左右。4.語料庫建設(shè)技術(shù):語料庫是為特定目的而收集的言語作品集,包括語料處理和檢索。研究語句分析需要存放句法分析樹的“樹庫”,但目前的漢語語料庫加工程度較低,所建立的樹庫很少且規(guī)模不大。5.語言知識庫建設(shè)技術(shù):語言知識包括詞匯知識、語法知識和語義知識等,事實性和規(guī)則性知識分別放在機(jī)讀詞典和規(guī)則庫中。語句分析技術(shù)之所以不能取得突破,主要原因就是目前尚無適合于中文信息處理的大規(guī)模語言知識庫。

應(yīng)用研究指自然語言處理的應(yīng)用工具的研制?,F(xiàn)階段的熱點主要有:1.機(jī)器翻譯工具:半個多世紀(jì)過去了,機(jī)器翻譯的質(zhì)量仍然令人失望?,F(xiàn)在通行的是有限范圍翻譯和機(jī)器輔助翻譯。2.自動文摘工具:微軟公司的詞處理器word有用于英語的文摘功能,哈工大研制的hit-863i型中文自動文摘系統(tǒng)可按用戶設(shè)定的比例壓縮原文。3.自動校對工具:現(xiàn)在存在的主要問題是誤報率過高,并且深層錯誤難以發(fā)現(xiàn)。4.信息檢索工具:有主題詞檢索、全文檢索兩種。前者需要預(yù)先有一個主題詞表;后者任意字符串都可成為檢索對象。另外從語料庫中自動獲取各種知識的“信息抽取”在線工具的研究剛剛興起。5.言語識別和言語合成工具:言語識別(或語音識別)可分為詞語識別(計算機(jī)口語命令)、有限詞匯識別(電話訂票)和無限詞匯識別(將成段說話轉(zhuǎn)為文字)。言語合成(或語音合成)指用計算機(jī)將書面語轉(zhuǎn)換為口語即“文語轉(zhuǎn)換”,存在的問題主要是斷詞不當(dāng)且語調(diào)刻板,仿真度亟待提高。

然而,如果以為應(yīng)用性特征明顯的計算語言學(xué)僅僅是技術(shù),則未免失之于偏頗。計算語言學(xué)有著相應(yīng)的理論研究,大致包括人工智能理論(含計算模型理論。目前的人工智能研究,主要還是集中在人工體能、人工技能。在語言能力移植電腦過程未取得實質(zhì)性進(jìn)展以前,還談不上真正的人工智能)和語言學(xué)理論兩個方面。例如計算機(jī)如何或是否可以模擬人腦和語言能力,如何尋找合適的語言計算模型等,就是計算語言學(xué)家特別關(guān)心的理論問題。除此之外,還有對自然語言本質(zhì)屬性的重新認(rèn)定、面向信息處理的機(jī)用語法學(xué)理論、語言系統(tǒng)與數(shù)學(xué)模型的關(guān)系、語言結(jié)構(gòu)和數(shù)理邏輯的關(guān)系、語言符號的數(shù)字化可能性及其局限性、語言的異質(zhì)性和受限性或語域理論、元語言理論和研究方法等一系列問題。總體而言,一方面,由于牽涉的學(xué)科太多,計算語言學(xué)的理論研究還相當(dāng)薄弱,另一方面,與科技發(fā)展息息相關(guān)的計算語言學(xué)不容過多地沉醉于理論探索。計算語言學(xué)的強(qiáng)大發(fā)展動力植根于鮮明的應(yīng)用性,必須通過實踐推動理論探索。

三、語言系統(tǒng)的計算機(jī)模式化要求

從語言學(xué)家的立場出發(fā),語言系統(tǒng)的計算機(jī)模式化要求,就是要了解計算機(jī)需要怎樣的語言描寫成果,傳統(tǒng)語言學(xué)(此處指非面向語言信息處理的語言學(xué))的研究是經(jīng)驗描寫解釋型,而計算語言學(xué)的研究是實驗操作技術(shù)型,自然語言系統(tǒng)要能進(jìn)行操作技術(shù)化處理,首先必須實現(xiàn)語言的計算機(jī)模式化。馮志偉(1999,p.215)認(rèn)為自然語言處理一般應(yīng)經(jīng)過三個過程:1.形式化,將所研究的自然語言問題以一定的數(shù)學(xué)形式表示出來;2.算法化,把自然語言的數(shù)學(xué)形式轉(zhuǎn)換為算法形式;3.程序化,根據(jù)自然語言的算法形式編寫計算機(jī)程序。侯敏(1999,p.30)認(rèn)為語言系統(tǒng)的形式化或計算機(jī)模式化必須滿足三個要求:1.高度抽象化,即從語言現(xiàn)象中抽象出一般規(guī)則;2.元語言的形式化,即采取形式邏輯、數(shù)學(xué)公式、程序語言等形式語言作為元語言;3.運用過程的嚴(yán)密化,即運用過程必須具有數(shù)學(xué)與邏輯的嚴(yán)密性。

袁毓林(1993)認(rèn)為形式語言至少具有三個特點:基本單元的明確性、基本運算和基本關(guān)系的明確性、運算優(yōu)先級別的明確性,但是自然語言在這三方面皆不明確。具體而言,1.語法范疇的邊界不明,例如語素、詞和詞組之間、詞類之間的界限不明;2.結(jié)構(gòu)關(guān)系難以定義,通常所說的結(jié)構(gòu)關(guān)系,如主謂、動賓等往往很難明確界定;3.層次關(guān)系不外顯,人們通常根據(jù)語感和語境等來識別結(jié)構(gòu)層次。侯敏(1999,p.36—40)不贊同這種分析,針鋒相對地提出:1.可以根據(jù)實際需要或應(yīng)用目的來確立詞項或劃分詞類;2.結(jié)構(gòu)關(guān)系分析需要深入到語義平面;3.形式語法已經(jīng)給出了體現(xiàn)層次的結(jié)構(gòu)樹,在分析歧義結(jié)構(gòu)中可加入語義限制,至于有些連人都解決不了的層次歧義結(jié)構(gòu)也不必要求計算機(jī)解決。侯敏的觀點是“理論追求的是完美,工程追求的是適用”,避開理論困難而采取工程方法,可以建立一個語言分析的近似模型。

所謂“語法范疇的邊界不明”,主要是因為這些“范疇”的設(shè)置從某種程度上肢解了語言事實;所謂“結(jié)構(gòu)關(guān)系難以定義”,主要是因為這些“結(jié)構(gòu)”難以反映語言的本質(zhì)結(jié)構(gòu);而所謂“層次關(guān)系不外顯”,恰恰是語言結(jié)構(gòu)的特點之一。這些探索和爭論,實際上反映了三個根本性的問題:1.漢語結(jié)構(gòu)語法學(xué)中長期存在的一些困擾,不僅是套用西方語法學(xué)框架框范漢語事實所產(chǎn)生的齟齬,而且也是語形語法學(xué)自身無法克服的固有問題。幾千年來的西方語形語法學(xué)研究之所以能夠存在,就是因為人腦在發(fā)育過程中逐步自建構(gòu)了與認(rèn)知能力協(xié)同發(fā)展的語義結(jié)構(gòu)網(wǎng)絡(luò),為語形語法規(guī)則提供了語義選擇清單與路徑。雖然這些語形語法規(guī)則在人際交流中可以使用,但是在語言能力的計算機(jī)移植中卻頓時陷入困境,因為計算機(jī)不存在語義網(wǎng)絡(luò)結(jié)構(gòu)的自建構(gòu)功能,缺少語義激活路徑。根據(jù)語形語法規(guī)則,計算機(jī)造出來的符合自然語句標(biāo)準(zhǔn)的概率極低,多為與對象世界不存在一致性的隨機(jī)詞語串。2.計算語言學(xué)所要求的自然語言的形式化,是基于計算機(jī)運算模式的語言研究成果。移植進(jìn)計算機(jī)的“定域受限語言系統(tǒng)”和自然語言系統(tǒng)并不完全相等,嚴(yán)格說來,只是一種接近自然語言的計算機(jī)模式化符號系統(tǒng)。3.計算語言學(xué)的理論和方法,必須建立在語言的本質(zhì)共性語義性和和計算機(jī)數(shù)字化運算模式的基礎(chǔ)之上。如果對人類語言的認(rèn)知語義性沒有足夠的認(rèn)識,依然安居于語形語法窠臼而遲遲未能建構(gòu)語義結(jié)構(gòu)網(wǎng)絡(luò),語言信息處理的目標(biāo)則不可能實現(xiàn)。

中國信息科學(xué)界有一種看法,計算機(jī)對于形態(tài)結(jié)構(gòu)的印歐語言處理具有良好的支撐能力,而對中文信息處理則不然(陳力為2000)。之所以計算機(jī)對印歐語文信息處理具有良好的支撐能力,是因為印歐語文結(jié)構(gòu)類型便于建立計算機(jī)處理模型。從歷史上來看,谷登堡印刷術(shù)和打字機(jī)鍵盤都是基于字母的簡約性而發(fā)明的。一方面,字母系統(tǒng)的符號簡約性便于進(jìn)行數(shù)據(jù)化處理,漢字符號的繁復(fù)性難以進(jìn)行數(shù)據(jù)化處理;另一方面,印歐語的形態(tài)變化為形式化提供了識別標(biāo)志,而漢語的孤立結(jié)構(gòu)卻沒有明顯的標(biāo)志。依據(jù)現(xiàn)在的計算機(jī)處理模型,漢字的繁復(fù)性和漢語的非形態(tài)性必然導(dǎo)致中文信息處理中存在一些特殊問題:1.中文信息處理的第一個“瓶頸”。漢語的常用漢字?jǐn)?shù)量繁多,漢字需要解決鍵盤輸入、內(nèi)部代碼、漢字識別和顯示、程序語言的數(shù)據(jù)類型、數(shù)據(jù)庫的排序和檢索等一系列問題。2.中文信息處理的第二個“瓶頸”。印歐書面語采取詞分寫形式,而漢語書面語采取單字連寫形式。由于采用西方詞法學(xué)框架,因此必須研制自動分詞技術(shù)。假定考慮以“字”和“字義塊”等作為漢語的結(jié)構(gòu)單位,自動分詞技術(shù)將相應(yīng)改為“字義塊”切分技術(shù)。3.印歐語的同音詞較少,而漢語的同音字較多,同義詞和量詞也十分豐富,這些都給中文信息處理帶來必須解決的難題。4.印歐語可以借助實詞的形態(tài)變化即在詞法層面上進(jìn)行處理,漢語只有在句法和語義層面上進(jìn)行處理,需要把語序和虛字的語法信息歸納出來再讓計算機(jī)掌握。5.印歐語的句子結(jié)構(gòu)是以動詞性詞語為核心的“主—謂”結(jié)構(gòu),而漢語的句子結(jié)構(gòu)是以體詞性詞語為核心的“話題—說明”結(jié)構(gòu)。印歐語的句子結(jié)構(gòu)劃一而句界分明,漢語的句子結(jié)構(gòu)多樣、成分缺省并且前后句義纏綿。

如果說語言系統(tǒng)是一座“冰山”,那么以上這些語言信息處理中遇到的難題還都是語言系統(tǒng)浮在海水上面的那一小部分,真正的障礙是隱沒在海水下面的那一大部分。無論哪一種結(jié)構(gòu)類型的自然語言系統(tǒng)的計算機(jī)模擬,包括形態(tài)語言,遲早會無可避免地碰撞上堅硬實在而又難以捉摸的“語義結(jié)構(gòu)”。語言研究需要敢于在冰海下持續(xù)探索“語義結(jié)構(gòu)”的潛水員。從自然語言系統(tǒng)來說,要讓計算機(jī)理解語言通常認(rèn)為必須使電腦能夠解決三個問題:1.消除自然語言的一詞多義;2.揭示自然語言的潛在意義;3.掌握自然語言的聯(lián)想推理。這些問題都離不開語義分析,而語義分析技術(shù)尚處于探索階段。(侯敏1999,p.247)對于第一個問題,一詞多義可給出不同義項的清單。對于第二個問題,給出每一義項的顯性和潛性語義特征清單。對于第三個問題,給出義項或義場之間的語義關(guān)聯(lián)模式。由此可見,必須在以往的經(jīng)驗語感法和先驗演繹法基礎(chǔ)上,引進(jìn)實驗歸納法和結(jié)構(gòu)優(yōu)化法,消除語義“泥潭”情結(jié),潛心于冰海中的語義“冰山”,才能逐步建構(gòu)造語義結(jié)構(gòu)網(wǎng)絡(luò)。

就世界各種語言來說,語言的計算機(jī)理解的深層次難點可能還在于:1.至今尚未揭示出人類理解語言的機(jī)制,計算機(jī)只能局部模擬自然語言理解的某些簡單過程;2.至今尚未完成人類理解語言所憑借的知識系統(tǒng),建立人類進(jìn)行語言表達(dá)的完整理論,計算機(jī)尚無從掌握人類語言的知識系統(tǒng)以及語言表達(dá)機(jī)制;3.至今尚未對人類語言所兼具的規(guī)則性和離散性、精確性和模糊性做出定量和定性的系統(tǒng)分析,計算機(jī)尚無從掌握語言系統(tǒng)的復(fù)雜性和語言使用的隨機(jī)性。(傅永和1999,p.238—239)既然語言的理解和表達(dá)是一個以知識系統(tǒng)為基礎(chǔ)的綜合性行為,因此語言系統(tǒng)的計算機(jī)模擬必須進(jìn)行跨學(xué)科的研究,特別需要語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)和認(rèn)知科學(xué)以及百科知識學(xué)者的合作。與側(cè)重于面對自然人語言學(xué)習(xí)的語形語法學(xué)不同,如果面向語言信息處理,那么就需要以計算機(jī)智能模式來重新確定語言學(xué)的理論基礎(chǔ)、研究重點和研究方法。

面向自然語言處理的計算語言學(xué)理論基礎(chǔ),目前主要有基于語言規(guī)則性的理性主義理論(即先驗主義)和基于語言隨機(jī)性的經(jīng)驗主義理論。依據(jù)理性主義的語言學(xué)理論主要有:短語結(jié)構(gòu)語法(psg)、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(atn)、配價語法(vg)、格語法(cg)、范疇語法(cg)、概念從屬理論(cd)、多叉多標(biāo)記樹形圖分析法(mmt)、詞匯功能語法(lfg)和蒙塔古語法(mg)等。這些理論和方法,因為從“理性”出發(fā),因此不可能反映以感受性為基礎(chǔ)的自然語言的真實面貌,其缺失已經(jīng)日益明顯。為了克服理性主義理論的不足,采取經(jīng)驗主義理論處理大規(guī)模真實文本的語料庫語言學(xué)應(yīng)運而生。在收集語言資源或建立語料庫的基礎(chǔ)上,運用統(tǒng)計方法進(jìn)行語言信息處理,語言交際過程的隨機(jī)性由此得到關(guān)注。面對傳統(tǒng)語形語法學(xué)對自然語言過程的不相適應(yīng)和語義研究的復(fù)雜性,甚至有人嘗試撇開語言學(xué)家的語言研究,以借助語料庫逐步實現(xiàn)自然語言系統(tǒng)模擬。雖然借助語料庫可以解決語言信息處理的一些問題,但是僅僅依賴語料庫實現(xiàn)自然語言系統(tǒng)模擬注定此路不通。因為自然語言不是一個語料倉庫,而是一個語義和語形復(fù)合性結(jié)構(gòu)系統(tǒng)。無論是理性主義還是經(jīng)驗主義,都必須意識到:語言信息處理中所處理的是定域受限語言。這一研究的理論基礎(chǔ)既不應(yīng)是純粹基于語言規(guī)則性的理性主義,也不應(yīng)是完全依賴語言隨機(jī)性的經(jīng)驗主義,而應(yīng)是突出語言受限性的實驗主義。世界語言學(xué)的發(fā)展經(jīng)歷了從經(jīng)驗科學(xué)到先驗科學(xué)的漫長過程,計算機(jī)的發(fā)明必將促使當(dāng)代語言學(xué)成為一門實驗科學(xué)。強(qiáng)調(diào)計算語言學(xué)的實驗主義,并非一概否定理性主義和經(jīng)驗主義,而是要在實驗主義的基礎(chǔ)上運用理性和經(jīng)驗的理論方法。

自然語言處理的語言理論,目前主要有基于語形的語言理解系統(tǒng)和基于語義的語言理解系統(tǒng)。前者是以語形語法研究的成果為出發(fā)點,從句法形式入手;后者是以語義研究的成果為出發(fā)點,從語義關(guān)系入手。兩種理解系統(tǒng)在文本輸入、預(yù)處理和自動分詞等早期環(huán)節(jié)上基本相同,不同的是基于語形的理解系統(tǒng)先進(jìn)行詞法和句法分析,后進(jìn)行語義和語用分析,基于語義的理解系統(tǒng)先進(jìn)行語義分析和語義結(jié)構(gòu)生成,后進(jìn)行目標(biāo)語的形式組合。生成語義學(xué)認(rèn)為句子的句法特點取決于語義,語義部分才具有生成能力。認(rèn)知語義學(xué)把意義看作一個植根于知識網(wǎng)絡(luò)和信仰系統(tǒng)中的認(rèn)知結(jié)構(gòu),理解一個語言形式的意義必須激發(fā)相關(guān)認(rèn)知領(lǐng)域中的其他認(rèn)知結(jié)構(gòu)。既然語形結(jié)構(gòu)只是語義結(jié)構(gòu)的表層投影,既然基于語義的理解系統(tǒng)才符合語言的生成機(jī)制,既然語義處理才是語言信息處理的關(guān)鍵,那么只有基于語義的理解系統(tǒng)才能滿足計算機(jī)對自然語言的理解和生成。

李葆嘉:論語言科學(xué)與語言技術(shù)(下)

四、人腦語言和電腦語言的性質(zhì)異同

根據(jù)與“人腦語言學(xué)”的對應(yīng)關(guān)系,計算語言學(xué)也可以稱之為“電腦語言學(xué)”。從人腦角度出發(fā),電腦語言學(xué)的研究是將人腦語言系統(tǒng)移植電腦工具的電子工程;從電腦角度出發(fā),電腦語言學(xué)是電腦程序模擬人腦語言能力的仿生工程。

不管是系統(tǒng)移植還是能力仿生,首先必須認(rèn)識到人腦和電腦的異同。1.構(gòu)造機(jī)制的不同:人腦是生物神經(jīng)系統(tǒng),具有生物認(rèn)知機(jī)制,而電腦是電子計算系統(tǒng),具有電子運算程序。2.伴隨情感的有無:人腦具有驅(qū)動感覺、思維和表達(dá)進(jìn)行的情感性,而電腦只具有執(zhí)行程序運算的機(jī)械性。3.經(jīng)驗基礎(chǔ)的有無:人腦具有以感受性為特征的經(jīng)驗基礎(chǔ)以及知識系統(tǒng),而電腦即使配備了一定的知識背景,也不可能具有人腦一樣的認(rèn)知經(jīng)驗基礎(chǔ)。4.認(rèn)知理性的異同:人腦的感受和認(rèn)知可以區(qū)別為非語言層次和語言符號層次,非語言層次包括直覺和感覺,語言符號層次包括知覺(游移性印象)、象覺(清晰性意象)和統(tǒng)覺(邏輯性抽象)。電腦的認(rèn)知理性只能夠定位于語言符號的象覺和統(tǒng)覺層次,難以具備豐富的認(rèn)知層級系統(tǒng)。5.交流對象的異同:人腦的交流對象分別為對象世界和人際關(guān)系之間,具有交流的二重性;而電腦的交流對象只有執(zhí)行程序的人或“人—機(jī)對話”的一重性,所謂“機(jī)—機(jī)對話”的實質(zhì)仍然是“人—機(jī)對話”的連網(wǎng),互聯(lián)網(wǎng)交流仍然是執(zhí)行者之間的交流。由于計算機(jī)永遠(yuǎn)不可能直接認(rèn)知人所面對的對象世界,必須以人類的認(rèn)知為中介,因此計算機(jī)永遠(yuǎn)不可能超越人類的智慧,計算機(jī)統(tǒng)治人類世界永遠(yuǎn)是一種不必要的擔(dān)憂。

其次,必須認(rèn)識人腦語言系統(tǒng)和電腦語言系統(tǒng)的差別。人腦語法或自然語言法則是在歷史上逐步形成的,具有隨機(jī)性、規(guī)約性、類推性和耗散性特點;而電腦語法或機(jī)用語言法則只是自然語法的再抽象化和再規(guī)范化,具有受限性、是否性、程序性和封閉性的特點。即使將來研究出適合于語言信息處理的機(jī)用語法,也不等同于自然語法。電腦所能獲得的語言能力,只是自然語言的一部分或有限語言能力。因此,移植進(jìn)電腦的語言系統(tǒng)必須進(jìn)行界定:1.定域化語言:因為人腦語言是一個可以分為不同語域的復(fù)合性層級系統(tǒng),所以必須首先確定電腦語言與人腦語言的對應(yīng)層級,最佳選擇就是規(guī)范性的日常語域。2.受限化語言:只能采取有限網(wǎng)絡(luò)模式,才能將自然語言裁剪成適合計算機(jī)運算模式的機(jī)用語言。3.形式化語言:必須將定域受限語言的語義結(jié)構(gòu)和語形規(guī)則分別形式化。4.算法化語言:借助一定的數(shù)學(xué)模型,將形式化語義和語形系統(tǒng)數(shù)字化。5.編程化語言:依據(jù)一定的程序語言,將數(shù)字化語義和語形系統(tǒng)編程化。

語言信息處理的目標(biāo),就是在受限性語言層面上逐步實現(xiàn)人—機(jī)對話。歸根結(jié)底,自然語法≠電腦語法,電腦語言系統(tǒng)是通過建立形式化的計算模型進(jìn)行處理的定域自然語言系統(tǒng)。電腦的運算速度可以遠(yuǎn)遠(yuǎn)超過人腦的思維速度,但是電腦不可能具備人的能動性認(rèn)知行為。語形語法學(xué)面對是人—人對話,人們在語言習(xí)得過程中不知不覺地形成了建立在認(rèn)知能力之上的語義結(jié)構(gòu)網(wǎng)絡(luò),為語形語法規(guī)則提供了一份語義可選性清單。語言信息處理面對的是人—機(jī)對話,而語言“白板”的計算機(jī)并不具備這份語義可選性清單。語形語法規(guī)則,在教計算機(jī)如何說話的過程中頓時陷入困境。幾千年來的西方語法學(xué)之所以能夠延續(xù)下來,全賴人們具有基于認(rèn)知能力的語義結(jié)構(gòu)網(wǎng)絡(luò)的自建構(gòu)功能。反之,正是這一語義結(jié)構(gòu)網(wǎng)絡(luò)的存在,致使以往的語言學(xué)家誤以為語形語法就是語法的全部或主要,而將語義結(jié)構(gòu)法則長期放逐出語法學(xué)領(lǐng)域。

自然語言系統(tǒng)的計算機(jī)處理對西方具有兩千多年傳統(tǒng)的語形語法學(xué)提出了根本性的挑戰(zhàn),也為東西方語言學(xué)的合流帶來了新的契機(jī)?;仡?0世紀(jì)東西方語言學(xué)合流的歷程,之所以出現(xiàn)西方語法學(xué)框架和漢語事實的錯位,是因為合流基點的選擇陷入誤區(qū)。西語具有豐富的語形結(jié)構(gòu)(這里指形態(tài)變化)而漢語基本沒有(漢語主要依靠語序、虛詞、韻律和語氣,另外對語境或語用具有極大依賴性)。選擇建立在形態(tài)變化基礎(chǔ)上的西方語法學(xué)框架作為合流的基點,必然導(dǎo)致這一過程的曲折。反思的結(jié)果顯示,東西方語言學(xué)合流的基點應(yīng)當(dāng)是建立在人類語言所共有的語義結(jié)構(gòu)基礎(chǔ)上的語義語法學(xué)理論。隨著對語言能力研究的進(jìn)一步深入和語言信息處理對傳統(tǒng)語言學(xué)的挑戰(zhàn),傳統(tǒng)語義研究在新的形勢下得以復(fù)活。隨著世界語言學(xué)從20世紀(jì)60年代以來出現(xiàn)了從語形研究向語義研究的轉(zhuǎn)移,東西方語言學(xué)研究的合流將在新的基點上逐步實現(xiàn)。

五、面向語言系統(tǒng)模擬的語義語法學(xué)

盡管喬姆斯基理論認(rèn)識到語言形式化的重要性,但生成語義學(xué)才是語言研究本體的轉(zhuǎn)向。雖然配價語法和格語法的引進(jìn)和對漢語語法意合性的認(rèn)定,促使語義句法研究成為當(dāng)代中國語法學(xué)界的熱點,但迄今為止,中文信息處理應(yīng)用系統(tǒng)自覺而全面地運用語義研究成果的鮮見。這一現(xiàn)狀的表象似乎是語義研究成果不多,其根源卻在于沒有徹底認(rèn)識到——必須從人類(不限于印歐族群)普通(不限于歐洲唯理主義)語法(不限于形態(tài)語言)的高度,來解決語言理論和研究方法的創(chuàng)新。無論是語言信息處理,還是語言機(jī)制揭示,漢語研究都需要既能反映漢語個性又植根于人類語言共性的原創(chuàng)理論。

人類的認(rèn)知表現(xiàn)為對象世界的符號化(認(rèn)知對象的符號化形成語義單元)、范疇化(語義單元的范疇化形成語義類別)和關(guān)聯(lián)化(語義類別的關(guān)聯(lián)化形成語義結(jié)構(gòu))。西方語言中的詞法范疇原型是先民通過語音形式所表現(xiàn)出來的認(rèn)知范疇或語義類別。語言的形態(tài)標(biāo)記性、單位分布性和結(jié)構(gòu)層次性都是語義類別關(guān)聯(lián)化在表達(dá)層面的投影或者制約。一方面,隨著人們認(rèn)知的發(fā)展,反映原始認(rèn)知足跡的形態(tài)范疇(如原始生物觀的“性”、原始計算法的“數(shù)”)的價值日益消解;另一方面,隨著語言系統(tǒng)的演化,表現(xiàn)原始認(rèn)知足跡的語法手段又不可避免地合并、弱化和喪失。語序、功能詞等手段的補(bǔ)償,導(dǎo)致語言結(jié)構(gòu)類型從綜合型向分析型方向嬗變。這一過程證明,原始詞法范疇在句法結(jié)構(gòu)中并不具有充分必要性。一種語言可以沒有詞法形態(tài)變化,但不可能沒有語義結(jié)構(gòu)規(guī)則。不同的自然語言之間之所以可能互譯,其基礎(chǔ)就是存在可互通性語義,盡管結(jié)構(gòu)類型迥然不同。(李葆嘉2001)

由此可見,人類語言的本質(zhì)屬性是語義性,其他屬性都是語義性的派生。人類語言的共性可以概括為:在人類感知對象世界的過程中,神經(jīng)機(jī)制依據(jù)象似性模式促使對象世界語符化,音義一體化的語符具有實體性和范疇性,由此組成的語義結(jié)構(gòu)具有語境性和關(guān)聯(lián)性,語義結(jié)構(gòu)的語境性表現(xiàn)為語用、語義結(jié)構(gòu)的關(guān)聯(lián)性投影為語形,而語義結(jié)構(gòu)模式具有生成性。圖示如下:

神經(jīng)機(jī)制語義實體語境-語用性

象似性認(rèn)知過程語符語義結(jié)構(gòu)生成性

對象世界語音范疇關(guān)聯(lián)-語形性

在自然語言能力移植工程中,計算機(jī)需要的是具有語言本質(zhì)共性的語義結(jié)構(gòu)網(wǎng)絡(luò),由此有必要首先建構(gòu)語義語法學(xué)。所謂“語義語法學(xué)”不是“語義+語法的學(xué)”,而是以語義為研究對象的語法學(xué)。把語義結(jié)構(gòu)的表層投影——語形作為語法研究的純正對象,有悖于語言結(jié)構(gòu)的真實本體。喬姆斯基試圖在語形結(jié)構(gòu)進(jìn)行數(shù)理化描寫的基礎(chǔ)上,建構(gòu)反映語言能力的生成語法體系勢必捉襟見肘。這一初始思路必然導(dǎo)致“拋開語義——深層語義——語義解釋——邏輯表達(dá)——邏輯式”這樣的“不斷革命”。雖然喬姆斯基強(qiáng)調(diào)語言研究的目的在于揭示語言天賦,但依據(jù)其理論思路:普遍語法(研究對象)——語言能力(哲學(xué)基礎(chǔ))——自然主義(學(xué)科性質(zhì))——數(shù)學(xué)方法(方法借鑒)——符號描寫(形式載體)——形式語法(研究成果),顯然缺少人類天賦中最關(guān)鍵的認(rèn)知性語義能力這一環(huán)節(jié)。完全排斥語義的經(jīng)典理論階段,其句法結(jié)構(gòu)規(guī)則必然導(dǎo)致生成出一批語言事實中并不存在的語符串。即使在不得不引進(jìn)語義解釋的標(biāo)準(zhǔn)理論階段,也沒有放棄把形式結(jié)構(gòu)作為句法生成的基礎(chǔ)規(guī)則。然而,任何脫離語義的語法形式化注定流產(chǎn),不可能達(dá)到揭示語言生成機(jī)制或普遍語法的目標(biāo)。

如果說語義語法學(xué)的語言觀強(qiáng)調(diào)人類語言的本質(zhì)共性是語義性,那么語義語法學(xué)的語法觀則突出語義結(jié)構(gòu)是語法的主要研究對象。在歐洲傳統(tǒng)語文學(xué)中,“語法”主要指基于形態(tài)變化的詞法和句法規(guī)則。在歷史比較語言學(xué)時代,“語法”包括語音法則,因此才有“青年語法學(xué)派”之稱。20世紀(jì)的結(jié)構(gòu)主義和描寫主義促使“語法”研究的對象日益窄化。依據(jù)語言是音義符號系統(tǒng)這一論斷,所謂“語法”即語言結(jié)構(gòu)之法,當(dāng)包括語音結(jié)構(gòu)法和語義結(jié)構(gòu)法。在語言系統(tǒng)的第一次劃分中沒有通常所說的“語法”即語形結(jié)構(gòu)法的位置。語形結(jié)構(gòu)是語義結(jié)構(gòu)的表層投射或制約,語形結(jié)構(gòu)法依附于語義結(jié)構(gòu)法。語言系統(tǒng)的音義二分以及相關(guān)研究學(xué)科,圖示如下:

語音分析(生理語音學(xué)、物理語音學(xué))

自然語音解析

語言(語音學(xué))語音結(jié)構(gòu)(音位系統(tǒng)學(xué)、語流節(jié)律學(xué))

符號語形結(jié)構(gòu)(語形語法學(xué))

系統(tǒng)語義投影聚合性義場(詞類)

(語義學(xué))語義結(jié)構(gòu)(語義語法學(xué))

組合性義場(句模)

以往的“語音、詞匯、語法”三分法,迷糊了研究者的視線。雖然語形語法研究在語言交際和語言教學(xué)中具有一定或者相當(dāng)用途,但是從研究角度而言,卻避開了關(guān)鍵的語義結(jié)構(gòu)法則。

人類認(rèn)知的本質(zhì)是對世界圖式的語義符號化,人所認(rèn)識的世界就是存在于語言符號系統(tǒng)中的世界。語義結(jié)構(gòu)網(wǎng)絡(luò)表現(xiàn)為“實體范疇化”(聚合性義場)和“關(guān)系模式化”(組合性義場)的相互交錯。廣義語義不僅包括實體范疇化的詞匯語義和關(guān)系模式化的結(jié)構(gòu)語義,而且包括語境范疇化的語用語義。語法的真實本體或語法研究的切實對象應(yīng)當(dāng)是語義范疇及其關(guān)聯(lián)模式。結(jié)構(gòu)語法和生成語言的不同之處,在于前者強(qiáng)調(diào)“語言系統(tǒng)”,而后者強(qiáng)調(diào)“語言能力”,但其共通之處卻在于皆以語義結(jié)構(gòu)的虛象——語形作為研究實相,始終游離于語法真實本體之外。依據(jù)語形語法學(xué)的有限范疇和簡略框架(詞類劃分、語形成分、短語結(jié)構(gòu)、句子成分等),既難以深入分析句法結(jié)構(gòu),更不可能有效駕馭語言結(jié)構(gòu)的生成機(jī)制。從表達(dá)來說,語義編碼是一切語言編碼的基礎(chǔ),要揭示語言的奧秘必須從語義入手。語形型語言(并非只有語形,而是語形隱含或遮蔽了語義語法)和語義型語言(并非沒有語法,而是沒有形態(tài)變化語法)的研究基礎(chǔ),都應(yīng)是語符的語義性。語義語法學(xué)的語法觀突出語義結(jié)構(gòu),表面上突出漢語的個性特征,實質(zhì)上受制于人類語言的本質(zhì)共性。關(guān)于語形型語言和語義型語言的大致異同,圖示如下:

語形型語言:形態(tài)手段

語義范疇——語義網(wǎng)絡(luò)(知識世界)——元語言(日常認(rèn)知)

語義型語言:非形態(tài)手段公務(wù)員之家版權(quán)所有

人類的語言符號系統(tǒng),本質(zhì)上是一個意義隱喻系統(tǒng)。作為人類認(rèn)知基本能力的隱喻,其更深層次是源于動物性感受的模仿(基于事物的相似性)與借代(基于事物的相關(guān)性)這兩種認(rèn)知能力。關(guān)于語言符號系統(tǒng)的形成大致流程,圖示如下:

神經(jīng)機(jī)制情緒模式

認(rèn)知機(jī)制具體感受元語言(日常認(rèn)知)——語義網(wǎng)絡(luò)(知識世界)

對象世界經(jīng)驗框架

西方語法學(xué)源于古希臘的“語言·哲學(xué)·邏輯”混沌母體,西方哲人的邏輯研究基于思辯性語言活動。因為邏輯的基本單位是概念和命題,因此人們往往把注重語義的語法研究混同于邏輯的研究。漢語實詞的義類劃分不是根據(jù)邏輯意義,而是借助日常語義;漢語句讀之間的語法關(guān)系不是根據(jù)邏輯關(guān)系,而是遵循事理關(guān)系。雖然邏輯規(guī)則是語法規(guī)則的部分再抽象化,但泛邏輯主義卻致使人們誤以為語法規(guī)則都可以邏輯化。自然語言首先具有本能傳情性和日常認(rèn)知性,語言結(jié)構(gòu)法則主要依據(jù)廣泛存在于日常生活中的事理關(guān)系。這一事理關(guān)系包括:時序先后性、空間位置性、主觀因果性、主觀目的性和評估好惡性等等。不是日常語法以思辯邏輯為基礎(chǔ),而是思辯邏輯以日常語法為基礎(chǔ)。同樣,雖然可以借用數(shù)理符號轉(zhuǎn)寫具有算法性的語言結(jié)構(gòu)法則,但不可把語言法則混同于數(shù)理邏輯規(guī)則。

語義語法學(xué)的技術(shù)路線,是從建構(gòu)現(xiàn)代漢語元語言系統(tǒng)到建構(gòu)現(xiàn)代漢語語義網(wǎng)絡(luò)。雖然自然語言信息處理依賴于語義結(jié)構(gòu)的形式化,但是一些語言學(xué)家往往視語義研究成果為“非語法”,并且對其形式化的可能性持懷疑態(tài)度。一方面語義單元不具備語形變化的顯著標(biāo)記,而包含較多的意會性;另一方面語義單元并非沒有范疇標(biāo)準(zhǔn),也具有感受或認(rèn)知的一致性。所謂語義的客觀性和主觀性就是語義的集體認(rèn)同性和個人聯(lián)想性,其本質(zhì)是個體使用的“素單位”和集體認(rèn)同的“位單位”之間的矛盾。語義語法學(xué)的研究對象首先是具有集體認(rèn)同性的“義位”(標(biāo)準(zhǔn)體),然后才有可能是僅具個人使用性的“義素”(義位變體)。盡管語義單元或語元數(shù)量眾多,語義結(jié)構(gòu)關(guān)系復(fù)雜,但它們以潛在的元語言系統(tǒng)為基礎(chǔ)。語義結(jié)構(gòu)網(wǎng)絡(luò)由語元實體和語義關(guān)系組成。同類語元之間具有聚合性語義關(guān)系,異類語元之間具有組合性語義關(guān)系。換而言之,每一語元都具有兩種互相制約著的語義關(guān)系,一是同一義場內(nèi)的各個“義位”之間的“義征”(語義特征)異同,一是不同義場的“義位”之間的“義聯(lián)”(語義關(guān)聯(lián))異同。由此,可以依據(jù)義征和義聯(lián)的異同而建立聚合性義位系統(tǒng)和組合性義聯(lián)系統(tǒng),在兩者基礎(chǔ)上在編織語義結(jié)構(gòu)網(wǎng)絡(luò)。句法結(jié)構(gòu)的形式化應(yīng)當(dāng)是語義結(jié)構(gòu)的形式化,而語義結(jié)構(gòu)的形式化就是義場關(guān)聯(lián)模式。

現(xiàn)代漢語語義語法的基礎(chǔ)研究是建立“現(xiàn)代漢語元語言系統(tǒng)”,這一研究可比喻為“語言基因圖譜分析工程”。其研究思路是:首先歸納出現(xiàn)代漢語詞典中用于釋義的最低限量詞匯,以建構(gòu)釋義元語言系統(tǒng);其次依據(jù)日常語言交際和語言教學(xué)中的用詞,參照釋義元語言以建立詞匯元語言系統(tǒng);再次抽象出義征范疇以建立析義元語言系統(tǒng),完成語義標(biāo)記集。在以上成果基礎(chǔ)上,一方面可以結(jié)合認(rèn)知心理學(xué)和神經(jīng)語言學(xué)的成果進(jìn)一步研究認(rèn)知元語言系統(tǒng),另一方面可以依據(jù)語言信息處理的要求,建立機(jī)用元語言系統(tǒng)。(李葆嘉等2002)

在現(xiàn)代漢語元語言系統(tǒng)這一基礎(chǔ)性工作完成以后,才可以逐步建構(gòu)現(xiàn)代漢語語義結(jié)構(gòu)網(wǎng)絡(luò)。研究程序和主要方法大致如下:1.義征對比法。依據(jù)有限網(wǎng)絡(luò)模型,借助析義元語言系統(tǒng)對義元進(jìn)行形式化描寫即標(biāo)注義征。給出義元在義場內(nèi)的語義特征,其目標(biāo)是建構(gòu)聚合性義場。2.義聯(lián)配比法。依據(jù)有限網(wǎng)絡(luò)模式,對語義符號的配比關(guān)系進(jìn)行形式化描寫即標(biāo)注義聯(lián),在分析和描寫過程中歸納出關(guān)聯(lián)性元語言系統(tǒng)和語義結(jié)構(gòu)關(guān)聯(lián)框架。語義句法的本質(zhì)是相關(guān)義場之間的配比,因此義聯(lián)標(biāo)記體現(xiàn)著義場配比。給出義場之間的語義選擇或語義制約規(guī)則,其目標(biāo)是建立組合性義場。3.語形標(biāo)記法。漢語具有詞序、虛詞和韻律等形式手段。韻律手段屬于語音句法,可姑且不論。漢語的語形大致可以概括為兩種:附著在詞或詞組上的詞語級語形是完構(gòu)成分;附著在句干上的句子級語形是完句成分。在進(jìn)行漢語語形范疇化研究的同時,尋找語義關(guān)聯(lián)和語形成分之間的對應(yīng)性,然后對語形系統(tǒng)進(jìn)行層級性形式化描寫。4.合成建構(gòu)法。在義征、義聯(lián)和語形研究成果的基礎(chǔ)上,通過相關(guān)標(biāo)記的合成以建構(gòu)語義結(jié)構(gòu)句模系統(tǒng)。

“語言能力移植工程”的語言學(xué)部分主要是語義結(jié)構(gòu)網(wǎng)絡(luò)研究。通過建立形式化的計算模型,可以將語義結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)一步形式化、算法化和程序化。語義語法系統(tǒng)研究的每一結(jié)果,都可以也應(yīng)當(dāng)用計算機(jī)操作作為驗證。以往的語法學(xué)研究,除了執(zhí)著于語形研究以外,還有一個根本性的缺憾,就是不具備自然科學(xué)研究中的實驗手段,因此難免經(jīng)驗性、臆斷性和游移性等。采取計算機(jī)作為研究和驗證手段,從而使語法研究具有鮮明的技術(shù)性和可證偽性。人們常說,只有學(xué)會一門外語,人們才真正了解自己的母語。與此同理,只有計算機(jī)掌握了自然語言,人類才深入揭示出自然語言的奧秘。換而言之,根據(jù)語言學(xué)習(xí)對象的不同,可能存在三種教學(xué)語法:一種是母語教學(xué)語法(著重于語形語法,因為人類對語義結(jié)構(gòu)網(wǎng)絡(luò)和語言知識庫具有自建構(gòu)能力),一種是對外語言教學(xué)語法(需要在語形語法的基礎(chǔ)上增加與語言理解相關(guān)的社會文化知識,因為不同語言的語義結(jié)構(gòu)網(wǎng)絡(luò)具有不同的文化性),一種是計算機(jī)模擬語言能力的語法(需要語義語法和語言知識庫,因為計算機(jī)不具備語義結(jié)構(gòu)網(wǎng)絡(luò)自建構(gòu)能力以及與語言理解相關(guān)的知識系統(tǒng)的自學(xué)習(xí)能力)。也只有揭示出語義結(jié)構(gòu)網(wǎng)絡(luò),語法學(xué)研究才能夠在語形語法研究的基礎(chǔ)上取得全面突破,語法形式、語形語法意義和語義語法意義,才能夠全面貫通。

盡管語義研究及其形式化相當(dāng)困難,但是在語義語法學(xué)理論的指導(dǎo)下,根據(jù)定域(語言定域)、定量(詞語定量)、定性(義元定性)、定式(義聯(lián)定式)的“四定”原則逐層實施,自然語言的理解與生成有可能在單句模式系統(tǒng)中首先實現(xiàn)。只要對語言本質(zhì)的探索和人腦語言移植電腦的目標(biāo)不變,就必須穿越語義研究的沼澤地。如果說20世紀(jì)是語形語法學(xué)的世紀(jì),那么可以預(yù)言21世紀(jì)將是語義語法學(xué)的世紀(jì)。

六、語言科技復(fù)合型人才的培養(yǎng)

自然語言的計算機(jī)理解和生成已經(jīng)成為國際語言學(xué)研究的聚焦,語言信息處理的技術(shù)水平已經(jīng)成為當(dāng)前衡量一個國家現(xiàn)代化水平的重要標(biāo)志之一,盡快培養(yǎng)兼通語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)和認(rèn)知科學(xué)的復(fù)合型人才迫在眉睫。據(jù)《美國計算語言學(xué)雜志》1986年統(tǒng)計,全球設(shè)置計算語言學(xué)博士學(xué)位的大學(xué)已有105所,其中美國63所。在英國曼徹斯特大學(xué)已有計算語言學(xué)的學(xué)士和碩士專業(yè)。(侯敏1999,p.27)

中國的機(jī)器翻譯在20世紀(jì)50年代啟動,但由于反復(fù)不斷的政治動亂停滯了近20年。1981年,成立了中文信息學(xué)會。1987年,隸屬于中文信息學(xué)會的計算語言學(xué)專業(yè)委員會成立。通過計算機(jī)專家和語言學(xué)家的努力,已經(jīng)取得語言信息處理的一系列成果。但迄今為止,中國大陸計算語言學(xué)方向的研究生的培養(yǎng),或附屬在漢語言文字學(xué)、語言學(xué)及應(yīng)用語言學(xué)學(xué)位點,或附屬在計算機(jī)應(yīng)用等學(xué)位點,專門性的本科專業(yè)迄今尚無設(shè)置。根據(jù)目前中國高等教育學(xué)科體系,一方面,語言學(xué)和計算機(jī)科學(xué)分屬不同專業(yè),兼通語言學(xué)和計算機(jī)科學(xué)人才的培養(yǎng)如隔重山;另一方面,“中國語言文學(xué)”學(xué)科中,作為學(xué)術(shù)或準(zhǔn)科學(xué)的“語言學(xué)”在前而作為藝術(shù)或教化工具的“文學(xué)”為重,兩者始終捏而不合。

依據(jù)南京師范大學(xué)文學(xué)院的發(fā)展規(guī)劃,2001年4月成立了語言科技研究所,6月成立了語言科學(xué)及技術(shù)系,現(xiàn)在正在建設(shè)一個包括教學(xué)功能、科研功能、開發(fā)功能和交流功能的語言科技實驗中心。在現(xiàn)有專業(yè)目錄內(nèi)增設(shè)的漢語言專業(yè),以“語言科技”為特色,課程設(shè)置以語言學(xué)、計算機(jī)科學(xué)、數(shù)學(xué)和認(rèn)知科學(xué)為四大學(xué)科支柱,2002年開始招收首屆中文信息處理方向的本科生。這一舉措,為多年來倡導(dǎo)的文理工學(xué)科滲透,找到了一個準(zhǔn)確的切入口。語言科技專業(yè)的培養(yǎng)目標(biāo)是:立足當(dāng)代語言科技領(lǐng)域,放眼未來相關(guān)科技前沿,以語言學(xué)與相關(guān)學(xué)科相的結(jié)合為導(dǎo)向,培養(yǎng)有利于促進(jìn)21世紀(jì)科技進(jìn)步和社會發(fā)展的復(fù)合型創(chuàng)新人才。通過堅持不懈的努力,南京師范大學(xué)語言學(xué)學(xué)科點擬在三五年內(nèi)完善“本科生——研究生——博士后”的多層次人才培養(yǎng)體系,建構(gòu)“教育性——科研性——開發(fā)性”的綜合型高等教育基地。

面對信息科技對當(dāng)代語言學(xué)的挑戰(zhàn),“語言科技”新思維應(yīng)運而生。這是一個可以在描寫語言學(xué)、理論語言學(xué)和計算語言學(xué)之間,可以在語言學(xué)和相關(guān)學(xué)科之間,充分發(fā)揮溝通作用并引發(fā)許多思考的新概念。依據(jù)這一新思維,首先建構(gòu)了面向語言工程的語義語法學(xué)理論,并進(jìn)一步將這一工程具體化為“語言基因圖譜分析工程”和“語言能力移植工程”。當(dāng)代信息科技的發(fā)展趨勢表明,研究對象的語義性和研究過程及其成果的技術(shù)化將成為21世紀(jì)的語言學(xué)精神。