生僻字的信息處理研究論文
時間:2022-10-26 08:16:00
導(dǎo)語:生僻字的信息處理研究論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:漢字生僻字的輸入,一直是困擾文史工作者的難題,本文試在前人的研究基礎(chǔ)上,提出一些關(guān)于漢字信息處理的設(shè)想和相關(guān)的解決方案。
關(guān)鍵字:生僻字;字符集;信息處理
漢字的信息處理經(jīng)過多年的摸索,沖破了以前漢字不能進(jìn)入計算機(jī)的迷信,取得了可喜的成績,但離能完全滿足實際使用的需要還有很長一段距離。
我們先回顧一下計算機(jī)中的字庫,然后討論生僻字的信息處理方法。
一、漢字庫發(fā)展簡介
漢字庫通俗地說就是計算機(jī)軟件系統(tǒng)中的漢字倉庫,依據(jù)不同的標(biāo)準(zhǔn),字庫中漢字的數(shù)量是不同的,以前的主要標(biāo)準(zhǔn)有:
1、GB2312漢字編碼字符集
從1975年開始,我國為了研究漢字的使用頻度,進(jìn)行了大規(guī)模的字頻統(tǒng)計工作,內(nèi)容包括工業(yè)、農(nóng)業(yè)、軍事、科技、政治、經(jīng)濟(jì)、文學(xué)、藝術(shù)、教育、體育、醫(yī)藥衛(wèi)生、天文地理、自然、化學(xué)、文字改革、考古等多方面的出版物,在數(shù)以億計的浩瀚文獻(xiàn)資料中,統(tǒng)計出實際使用的不同的漢字?jǐn)?shù)為6335個,而其中有3000多個漢字的累計使用頻度達(dá)到了99.9%,而另外的3000多個累計頻度不到0.1%,說明了常用漢字與次常用漢字的數(shù)量不足7000個,這就為國家制定漢字庫標(biāo)準(zhǔn)提供了依據(jù)。1980年頒布了《信息交換用漢字編碼字符集—基本集》的國標(biāo)交換碼,國家標(biāo)準(zhǔn)號為:GB2312-80,選入了6763個漢字,分為兩級,一級字庫中有3755個,是常用漢字,二級字庫中有3008個,是次常用漢字;還選入了682個字符,包含有數(shù)字、一般符號、拉丁字母、日本假名、希臘字母、俄文字母、拼音符號、注音字母等。以前我國大陸的各種中文DOS版本、Windows3.1/3.2版本,裝入的字庫都是國標(biāo)一二級字庫。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等漢字,既無法輸入,又不能打印。
后來國家技術(shù)監(jiān)督局又頒布了一個與之相對應(yīng)的繁體字集,全稱《信息交換用漢字編碼字符集輔助集》,標(biāo)準(zhǔn)號為GB/T12345-90。
2、臺灣BIG5字庫
BIG-5碼是通行于臺灣、香港地區(qū)的一個繁體字編碼方案,俗稱“大五碼”。地區(qū)標(biāo)準(zhǔn)號為:CNS11643,這就是人們講的BIG5碼。
BIG-5碼收錄漢字13053個,分為常用字和次常用字兩部分,各部分中的漢字按筆劃/部首排列。其中常用字5401個,包括臺灣教育管理部門頒布的《常用漢字標(biāo)準(zhǔn)字體表》中的全部漢字4808個,臺灣中小學(xué)教科書常用字587個,異體字6個;次常用字7652個,包括臺灣教育管理部門頒布的《次常用漢字標(biāo)準(zhǔn)字體表》的全部漢字6341個,《罕用漢字標(biāo)準(zhǔn)字體表》中使用頻率較高的字1311個。
后來為了協(xié)助解決眾多使用BIG5碼單位于進(jìn)行公文電子傳遞時遇到自造字無法轉(zhuǎn)換CNS的問題,實行了“BIG5碼字集擴(kuò)編計劃”,1986年7月擴(kuò)編完成,這就是所謂的“BIG5+碼”。
BIG5+碼系以CNS為藍(lán)本,共增編標(biāo)準(zhǔn)字集4760個字符與推薦字集3250個字符;其標(biāo)準(zhǔn)字集即納編CNS第3字面字集內(nèi)之4145個,第4個字面字集內(nèi)之219個字,均為一般文書常用之中文字,總支持文字量達(dá)141376個
3、大字符集字庫(又叫GBK字庫)
國際標(biāo)準(zhǔn)化組織為了將世界各民族的文字進(jìn)行統(tǒng)一編碼,制定了UCS標(biāo)準(zhǔn)。根據(jù)這一標(biāo)準(zhǔn),中、日、韓三國共同制定了《CJK統(tǒng)一漢字編碼字符集》,其國際標(biāo)準(zhǔn)號為:ISO/IEC10646,國家標(biāo)準(zhǔn)號為:GB13000-90,該漢字編碼字符集就是通常人們所說的大字符集,它編入了20902個漢字,收集了大陸一二級字庫中的簡體字,臺灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字,58個香港特別用字和92個延邊地區(qū)朝鮮族“吏讀”字,甚至涵蓋了日文與韓文中的通用漢字,滿足了方方面面的需要。Windows95/98/NT/2000中都裝入了大字符集漢字庫,人們一般稱它為GBK(“國家標(biāo)準(zhǔn)擴(kuò)展”的拼音縮寫)字庫。
4、新標(biāo)準(zhǔn)漢字庫
2000年3月,國家信息產(chǎn)業(yè)部和質(zhì)量技術(shù)監(jiān)督局在北京聯(lián)合了《信息技術(shù)和信息交換用漢字編碼字符集、基本集的擴(kuò)充》,國家標(biāo)準(zhǔn)號為:GB18030-2000,收錄了27000多個漢字,還收錄了藏、蒙、維等主要少數(shù)民族的文字,以期一舉解決郵政、戶政、金融、地理信息系統(tǒng)等生僻漢字與主要少數(shù)民族語言的輸入,該標(biāo)準(zhǔn)于2000年12月31日強(qiáng)制執(zhí)行。GB18030-2000作為GBKforUnicode3.0的更新而誕生,它帶有包含所有Unicode的擴(kuò)展,完全向下兼容GB2312-1980和GBK。
二、對于漢字庫設(shè)計的想法
字集不是越大越好,因為現(xiàn)存于大型字典辭書的字有一部分是歷史用字,還有大量的異體字。根據(jù)使用的需要和研究的情況,對漢字的信息處理可以分為幾個層次
1、日常生活用字:(可有一個人名、地名輔助集和錯字集)
日常生活用字就是常用字,這個數(shù)字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,當(dāng)然,其中哪些是常用字,哪些是次常用字,具體的字可能要隨著時代不同而發(fā)生變化。日常生活用字要求有規(guī)范性,現(xiàn)在進(jìn)行的“規(guī)范漢字表”課題研究可能有助于此字集的確定。
人名和地名用字是一個比較特殊的問題,國家語言文字工作委員會正在進(jìn)行“人名、地名規(guī)范”的研究,如果此研究成果面世,則可能有助于解決現(xiàn)代人的人名、地名用字問題。
此集中最好還應(yīng)該有一個錯字集,在早期識字教育和對外漢語教學(xué)中,經(jīng)常要使用到一些錯別字,別字好打,缺筆少劃的錯字沒有辦法處理,所以應(yīng)特置一個錯字集,有利于錯別字教學(xué)的信息化與錯別字的集中糾正。
2、一般古籍整理用字:(應(yīng)該有一個異體字輔助集)
古籍用字,數(shù)量比現(xiàn)代生活用字多。因為歷代沉積下來的異體字、死字比較多。關(guān)于這個問題,首先應(yīng)該進(jìn)行異體字的整理,異體字整理完成后,正體字就可以確定一個數(shù)量。為了保持古籍版本原樣,古籍整理工作者和語言文字研究者也要用到異體字,所以附錄一個異體字集。
還有一個問題就是方言字,很多方言字來源于古代的字典辭書、地方韻書和方言詞典,少部分來源于民間文藝作品。首先方言字有一個規(guī)范的問題,那些有本字又意義比較明確的,應(yīng)該首先選用本字。如本字不明,可沿用俗字。
3、古文字用字:(也有一個異體字輔助集)
關(guān)于古文字,一般定義為小篆以前的文字為古文字,其中有很多字還不可識,這種情況,就首先要區(qū)分出可識字(與小篆或楷書有對應(yīng)字)與不可識字,然后進(jìn)行異體字的整理。并且要能為每個不可識字設(shè)計可以調(diào)用的編碼,以利于檢索。
漢字庫的設(shè)計,針對不同的用戶與使用目的,分級分層次是很必要的。各級之中首先要全,同時要考慮各級之間正體字與異體字、繁體與簡體、古文字與今字的正確對應(yīng)等。
此外,各種常用圖符也可考慮收錄到各級字庫中,如傳世古籍中出現(xiàn)的圈點(diǎn)符號、古文字中的有句讀作用的符號。少數(shù)民族和外域的漢字型變體字,也可考慮單置一類,以有利于文字的比較研究。、解決方案
以下所使用的操作系統(tǒng),沒有特別指出的為Windows98,字處理軟件則為Word2000。其它則專門指出。
(一)利用GBK漢字集解決生僻字的輸入方法。
微軟從Windows95(簡體中文版)視窗操作系統(tǒng)起,都采用了GBK字庫,該字庫收字20902個,基本能滿足日常生活用字(生僻人名、地名字除外)。要利用該字庫,通常可采用下列幾種方法。
1.改用GBK輸入法
Windows95版本及以后版本提供了GBK內(nèi)碼、GBK全拼、GBK雙拼、GBK表形碼和GBK鄭碼5種GBK輸入法。但這些輸入法不是安裝的默認(rèn)選項,需要從“控置面板”中打開“輸入法”對話框來添加。Windows98默認(rèn)安裝全拼輸入法則可以選擇輸入一般漢字和GBK漢字(使用該輸入法的屬性設(shè)置)。其它同樣需要安裝。
這些GBK輸入法中只有全拼比較常用,而且,這些輸入法所輸入的漢字,包括了GBK繁體和GBK簡體,數(shù)量非常大,所以造成兩方面的不便:一是重碼率高,選字非常麻煩;二是繁體簡體同時出現(xiàn),有些字不容易分辨繁簡,同時如果不知道字的讀音,也很難選擇拼音輸入法。
現(xiàn)在已有軟件研制商研制出能輸入GBK字庫的五筆字形輸入法,如智能陳橋,對于熟悉五筆輸入法者,比較便利。
2、用Word插入符號的方法
選“插入”菜單中的“符號”命令,在“字體”下拉列表中選“標(biāo)準(zhǔn)字體”(Word97是“宋體”),在“子集”中選“CJK統(tǒng)一漢字”(Word97是“部首及難檢字”)。一般可在列表中找到所需的漢字。雖然該字庫大致是按部首和筆畫進(jìn)行編排的,但查找起來還是相當(dāng)麻煩。以前有萬學(xué)仁先生編有《通用字符集部首表及區(qū)位碼(16進(jìn)制)》[1],有利于查找,如果沒有該部首表,還有一種方法可以采用,先輸入一個與所要輸入的生僻字相同偏旁的漢字,并選中該漢字,然后用鼠標(biāo)單擊“插入”菜單中的“符號”項,此時會彈出“符號”對話框,再用左右方向箭進(jìn)行逐個查找和挑選,就會很快找到該生僻字的。如果是一個獨(dú)體字,則可以輸入一個筆畫相同的的獨(dú)體字(也不作偏旁)。很快會在其附近找到該字。
(二)GBK字集以外生僻字的輸入
1、使用Windows自帶的“造字程序”
該程序操作簡單,使用方便,既可以用兩個字重新拆分組合成一個新字;也可以選一個相近的字加以修改而造一個新字;還可以直接在編輯框中畫出您所需要的字,比較便利的是前兩種方法,其步驟如下。
(l)取兩個字中有用的部分,重新組合成一個新字。以“腘”字為例(為便于排版,沒有選用GBK以外的字作為例字,下同),單擊“開始”按鈕,選“程序”、“附件”、“造字程序”,出現(xiàn)“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒有出現(xiàn),則選“編輯”中的“選定代碼”命令),此時在“造字”窗中出現(xiàn)“編輯”工作區(qū)。再選“編輯”菜單中的“調(diào)用”命令(在Windows2000、XP中則為“復(fù)制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入?yún)⒖甲帧芭D”,按“確定”按鈕。在“編輯”框中出現(xiàn)“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入?yún)⒖甲帧皳潯?,在“造字”窗中出現(xiàn)帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國”,將它拖到編輯框中合適的位置,然后關(guān)閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對話框中按“確定”按鈕。
此時該字已經(jīng)建立,如文章中需要用到“腘”字只要將輸入法切換至區(qū)位輸入法,鍵入AAA1,即可出現(xiàn)“腘”字。
如果要在以后能以平時的輸入方法輸入該字,那還要補(bǔ)上下一步操作;選“編輯”中的“輸入法鏈接”命令,如為第一次輸入,將彈出搜索對話框,在文件名輸人框中以英數(shù)方式輸入你常用的輸入法,單擊“打開”按鈕,彈出是否要創(chuàng)建該文件的詢問,單擊“是”。如有多種輸入方法,則依次鍵入不同的輸入法文件名,完成后彈出輸入外碼對話框,輸入該字的外碼(如鏈接了多種輸入法,則有不同輸入法的外碼)。按“注冊”按鈕。但要注意輸入的外碼必須符合該輸入法的規(guī)定,計算機(jī)不承認(rèn)你自行定義的外碼。
(2)用相近的字修改。以“臿”字為例:前邊的步驟與前例相同,只是將參考字改為“插”。用上述的方法刪除“插”字的提手旁后圈選“編輯”框中的“臿”,將它向左拖至框的中間,通過調(diào)整八個控制點(diǎn)來改變形狀大小至滿意。以后的操作與上例相同。
該法的優(yōu)點(diǎn)是:不管是否知道該字的讀音,總能通過拆分組合的方法造出來。并且,當(dāng)正確輸入外碼注冊后,平時還能以習(xí)慣的輸入方法輸入該字。缺點(diǎn)在于如果需要將使用了該造字文件的文檔拷貝到其它計算機(jī)中,還需要拷貝造字文件。
(3)對于某些類似于圖形的字,可以選用各種工具畫出需要的字形。
2、用Word組字
Word2000的“格式”菜單中有“中文版式/雙行合一”功能,工具欄上有“字符縮放”按鈕,利用它們您可組合一些冷僻字。較之用其他方法要簡便得多,操作方法如下:
(l)對于左右型字體,以“嬿”字為例:輸入“女”字后緊接著輸入“燕”字;選中“女”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選50%);選中“燕”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選80%);同時選中“女”與“燕”,選“格式/字體”命令,單擊“字符間距”標(biāo)簽,在“間距”框中選“緊縮”,再單擊“確定”按鈕即可。
(2)對于上下型字體(以“斊”字為例):鍵入“文耳”兩字,然后選中它,在“格式”工具欄上的“字號”框內(nèi)選擇合適的字號(通常輸入“四號”字時可選“小五”號,輸入“五號”字時可選“小六”號。但有時差距可能還要大一些);單擊“字符縮放”按鈕,選擇合適的比例(該字可選200%);選“格式/中文版式/雙行合一”命令,按“確定”按鈕。
采用上法輸入冷僻字要使字型漂亮,對于左右型字關(guān)鍵在于輸入合適的比例;上下型字則在于合適的比例及“大小”框中的數(shù)值,當(dāng)然字號的大小也是十分重要。但此法對于結(jié)構(gòu)復(fù)雜如包圍型、半包圍型、聲(形)占一角型等的字則不適用。采用該法組成的字,還可以作為字符串檢索。
3、如果要經(jīng)常運(yùn)用到大量生僻字形,則可以選用已有的自造字字庫進(jìn)行插入。
現(xiàn)在已經(jīng)有大型的自造字字庫出現(xiàn),如由日本《今昔文字鏡》研究所制作的《今昔文字鏡》,包括24個TTF格式的矢量字庫,共包括九萬個漢字。其中收錄日本《ISO10646字符集》漢字兩萬個,《大漢和字典》漢字五萬個,其他四萬個漢字包括:甲骨文、梵文、大陸、臺、港漢字、水文、越南字喃、漢字偏旁和造字部件、日文假名、俄文、拉丁文等各種常用字母和符號。適用于WINDOWS95/98/NT為操作系統(tǒng)的各種文字處理應(yīng)用軟件。還提供了一個簡單易用的檢索應(yīng)用軟件。
還有如北師大漢字與中文信息處理研究所研制的《說文小篆輸入法》,能夠輸入所有小篆字形和《說文》所收古文、籀文等字形。
其它還有一些古籍?dāng)?shù)字化機(jī)構(gòu)與研究人員也造了各種各樣的字庫,只需要安裝到字體中,就可以顯示打印他們所造的字。此種字庫,如能有統(tǒng)一的規(guī)范與標(biāo)準(zhǔn)就比較好交流使用。并且最好能有一個檢索和輸入字符的相應(yīng)軟件才可資重復(fù)利用。
4、用字體制作軟件制作自己的字庫?,F(xiàn)在已經(jīng)有比較好用的字體制作軟件,如FontCreatorProgram,如果能熟練使用,則可以自己量身定做自己的字體,優(yōu)點(diǎn)在于可以隨時補(bǔ)充修改。缺點(diǎn)在于自造字庫千差萬別,通用性差。
參考文獻(xiàn):
[1]萬學(xué)仁.談?wù)劮浅S米值男畔⑻幚韀J].內(nèi)江師范學(xué)院學(xué)報,2001,(3).