CBETA電子佛典缺字略解 回本期目錄
 

參加「漢字智慧型編碼與應用研討會」有感

文 / 王志攀

  在使用電腦的中文世界裡,沒有遇到無法打出來的字幾希。即使很平常的字,如腳字,中間是谷是去,也沒有辦法自主。如果說電腦所顯示的字有一個標準,那麼使用者在無可奈何的情況下,在註解說明上也比較方便,但是如正、俗字之間,到底採用正字抑或俗字,莫衷一是的字例,僅此一斑,就夠讓使用者頭痛而無所適從了。

  電腦中文字形,在一字一碼的先天囿限下,更是使得中文字的應用綁手綁腳,只夠療飢,沒有辦法發展開來。因此龐大的中文字,就畫地自限地困守在一萬多個常用字的圈圈裡,和中文字活躍的生命力大相逕庭,幾幾乎切斷了中文字的新生能力。

  一個中文字包含形音義,而造字原理所謂的「六書」--象形、指事、形聲、會意、轉注、假借,其中最活潑的形聲字,在現行的造字體系下,不論是big-5 或 unicode,全都在一字一碼這種「一胎化」原則下受了腐刑。十幾年前在學校上有關文字學的課程時,授課的老師舉了一個可以創造新字的實例「圖書館」--。雖然十年過去了,言猶在耳,但是這個字目前還只是在圖形的階段。究其原因,在於傳播的限制,而傳播的限制又在於電腦常用的中文系統字裡沒有這個字,無法從鍵盤輸出。假如中文字能夠像英文字一樣,靠二十六個字母就可以拼出字來,或許圖書館已經叫做ㄊㄨㄢˇ、ㄊㄨㄢˊ(圖書館三字,第一個字取聲符,第二個字取介音、第三個字取韻母和聲調;ㄊㄨㄢˇ有可能因口順由上聲轉陽平成ㄊㄨㄢˊ),而字形就是,那麼更遑論大街小巷五花八門、稀奇古怪的各種新「字」了;其中,或許我們已經可以在電腦上「飽餐」各種「羹」湯和各類的pie了。

  CBETA版《大正新脩大藏經》五十六冊,接近一萬五千個電腦系統字所沒有的缺字,如果委外造字,龐大的費用無法負荷!如果自己造字,面對偌大的字數,曠日費時,同樣無法負荷。所以只能將就於現有的素材,解決一部分缺字顯示的問題。而全部缺字,靠的是描述式的「組字式」來表達;但礙於組字所用部件的限制,「組字式」也沒有辦法就對應字完全寫其真,最後就只有靠缺字圖檔來傳真了!在CBETA,我負責電腦缺字,中文電腦缺字懸而未決的情形,成為我心頭的一個痛。

  中研院「漢字智慧型編碼與應用研討會」,CBETA總幹事杜正民先生和顧問維習安博士應邀與會,並發表演說。一則處理缺字已陷入泥淖的狀況,苦思對策;再者常上網留意有沒有他山之石,可以採用!因此,杜總幹事邀我,乃欣然同往。不過,關於這一次的研討會,因有之前的經驗,在驅車前往會場途中,先知會總幹事,如果了無新意,兩天的會期,第二天就不想浪費時間--不去了!

  本次「研討會」,兩天各五場講演。首場是決定隔天去留的重頭戲,由莊德明先生表演。我在台下,靜候好戲上演。

  關於莊先生發展的這套缺字解決方案--「漢字構形資料庫」[01],因為主持人謝清俊教授、講演人莊先生和CBETA素來往返密切,所以對莊先生本次的發表,內容已素知,原本不應該大驚小怪!但是好有一比,莊先生所發表的「漢字構形資料庫」,是七年來不斷演進的結果[02];這七年來,前六年的馬拉松路程,一直處於起步階段,而這一次,卻已在領先的集團裡,並且是在終點線前衝刺的跑者,怎不讓人興奮地起立鼓掌加油歡呼!

 為什麼一套「漢字構形資料庫」會「讓人興奮地起立鼓掌加油歡呼」呢?這要從認識漢字說起。

  我們知道,秦的統一文字,使「書同文」,所同的文就是「小篆」;承秦而立的漢,「書同文」,所同的文卻是用創始於秦的「隸書」。隸書是「篆書」的簡化字,隸定以後,漢字的字形幾乎已經底定。不過起源於後漢,一種由隸書演變而來的正體書法--楷書,在三國魏時完備成體,而從唐宋通行至今。「篆書」簡化後成為「隸書」,「隸書」再一變成為「楷書」,篆、隸、楷三種字體的關係,建立在文字書寫的便利上。而「漢字構形資料庫」,就建立在「篆書」和「楷書」的基礎上。謝教授說:「為了建構漢字構形資料庫,我們徹底檢查了《漢語大字典》、《說文解字》」。[03]

  《說文解字》一書是東漢時被譽為五經無雙的許慎所作,收字九千三百五十三個,以及一千一百九十三個重文,依照文字形體和偏旁,收列在五百四十個部首中,是中國第一部有系統分析字形和考究字源的字書,其中部首也是創舉。

  《漢語大字典》是近年完成的大部頭字書,收五萬四千六百七十八個楷體字,以及包含三萬六千三百零九個字形的一萬二千二百一十組異體字,總九萬零九百八十七個字。如果含上列《說文解字》一萬多個字,今古二部字書字數超過十萬個。而「漢字構形資料庫」就提供了《漢語大字典》和big-5的楷體字五萬四千七百一十一個,以及《漢語大字典》異體字表的三萬六千三百零九個字形,並《說文解字詁林》中的小篆及其重文一萬一千個字--可以解決總一拾萬零二千零二十個字的大部分字形。

  當然,僅只字數龐大不足為奇,unicode的漢字就超過七萬個,而日本的《今昔文字鏡》,去年所收錄的字數也超過十萬個,其中絕大部分就是漢字。我要說的是,這次莊先生所發表的「漢字構形資料庫」,把十幾萬個漢字,收納在四千七百個用以檢索的部件中--其中一千多個是字根。而目前在Microsoft Office的功能下,可以使用五萬四千七百一十一個楷體字形,和一萬一千個小篆及其重文。也就是使用者可以利用部首的概念,以「漢字構形資料庫」所提供的三個拆字法則--橫連、直連、包含[04],就可以輸出該字而加以檢索、顯示!

  或許有人還會疑慮,這麼大量的字,所佔空間,當不在話下!以下這段說明可以解除這個疑慮:

  由於本系統的設計理念與目前的交換碼完全不同,所以本系統可以與使用任何交換碼的系統相容。換言之,任何亞東文字的處理系統,無論是中日韓越、無論是簡繁,都可以附加本系統作為徹底解決缺字的機制。目前我們推出的是基於五大碼(big-5)的系統,可將五大碼能處理的約一萬三千字形,立刻擴充到六萬以上,並擴及小篆和異體字等。更重要的是,這能力的擴大,並不需要佔用原交換碼的編碼空間,也不需要修改原來的應用軟體![05]

  這段話,依筆者的體驗實為信言,絕不誇大。其中,「附加本系統作為徹底解決缺字的機制」和「不需要佔用原交換碼的編碼空間,也不需要修改原來的應用軟體」已經驗證。

  談到驗證,就是已經進步到可以實用的階段了。換句話說,只有實際應用,才談得上驗證。而已經可以驗證的內容,也就是達到某種成熟度的關鍵。

  以下略為介紹二種應用「漢字構形資料庫」的實用情形。

  一、〈基於漢字智慧型編碼的動態字形產生器之原理及實作〉[06]

  應用「漢字構形資料庫」,設計:

    1)TrueType 模擬器:將此字形產生器,在 Windows 模擬成標準 TrueType 字形檔,讓所有應用程式調用。(下略)

     2)編輯器元件:支援將構字式轉換成字形,並可動態製作缺字。

     3)IE模組:將網頁的構字式,於客戶端轉換成字形。[07]

  以上是葉居士應用「漢字構形資料庫」所設計的應用介面。

  這個應用介面所用的字容量:

    以「骨架字體」為例,20000字只需300K,Unicode CJK 82000 字集,僅佔1.5MB左右。並且可以有「宋、黑、圓」粗  細變化。字形產生速度為 TrueType 的十倍以上。[08]

  而在以「避諱字」為例的實際展示中,可以看到,輕而易舉地在電腦上,對於字的「增加筆劃、增加部件」、「刪除某個筆劃」、「移動或縮放某個筆劃」、「減去某個部件」、「移動某個部件」等效果。[09]

  二、〈缺字的標誌、交換與應用〉[10]

  講題所謂「缺字的標誌」,即「漢字構形資料庫」所提供的三個拆字法則;而「交換與應用」,在補「漢字構形資料庫」的不足。也就是應用「漢字構形資料庫」所設計的介面,於「漢字構形資料庫」中所沒有的字,利用現有的造字程式造字,然後將包含造字的編輯文件,在傳遞過程中,自動把文件中的造字傳遞給接收端,並自動加入接收端的造字區中。而所造的字因為依「漢字構形資料庫」的拆字法則和部件,所以在輸入和檢索的便利相同。[11]

  以上略舉這次研討會發表的講演二種,以實「附加本系統作為徹底解決缺字的機制」和「不需要佔用原交換碼的編碼空間,也不需要修改原來的應用軟體」這段話。而例如這次研討會發表對於「漢字構形資料庫」的應用,將來推廣得法,相信開發出來的應用軟體會愈益成熟;那麼,電腦中漢字的無障礙空間於焉誕生,也指日可待!


[註]

  [01] 「漢字構形資料庫」光碟下載網址:http://www.sinica.edu.tw/~cdp/

  [02] 謝清俊,《中文電腦缺字解決方案漢字構形資料庫.序》,頁二(中央研究院資訊科學研究所文獻處理實驗室出版,2002年7月第二版)。

  [03] 同上。

  [04] 使用方法參詳《中文電腦缺字解決方案漢字構形資料庫》(中央研究院資訊科學研究所文獻處理實驗室出版,2002年7月第二版)。

  [05] 同註一,頁三。

  [06] 葉健欣(參詳「漢字智慧型編碼與應用研討會」手冊)。

  [07] 同上,頁三。 

  [08] 同上。

  [09] 同上(葉居士所開發的這套應用軟體,完成後將在易符智慧科技公司的網站提供免費下載。易符智慧科技公司網址: http://www.eforth.com.tw)。

  [10] 周亞民等(參詳「漢字智慧型編碼與應用研討會」手冊,相關資料或軟體,將在中研院資訊所網站公布)。

  [11] 何建明等〈在網際網路上的漢字智慧型編碼工具〉,原理原則略同,都是「漢字構形資料庫」的應用(參詳「漢字智慧型編碼與應用研討會」手冊)。