佛典缺字處理簡介每每和一些老朋友見面,聊到我現在在進行佛典電子化的工作時,有一個問題常被提及,那就是:「佛經裡面不是有很多怪怪的字嗎? 那個要怎麼輸入? 」這就是本次想要與各位分享的主題:"外字"。習慣上我們稱為"缺字" ,本文也依習慣用"缺字"來稱呼。 (外字是日本針對其所訂定漢字集之外的漢字的稱呼,而這裡使用缺字是表示電腦字集內無法現的字。) 缺字這問題想必許多人都遇到過,有人久久碰到一次,有人則是姓名之中就有無法在電腦中輸入的缺字,相信這也造成了不少的麻煩。然而處理古文資料典籍的朋友,缺字更是形影不離的好友。雖然中文字的大環境一直在改變,由 Big5至 Big5 Plus ,乃至目前看好的 Unicode,都是漸漸在改進,擴大字集,加強交換,但中文字的變化似乎是無窮無盡,而且現實上我們也不能等到新的標準統一中文江湖之後,再推出我們的成果。所以藉這個機會,我就將在 CBETA一年多來所接觸過的缺字處理方法,大略介紹並分析特點,提供給各位參考,更希望大家若有任何的想法及建議,都能不吝於提供我們參考,讓我們在處理缺字的這個環節,能有更好的改善。 目前處理的方式可分成下列數種,以下就針對各種方法簡略介紹。
*** *** *** [黑圈表示法] 在早期網路上的文件,缺字無法表達時,有人就用一個大黑圈 "●" 來表示,日後若有機會,再將之整理。據說這個黑圈還是有典故的,容我不在此細談。黑圈表示法除了輸入簡單,並且讓人一目了然是缺字之外,就沒有什麼太大的特點了。 [造字法] 自從有中文系統以來,使用造字是最簡單且最常用的方法。看到一個缺字,就打開造字程式,依樣畫胡蘆,並存在使用者造字區之中,這樣問題就解決了。許多電子佛典資料都是採用這種方式。北美資功會發行的金剛經專輯及佛光山出版的佛光電子佛學辭典,便是採用這種方式處理。
[字根序表示法] 中文字不同於歐美的拼音文字,有著基本的字形,但為了方便管理及分類,有些人開始將中文字拆成許多基本字根,或稱之為"字種"。而每一個中文字,就由一組唯一的字種組合而成,中研院資訊所文獻處理實驗室就提出了一個完備的方法,有興趣的朋友可至其網站參觀,其網址是: http://www.sinica.edu.tw/~cdp
[組字法] 其實組字法並沒有特別限定某一種方式,不同於上述的字根序表示法在於:目前沒有一個特別的規範,也沒有使用造字檔。這個方式在網路上常可見到,例如 [金*本]這個 "缽" 字的另一種寫法,有些人用〔金本〕來表示,有些人則寫 [左金右本]...,也就是利用現有的字及各種方法來描述缺字。 在 CBETA的作業中,處理中的檔案及普及版都是採用了自行規範過的組字法來表示缺字。
[編碼法] 一個缺字給予一個編碼,這是很直覺的處理方式。目前有許多單位在從事這種整理。 CBETA在原始資料的保存上,就是採用日文文字鏡所提供的編碼方式。它的編碼格式是 &M-xxxxx;這種表示法在國際上是廣泛被使用的。您可參考文字鏡的網站,將會得到進一步的了解: http://www.mojikyo.gr.jp/ 然而在內部管理上,也是將文字拆成許多 "字種" 以進行資料的維護。
[圖檔] 自從 WWW成為新一代網路媒體的主流,圖形與文字有了更緊密的結合。在缺字的處理上,使用圖形貼在文字資料之中,也成了一個簡單而有效的方法。
[向量字] 在 Windows界面之下,向量字形在畫面、列印及能隨意放大縮小都有很好的表現。利用系統能同時處理多字面向量字的功能上,用來處理缺字也不失為一個好方法。主要方法有二: 1.利用造字區空間:則原理同造字的方法,只是在呈現上多了一種選擇。 2.利用系統字空間:利用 Windows系統能同時呈現多字面的方法,可以充分利用系統字的大量空間來放置缺字字型。去年由妙雲文教基金會,今文佛典資訊小組委由巨石文化研發了一套《漢字庫》,即成功的完成了54000字的示範字庫,並有部份已應用在印順導師全集的光碟中。有興趣的朋友可至其網站參觀,網址是 http://140.123.101.83
*** *** *** 如眾所知,規則是死的,應用是活的,上述的方法,是可以靈活應用的。目前 CBETA在缺字的處理情況略述如下:
以上略為介紹我這一年多來對缺字的粗淺認識,相關的詳盡資訊還請至相關的網站參觀,有錯誤及建議的部份,也請各方善知識多多指教。 CBETA 規範之 "大正藏基本通用字型" http://www.cbeta.org/data-format/regular.htm CBETA 規範之 "一般組字式基本規則" http://www.cbeta.org/data-format/rare-rule.htm CBETA 現有缺字整理一欄表(包含圖形、通用字、組字式、今昔文字鏡編碼) (網址已移除) |