佛教藏經的文字問題與解決方案 (三)

(一) (二) (三) (未完待續...)

參、近代佛典電子化缺字問題的探討

一、前言:略說古今佛典文字問題
1. 古代的問題:佛典文字問題自古已有
2. 近代的問題:近代活版印刷
3. 當代的問題:電腦缺字問題
二、台灣近年來電腦缺字處理方法
三、分年解說台灣處理缺字的方案
1. 1994

民間:佛典輸入單位與出版社的需求

1.) 圈點與框框
2.) 造字法
3.) 描速法
4.) 組字式
學界:中研院資訊所文獻處理實驗室

參、近代佛典電子化缺字問題的探討

一、前言:略說古今佛典文字問題

1. 古代的問題:佛典文字問題自古已有

  如前述,中國佛教史上早就有文字問題存在,也有處理漢字「缺字」等相關問題的方法與經驗。此外,對於咒語的採取音譯,所產生的很多中文的新字,及唐★★★★宋敦煌手抄本的俗字或辭書所不收的字,也都有系統的整理出來,可說都是很好的參考資料。由這些資料可知佛典的文字問題,從佛典的翻譯開始就已經存在了。

2. 近代的問題:近代活版印刷

  中國在第七、八世紀間木刻板印刷發明,即開始有藏經的刻本流傳。譬如,現存最早的刻印經書為八六八年刊行的金剛經摘錄 (近年來已有更新的發現);民間許多手抄本的流傳,如近年來發現的大量寫卷;而從第十世紀宋太祖勒令刻印大藏經,共計十三萬塊木刻板開始,藏經就大量流傳。之間經過多次的彙編整理。

  至當前,以《大正新脩大藏經》較為學界的重視。而《大正新脩大藏經》則是在日本「大正」與「昭和」年間重新排版的,《大正藏》所採用的應該是大正與昭和時代的金屬四號活字排版印出,因為這種字型目前於日本已不再使用,故暫稱之為「大正藏字型」。如果當今的工作是依日本大藏出版株式會社的《大正新脩大藏經》為底本作為藏經電子化的標的,自然在文字上遇到的問題,會比採用手抄本、彫刻本甚或石經來得簡單容易些!

3. 當代的問題:電腦缺字問題

  有關當前的電腦缺字問題,是本次研討會最重要的議題,也因為是大家所熟悉的論點,因此不擬於此多所描述,僅簡要的點出其要點來:

★★★★造成缺字問題的主要原因,固然是現有的漢字交換碼性能不夠,從另一個角角度來看,電腦中缺乏漢字字形有關的信息,使得電腦無法順利依照我們所需要的方式處理文字,則是更直接的因素。

( 謝清俊,〈電子古籍中的缺字問題〉,1986 )

  雖然台灣目前是「萬碼奔騰,一碼當先」的情形,然而缺字問題並沒有因為一碼的當先而解決。

二、台灣近年來電腦缺字處理方法

  近年來,國內外皆熱衷於佛典電子化的事業。於國外有韓國高麗藏的製作、日本各類藏經的輸入、大陸的藏經輸入與代工、以及其他華語區的輸入藏經等,輸入的工作一直都在熱絡的進行中。工作進行中,難免會遇到許多的困難,其困難固然會因環境、能力、機緣的不同,或許會各有不同。然而,卻有一個問題是大家所共通的問題,那就是:電腦能使用的漢字有限,而電子佛典的需字卻「幾近無限」的困境。因筆者所知有限,本文僅就台灣佛典電子化作業同仁如何處理缺字問題的過程做一簡單的介紹。

  眾所皆知,近年來佛典電子化的工作日益興盛,因此缺字處理的問題也跟著日益嚴重,需求也就日殷迫切。因而,本文就近幾年來台灣佛教界對缺字處理的幾個方式與步驟分述如下:

不特別加以處理:僅以符號圓黑點或白框框表示所缺的字,如:● 或 □

個別自行造字:早期流行各自造字,尤其是在倚天時代或Win3.1的環境時最為興盛。

網路上的處理方式:後來,因為網路的流行,而發現造字檔所造的字無法讓使用者於網路上閱讀,而開始有組字法的表達字型結構的流傳。

以代碼或SGML/XML 描述缺字,如CBETA以「M 碼」表示缺字。

有識之士開始討論此事:然而組字式固然可以瞭解其字型結構以作為資料的交換或閱讀,但是並不能解決所有的缺字問題,因而許多有識之士同時也進行者這些問題的討論,剛開始可分為學術界處理與民間的處理雙方分別進行。

  早期民間處理缺字,主要是因應當時出版的需求,譬如佛光電子辭典的出版、藏經的輸入、大正藏第九冊的輸入、律藏的出版等需求。學術界的參與,則由中研院資訊所帶領,後來再由台大佛學研究中心與中研院資訊所的合作,為全盤解決佛教缺字問題舉行佛典造字會議。這兩者之間,往往因為時間的壓力與解決的目標不盡相同,因而採取的方式並不相同。茲將台灣這段時間處理缺字的方式,依年代分期解說於下:

三、分年解說台灣處理缺字的方案

  其實,台灣早在1970年左右,即開始重視電腦的文字問題,如:

1970年前後, 台灣地區開始重視利用電腦處理漢字文件的問題…1971年在王安公司贊助下, 交通大學計算與控制系委請林樹先生從事「中文電腦基本用字」的研究…

★★★★在台灣, 最早分析漢字字根的是交通大學, 這套字根就命名為《交大字根集》。1972, 倪耿在碩士論文《中國文字之結構模式及其分析》中, 測試了十幾種常用的構字方式, 並統計其使用之頻度, 發現只用橫向連接、直向連接和包含這三種組合方式, 就可以大幅化簡漢字的結構, 餘者甚少用可略而不計。

( 謝清俊,〈電子古籍中的缺字問題〉,1986.12.20修正版 )

  雖然早在70年代已經開始處理電腦的文字問題,然本文僅從94年佛教界的需求開始,依各項記錄,報告近年來各界處理佛教缺字的情形。

1994

  近代佛教的缺字問題,從有電腦就有此問題的存在。剛開始時,大部分都是各自遇到問題,各自處理;一直到有交換、檢索等需求出現時,教界一些有識之士才開始正視這個問題,而紛紛提出討論。此問題一直到1994 年,因為很多單位面臨要出版與發行的問題,始將佛教造字問題提出檯面成為公共問題來討論。

民間:佛典輸入單位與出版社的需求

  民間輸入單位與出版單位,因為遇到工作上的困難與需求,為法解決與突破這些困境,嘗試以各種方法來解決電腦缺字的問題。剛開始大都是以各自造字的方法,但是各造各的缺字就像是各說各話般,彼此不能交流,固然對出版事業並不形成大礙,但是如果欲將之電子化,則就有許多的困難,

  茲將此時所採取的方法,分述於下:

1.) 圈點與框框

例如:● 或 □

2.) 造字法

例如:

由於現有中文系統之中文字不多,敝人也造了一些字,所造的字存於下列檔案,若您打算採用敝人所造

1.USRfont 15M

2.USRfont 24M

之字,請將原來的造字檔改名,再將上述檔案 COPY 入您的 ET 中文系統即可。

3.) 描速法

例如:

此善住天子受快樂後,夜分有聲告言:「七日後命將欲盡,生贍部洲,受七返畜生身,即受地獄苦,從地獄出,希得人身,生於貧賤,處母胎時,即無兩目。詣天帝釋所,悲號啼哭,冀免斯苦。天帝釋即與俱往佛所,具以白佛。佛為說此真言,使其先世惡業消滅無餘,壽命增延,受菩提記。真言曰:

那謨薄伽跋帝.啼隸路迦缽囉底毗失瑟﹖$勃陀耶.薄伽跋底.怛姪他

﹖字為左口右宅 $字為左口右耶

.唵.毗輸馱耶娑摩三漫多皤婆娑.娑破囉拏揭底伽訶那.娑婆皤輸秫
地阿鼻詵者蘇揭多伐折那.阿
﹖$多毗雞.阿訶囉阿訶囉.阿瑜散陀

﹖字為左口右蜜 $字為左口右栗 #字為左口右麗

羅尼.輸馱耶輸馱耶.伽伽那毗秫提.烏瑟尼沙毗逝耶秫提.娑訶娑囉
喝囉溼弭珊珠地帝.薩婆怛他揭多地瑟
那頞地瑟恥帝慕隸.跋折囉

 ﹖字為左口右宅 $字為左口右姪

4.) 組字式

例如:

賢劫一切諸大菩薩。無垢普賢菩薩而為上首。一生補處住灌頂位諸大菩薩。及餘十方種種世界。普來集會。一切剎海極微塵數諸菩薩摩訶薩眾。大智舍利弗。摩訶目犍連等。而為上首。諸大聲聞。并諸人天一切世主。天龍。夜叉。乾闥婆。阿脩羅。迦樓羅。緊那羅。摩[]羅伽。人。非人。等一切大眾。聞佛所說。皆大歡喜。信受奉行。

大方廣佛華嚴經入不思議解脫境界普賢行願品

系統難字: []= [目侯]

學界:中研院資訊所文獻處理實驗室

  中研院資訊所文獻處理實驗室,因為之前有處理二十五史缺字的經驗及謝教授的熱心協助。因而許多民間佛教單位開始請託其進行佛典缺字問題。如莊德明先生於(電子佛典補字集整理進度報告)一文所言:

自八十三年十月起,多位佛教界的法師及大德即倡議所有從事電子佛典的單位應共用同一個補字集,以利文件的流通,當時並希望本實驗室代為規畫。

(莊德明與高孝玖,(電子佛典補字集整理進度報告),1996/11/22)

  此時,謝清俊、莊德明、張翠玲與許婉蓉的〈中文字形資料庫的設計與應用〉一文,可說是中研院資訊所在接辦佛典造字之前,處理缺字的代表資料。

(未完待續...)

(一) (二) (三) (未完待續...)