CBETA 技術資料

流程管理

輸入

校對

研發

資訊

網路

其他

經文大正藏格式化

在經文產生之後，我們希望在經文之中能依大正藏格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> <頁碼> <欄> <行> 等資料。這些資料在需要查對原書時，能夠讓我們很快的找到出處，對於後序的作業提供很大的方便。而這支程式主要就是針對蕭鎮國先生所提供 25 冊大正藏經文，進行格式化的動作。

檔案比對程式

在經文校對上，通常是最耗時的一個環節。經由中研院提供檔案比對的技巧與概念，寫出這支能處理相異格式經文的比對程式。利用這程式來比對二分文件，可以很輕鬆的找出二份文件差異處，再利用一些工具，就可以很快的協助我們修改資料。

常見錯誤字串取代

在經典文字處理的過程中，有許多錯誤的發生，其實都是有因有緣，有跡可尋的。OCR 有 OCR 常見的錯，使用注音、倉頡等輸入法的朋友，亦都有常犯而難以發現的失誤。故在校對的過程中，吸取錯誤經驗，並加以記錄統計，進而設計了各式的「常見錯誤字串取代表」。
除了「常見錯誤字串取代表」之外，亦有各式「缺字代換表」，故將字串取代功能整合至「看圖校對程式」之中，如此在找出不易發現的錯誤之同時，配合看圖功能，可立刻叫出原書圖檔，進而加以比較，加速了處理的速率。

看圖校對程式

在校對過程中，查詢原書也是一件花費工夫的事。由於我們已有大部份的掃瞄的圖檔，故寫了本程式，希望能在利用「比對程式」之結果，進行校對時，根據經文中大正藏格式的資料，能立刻在電腦上秀出原書的字，以增進校對判斷速度，並讓沒有書的人亦可進行校對工作。

文字分析程式

在大正藏的經文中，除了常見的文字與句點之外，尚有許多其他的符號，其中主要的有校勘數字（有數字的黑圈）、校勘星號（星號）、斷詞小黑點，而較不重要的符號則有一些日本使用的讀音符號，為了讓電腦能協助在現有的經文中自動補入這些符號，於是有了本程式的開發。