流程管理 輸入 校對 研發 資訊 網路 其他
經文大正藏格式化

在經文產生之後,我們希望在經文之中能依大正藏格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> <頁碼> <欄> <行> 等資料。這些資料在需要查對原書時,能夠讓我們很快的找到出處,對於後序的作業提供很大的方便。而這支程式主要就是針對蕭鎮國先生所提供 25 冊大正藏經文,進行格式化的動作。

檔案比對程式

在經文校對上,通常是最耗時的一個環節。經由中研院提供檔案比對的技巧與概念,寫出這支能處理相異格式經文的比對程式。利用這程式來比對二分文件,可以很輕鬆的找出二份文件差異處,再利用一些工具,就可以很快的協助我們修改資料。

常見錯誤字串取代

在經典文字處理的過程中,有許多錯誤的發生,其實都是有因有緣,有跡可尋的。OCR 有 OCR 常見的錯,使用注音、倉頡等輸入法的朋友,亦都有常犯而難以發現的失誤。故在校對的過程中,吸取錯誤經驗,並加以記錄統計,進而設計了各式的「常見錯誤字串取代表」。
除了「常見錯誤字串取代表」之外,亦有各式「缺字代換表」,故將字串取代功能整合至「看圖校對程式」之中,如此在找出不易發現的錯誤之同時,配合看圖功能,可立刻叫出原書圖檔,進而加以比較,加速了處理的速率。

看圖校對程式

在校對過程中,查詢原書也是一件花費工夫的事。由於我們已有大部份的掃瞄的圖檔,故寫了本程式,希望能在利用「比對程式」之結果,進行校對時,根據經文中大正藏格式的資料,能立刻在電腦上秀出原書的字,以增進校對判斷速度,並讓沒有書的人亦可進行校對工作。

文字分析程式

在大正藏的經文中,除了常見的文字與句點之外,尚有許多其他的符號,其中主要的有校勘數字(有數字的黑圈)、校勘星號(星號)、斷詞小黑點,而較不重要的符號則有一些日本使用的讀音符號,為了讓電腦能協助在現有的經文中自動補入這些符號,於是有了本程式的開發。