※ 電子版大藏經輸入計畫 ※

(註:此為 buda-tech 當時之計畫,非CBETA現況)

┌──┐
│緣起│
└──┘
由於近日諸多因緣配合, 讓一些朋友覺得可以開始改變以往被動整理網路上網友輸入的經文, 而改為有計畫的主動輸入大藏經, 以產生一套電子版的大藏經, 以完全免費的方式提供大眾.
┌──┐
│計畫│
└──┘
完成一套完全免費的電子版大藏經
┌──┐
│目標│
└──┘
產生經過初步校對並含有基本標點符號的電子經文
┌────┐
│工作內容│
└────┘
1. 處理現有的 CCCII 格式之大正藏資料.
2. 以 Scanner + OCR 來產生電子版大藏經.
3. 將產生之經文整理並放置在下列位置
   a. 東坡站 FTP Server
   b. 梵網 FTP Server
   c. 經典系列 WWW Server
   d. 梵網 www Server
┌────┐
│工作細節│
└────┘
● 處理現有的 CCCII 格式之大正藏資料
1. 使用轉碼程式將 CCCII 碼轉成 Big-5 碼. (應有現成程式)
2. 使用程式來依 CCCII 原稿來尋找 Big-5 碼中的 ASCII 碼為 0xFFFF 的字, 這表示該字在 Big-5 為缺字部分, 依此產生一 缺字檔. (程式待寫)
3. 手動將缺字檔做成【缺字-組合字】對照表. (人工處理)
4. 使用程式利用【缺字-組合字】對照表並參考 CCCII 原稿將 Big-5 碼檔中的缺字更換成組合字. (程式待寫)
5. 若有 CCCII 碼轉 Big-5 碼有問題的字, 亦可使用上述方法 來還原成正確的字. (程式待寫, 同步驟 3, 4 )
6. 加上基本標點 (若原校無標點).
7. 初步校對 (錯字及標點).
8. 排版.

● 以 Scanner + OCR 來產生電子版大藏經
1. 使用掃瞄機掃瞄佛經. (先找出最好的二種佛經版本及掃瞄 DPI )
2. 使用去雜點程式去除圖檔中的雜點. (此程式已初步完成)
3. 進行 OCR 文字辨識, 以產生初步文字檔.
4. 將二種版本的文字以程式進行比對, 以快速找出相異之處. (此程式已初步完成) 註: 若本步驟比對校果不佳則省略.
5. 將此檔案及圖檔(縮小四分之一)統一放置管理.
6. 開放由網友傳回上述之圖檔及文字以進行校對. 校對後再傳回.

◎取回資料方式: (待討論, 目前的方案計有)
a.統一放置 FTP Server, 由下載者至某一 BBS 或 WWW 登記. 該 Server 並提供下載及校對上載的記錄供查詢. (難度較高, 並重覆下載也可能較高)
b.統一由某人負責, 欲校對者可 mail 該負責人, 並將校對好 的檔案 mail 給他. 該負責人必須在某一 BBS 或 WWW 維護 最近記錄以供查詢. (須由專人負責, 但管理較簡單)

◎校對原則 :
a.只處理錯字及標點.
b.不處理缺字, 僅由 "●" 來表示缺字.
c.不做排版處理.

◎傳回資料方式: (待討論, 同上之取回資料方式)
7. 統一缺字處理.
8. 排版.

●將產生之經文整理並放置在各 FTP 及 WWW Server 辦法由各 Server 負責人進行.
┌─────┐
│須保存資料│
└─────┘
1. 原始圖檔.
2. 1/4 大小原始圖檔, 以供下載校對用.
3. 各圖檔經 ocr 所產生之原始經文
4. 經網友校對過的經文
5. 經過處理排版過的經文
┌─────┐
│待討論事宜│
└─────┘
1. 處理之經文版本. (最好有二版, 以便做快速比對用)
2. 缺字的統一處理方式.
3. 上下載檔案流程.
4. 完稿之排版格式.