A.前置作業
1.檔案合併:
利用檔案合併程式,將小檔合併成大檔,以利文書編輯處理及後續比對作業的進行。
2.進行大正藏格式化:
利用一系列的大正藏格式化程式,將版本A予以格式化。
3.消除重大差異:
針對版本A、B兩者明顯差異,例如有無序文、注解以及卷末經卷名,以版本A為主來予以統一。
4.代碼及常見錯誤字串取代:
透過<大正藏字串取代表>,將版本A之「數字代碼」及「錯誤字串」轉換為一般組合字或正確字串。
5.統一缺字表示:
至此,版本A之缺字皆以一般組合字表示;而版本B之缺字或是以造字或另種組字式表示者,須整批替換成與版本A一致。
B.正式比對──FGFC
1.利用 FGFCSIGN.ALL 建立 FGFCSIGN.TXT,將欲忽略字元做好最佳設定。
2.以 FGFC 內定參數值 (MaxwordNum CompareNum = 100 2),加掛使用者自訂忽略字元,開始初步執行兩檔比對。
3.比對時因差異過多而導致中斷,則檢查為何差異過多,並予有效排除:
a.若因某一版本漏打或重複輸入,則予以增補或刪除。
b.若因版本文字本就有很大差異,則將 FGFC
參數值加大後再跑看看,或是將這差異過多部份做好記錄後截取出來個別處理。
4.若 FGFC
可以順利執行完畢,則統計其差異發生次數,並檢視所產生的三個檔案:
a.若出現大量規則性差異處,則經整理研判後,以字串取代方式處理。
b.若有密集的連續差異發生,則調整 FGFC 參數(建議
150 10 )重新執行。
5.經過以上處理,以最適當參數再次執行 FGFC
,並比較其差異發生次數是否較上次少;如果無法有效減少,則再回上一步驟檢討。
C.看圖校對
1.比對之後的差異檔,可以利用 SeeCheck
看圖校對程式來予以訂正。
2.建議:如果硬碟空間夠,可把所有圖檔拷到硬碟裡來作業。
3.對於簡單差異,SeeCheck的作業效率很高;但若差異範圍稍大,SeeCheck就不好玩了。所以,我們最好是先使用
SeeCheck
來解決佔最大多數的簡單差異,然後再以一般看書校對的方式來解決剩餘的少數大範圍差異。
D.最後的可能手續
1.依<大正藏內文格式>,將經名、品名、譯者名,以及各種長短偈頌等,排列整齊。
2.刪除經文當中不應存在的半形空白字元。技巧是利用漢書:
a.將連續兩個半形空白全部替代為一個全形空白。
b.搜尋經文當中是否尚存有半形空白?若有,逐個搜尋並判斷應否刪除。
3.透過字頻統計程式,查看對稱性符號是否相等,有沒有出現不該有的字元;若有發現,設法解決。
4.如果「錯誤語詞資料庫」及相關程式建立起來,則可以拿來檢查成品的可能潛在錯誤。
E.相關程式
1.檔案合併
Mergfil2───Tone
2.大正藏格式化系列程式
a.25tchk10──Tone
b.25tform6──Tone
c.25t-tst7──Tone
3.字串取代
a.Chng25t ──Tone
(快速將規則性代碼取代為對應字串)
b.Convert ──Lyyen(不規則字串取代)
c.Convert ──Heaven(Perl程式)
4.檔案比對系列程式及訂正巨集
a.Fgfc ───Heaven
b.Fgfce ───Heaven
c.Fg3fc ───Heaven
5.看圖校對程式
SeeCheck───Heaven
6.字頻統計
a.Countwrd──Tone (全、半形皆可)
b.Convert ──Lyyen(特針對全形字)
c.Count ──Heaven(Perl程式)
F.漢書文書處理重要技巧
1.搜尋與取代:針對全文或標示區,以各種特殊條件來進行搜尋及取代。
2.標示、複製、搬移、覆蓋、刪除、填入
3.標示區存檔、加流水號、記錄及還原游標位置
4.排序:針對全文或標示區
5.巨集:以簡單巨集取代重複性動作
|