網路校對週年記 回本期目錄
329 網路校對週年記
文/一葉佛心之Maha  

  去年329青年節,「為大藏經盡一頁心力」網路校對活動正式開跑。跑了一年,至今,海內外參與者近千人,完成校對有一萬八千多頁,約完成總校對頁數的36%。按目前漸行漸佳的進度,預計最晚再兩年可以把《續藏》全部校完。除了這些令人振奮的數據,更大的收獲是因此認識了許多熱心朋友,並讓藏經校對活動成為參與者生活中一個靜心用心的所在。

  「網路校對」的概念是相較於以往的「紙面校對」。拜電腦使用人口普及、寬頻網路暢通之賜,「網路校對」的施行才有足夠的條件。現在,我們不用影印書面稿,不需印表輸出待校稿,不必跑郵局寄送稿件,也不用一頁一頁翻閱校對回收稿來訂正電子檔。我們所做的事情變得很單純——把掃瞄圖檔及待校對電子檔透過 e-mail 發送,並透過 e-mail 回收已校對及修訂好的電子檔。

  我們目前的校對目標是《續藏》。《續藏》輸校作業,其難度遠大於已經初步完成的《大正藏》。《大正藏》輸校之所以容易,關鍵在於資源豐沛,輸入材料幾乎都是現成的,而且絕大多數經文都同時有兩份到三份電子檔,如此幾乎沒什麼輸入問題,只有利用檔案比對程式來迅速解決校對問題而已。但《續藏》截然不同了,可利用的現有資源稀少,我們在輸入方面就已經陷入瓶頸。

  按我們校對的工作流程設計,同一經文至少要有兩份電子檔才能比對。所以《續藏》的輸入,第一份電子檔用人工打字產生,這個不難,給予輸入規則及適當管理即可,我們在一年內就委外處理完成了。至於第二份電子檔,我們曾考慮再找不同輸入單位來人工打字,但為顧及同樣都是人工打字會形成許多難以察覺的同質性錯誤,因此我們改採OCR方式,也就是由電腦辨識書本掃瞄圖檔以產生文字檔。以《續藏》這個材料來做電腦文字辨識,有其難度,但在程式人員努力克服下,總算化解了大部份圈點、雜點、小字等問題,不過整體辨識率還是差強人意,距離人工輸入檔的正確度仍有一段不小距離。

  「檔案比對」一直是CBETA主要校對方式,經過《大正藏》輸校作業的試驗,證明「檔案比對」效用極大。但有個前提是,相互比對的檔案素質不能差距太大,差距太大會形成大量差異,甚至無法比對下去。上述《續藏》的兩份電子檔(一份人工輸入檔、一份OCR檔),就有著素質差距過大的問題,我們必須設法進一步提昇OCR檔的品質,這正是要透過「為大藏經盡一頁心力」這個網路校對活動來予以解決。所以各位參與網路校對的朋友,您手上拿到的文字檔粗稿,它是電腦OCR出來,經過一些編輯,再 e-mail 給您的。

  過去這一年間,常有網校志工來函問候「一葉佛心」辛苦了,但其實辛苦耕耘的是校對者,「一葉佛心」不過是一個收成者而已。每當看到志工朋友精進校對,「再來X頁」信件不斷,我都感動得不敢懈怠,原來做一個收成者也是要用功、用心的。當然啦,當耕作的田地越來越大,也會逐漸面臨來不及收成的窘境。最近網校信件越來越多,加上個人平日必須處理辦公室其它經常性、偶發性的事務,致使無法很快回覆網校信件,這是要跟所有參與校對活動的朋友深深致歉的。

  在「一葉佛心」還沒練成"分身術"的情況下,請大家一次多拿幾頁,或多多利用循環「備用存量」,免得苦等新作業而急著跳腳。另一個不錯的點子是幫忙「播種」及「收成」,也就是找幾個有志於此的朋友,您當頭,向我申請大量校對檔,由您發送下去,並回收完再交回給我。考慮看看吧,其實我知道已有幾位網校朋友開始這麼做了,真是感謝感恩啦。

  一個人即使三頭六臂,他在一年間可以做的事情畢竟有限,而過去這一年令我體驗到「團結力量大」的實質意涵。藏經電子化成果是大家共同的文化資產,能夠集合眾人之力來一起完成,正是一件大大的美事。希望這個「為大藏經盡一頁心力」活動長長遠遠,讓這種「為人類公共事務而付出心力」的作為長存人間。忙完《續藏》,後頭還有呢,別怕 :-)

一葉佛心(maha)