CBETA 相關工具簡介這次主題是 CBETA所使用的工具程式簡介,後學就依時間的演進,將過去、現在及未來打算進行的程式,做一個粗略的介紹。 *** *** *** *** *** *** *** 【去點程式】 86年 8月,在獅子吼站 buda-tech 發表的去點程式 Mvdot 算是 CBETA最早期使用的程式之一。 一般的書籍,多少都會有標點符號,就算是古籍,也會在文字旁加上圈點,以利讀者閱讀。然而在使用OCR處理掃瞄的圖檔時,那些標點卻成了增加誤判的符號,有一度網路上的友人用「雜點」來稱呼它們呢!在經過朋友的實驗之後,認為事前手動將「雜點」去除再來進行 OCR,效果遠比事後手動一一校對來的省事,但長時間手動去除雜點所造成的抽筋,激起了利用電腦程式來去除雜點的構想。 在大伙的不斷實驗下,去點程式的運作雖不能算是非常完美,但的確省下不少人力,最新的一個版本可以去除「大正藏」、「佛教大藏經」及「續藏經」的「雜點」,在本網站的技術篇中,有去點前後的圖檔可供參考比較。 【檔案比對】 關於檔案比對程式,在本網站的技術篇及本電子報之創刊號,有著很詳盡的介紹,有興趣的朋友請直接前往參考。 【看圖校對】 開發「看圖校對」與「檔案比對」程式的概念,是我在 CBETA學習到最有創意的東西,也是我最喜歡分享的心得。 在傳統的校對工作上,就是將書面稿或電子稿,配合原始書面資料,逐字查看,這是我們所了解的校對。而「檔案比對」則是利用交叉比對的觀念,將可能會發生錯誤的地方挑出來,不但省去逐一閱讀的時間,也改進了人工校對所不易發現的盲點。 我們試想,當我們發現某處可能發生錯誤時,翻書找到該頁、該行,並查看該字時,大概會花費多少時間呢? 為了改進這一點,我們保留 OCR時所用的圖檔,依其架構整理,並將處理中的電子經文也附予基本的書面結構資訊,我們一般稱之為「行首資訊」,例如我們看到 T05n0220_p0001a01 表示是大正藏第五冊 220 經第一頁上欄第一行,當這些資訊配合圖檔,就是一套校對的利器了,在「看圖校對」的程式中,一但遇到有問題的字,只要按一下鍵,原圖的該字就會立刻呈現在使用者面前,只要再按一下滑鼠,大部份的情況就可以選到正確的文字,所省下的時間是非常龐大的,更令人欣慰的是,在高速校對下所完成的品質,不亞於傳統人工十校的正確率。 這支程式目前只適用於直式的原始資料,曾答應過一些朋友要加上橫式文章的校對功能,但一直沒有時間進行,這是目前很抱歉並引以為憾的地方! 【看圖校對(II)】 從對大正藏圖檔的分析對映到文字檔,使我們可以校對目前文字檔中的校勘符號、圈點或特定的圖形等等。這個程式目前正在開發中,亟盼各界高手給與指導。 【漢書與 Perl】 這個似乎很眼熟?沒錯,這並不是 CBETA自行開發的工具,卻也是我們在做文字處理工作時很常用的程式,故特地介紹一下。 漢書是由大方廣資訊施得勝先生所開發的文字編輯器,它除了是一個功能極強的編輯程式之外,其所提供的巨集功能,更是協助我們省下許多重覆又無聊的工作,而對於巨集使用上的問題,施得勝先生更是不吝給予指教,在此要特此提出感謝! Perl程式也是處理文字的利器,它簡單、易用、跨平台及對文字處理的極強大彈性,使得日常處理的工作幾乎都交給 Perl 了,我們也寫了許多Perl小程式來進行內部的諸多流程,這是我所樂於推薦的程式。 *** *** *** *** *** *** *** 以上的介紹是屬於生產時期的程式,以下要介紹一些應用類及未來打算開發的程式。 【缺字小工具】 這個 Wordtool 程式並沒有對外公開,因為只是實驗性質的試作,目的在於統一缺字組字式的組合法,關於「組字式」可參考我們網頁技術篇中的缺字部分,以 [金*本]為例,這是我們標準的組法,若有人輸入[釱-大+本]也可以自動轉換成 [金*本],這個界面有助於統一組字式的輸入,就不會在查詢時,因為輸入不同的組字式,造成無法找到的結果。 若是輸入 Big5 系統字的部份,本程式也會自動轉成系統字,例如輸入[門@狊] 或[門@(目/犬)],程式會知道這是系統字,進而轉換成「闃」字,在某個角度來看,這也算是一種輸入工具吧! 【文字搜尋工具】 CBGrep是針對一般文字所設計的文字搜尋工具,這是參考童闓運先生所提供的 CTGrep 原始碼修改而成,CBGrep 有著視窗介面的好處,而 CTGrep的搜尋速度則是令人難以想像的快速! 這二支程式並不是需要索引檔的全文檢索式工具,速度總是不如全文檢索,但它是針對 CBETA電子佛典而設計的,它可以跨行搜尋、忽略行首資訊、忽略全半型空白的影響,雖然沒有美觀花俏的介面,但不失為輕巧好用的工具。 【佛學電子辭典】 不論初學或老參,有一本好的佛學辭典是不可或缺的工具,拜於科技所賜,佛學電子辭典的功能更遠超過傳統書本的功能,使我們在佛法大海中,不致因過多難解難懂之名相而產生望之卻步的困擾。 感謝「佛教電腦資訊庫功德會」提供「丁福保佛學辭典」的資料,本協會也在參考「佛光山佛學電子辭典」的架構之下,開發完成一支電子辭典程式,這支程式的特色是採開放式的架構,每個人都可以依標準格式而將自己整理的資料加入這支程式中,讓它更有擴充的彈性與空間。而本協會目前只提供上述之「丁福保辭典資料」及「陳義孝佛學名相」,這些可在本協會網頁之下載區找到並下載,希望能對大眾有所助益。 關於「佛光山佛學電子辭典」,由於版權之故,本協會無權散佈及提供下載,但這亦是極為有用的工具,個人樂意介紹大家使用,更希望日後可以看到此一珍貴資料得以無條件的在佛教界廣佈流傳,那就是眾佛子的福氣了。 【全文檢索】 全文檢索這個領域,本協會僅有實驗性質的成品,並無對外提供,這也是未來 CBETA經文逐漸完成之時,很重要的檢索工具,關於這個領域,本人也在此徵求,希望對這個領域有研究的朋友,能不吝指教的與我們交換心得,以期日後能完成好的作品提供大眾使用。 目前在 CBETA網站上,是使用中正大學GAIS團隊所發展的gais search engine ,歡迎網友們多加利用。 【讀經器】 一個好的讀經器,包含的層面是廣泛的,除了上述技術方面的問題,如:缺字處理、全文檢索等,也要考慮讀經器本身的特性,使用功能、親和力、未來的擴充性及許許多多的考量,這一部份的構想也是逐漸在成形中,同樣的,希望對這方面有經驗及有興趣的朋友,我們很歡迎您與我們聯絡,讓我們一同為「電子讀經器」打造一個良好而實用的環境。 *** *** *** *** *** *** *** 介紹了這一些,或許日後還有許多新的概念會陸續產生,不論是構想和技術、或是心得與批評,都歡迎告訴我們,為大眾提供更好的環境是我們的動力,而您的支持則是這個動力成長的因素,期待您的大力參與! |