2012年8月5日 星期日

研究用書籍紙本數位化時間試算表1.0

研究用書籍紙本數位化時間試算表1.0


原始:https://ebag.tian.yam.com/posts/52617385

以《楚文字編》為例,以灰階600dpi的解析度,本文910頁、檢索表34頁、缺字2158字,計算的結果如:1B+2B+缺字=71.98小時

掃瞄時間:3.03小時
檢字表製作:51小時
缺字製作:17.98小時

72小時 一天做8小時需要約9個工作天才能完成。

  從表格中可知,掃瞄所佔的時間並不是最多,主要是在檢字表數位化的過程很花時間,無法由機器的效能上加快速度,必須人工的逐字檢查,而我們使用的OCR文字辨識後再校正的方式,也一定比重新打字的方式快。檢字表的數位化,才能把把字辭典的發揮到極致。否則掃瞄後的圖檔,不容易搜尋,自然也不常使用,如此這些圖檔也只是佔據硬碟空間而已。當我們完成了字典檢字表的數位化,轉成資料庫來使用難度就不高了,在「INdex引得市」(www.mebag.com/index)就是最好的印證。

  有了這樣的資料庫,無論在世界哪一個角落,使用智慧型手機或者能夠上網的手持裝置,隨時想查那個字都可以做得到,還能夠設定直接瀏覽圖檔(原頁碼內容)。不論是作為研究考察或藝術賞析都超好用的線上字典。

  此外,一般的字典處理的時間應該是低於60分,但若是古文字字典,缺字與罕用字很多,在考察所花費的時間與精神則是不容易估計,依照經驗平均下來都能在90分鐘內處理好。缺字製作方面,線上編輯的時間也能在每字30秒內處理完成,有些字甚至能在10秒以內。主要的時間會使用在對照編號方面,為了避免重複造字,這些步驟與時間也節省不了。

PS:本試算掃瞄時間等數據係由「Microtek XT6060 A3高速掃瞄器」使用平均時間計算而成,掃瞄時間請參考測試報告,平均書籍翻頁時間約在6-8秒之間。


Microtek XT6060開箱與掃瞄速度測試報告
http://blog.yam.com/ebag/article/52601061

在綠色的空格處輸入資料,就能自動算出需要花費的時間。

研究用書籍紙本數位化時間試算表1.0下載:
https://sites.google.com/site/ebag2011/zi-liao/%E6%9B%B8%E7%B1%8D%E6%95%B8%E4%BD%8D%E5%8C%96%E6%99%82%E9%96%93%E8%A9%A6%E7%AE%97.xlsx?attredirects=0&d=1

沒有留言:

張貼留言

「引得市」再度被學術期刊介紹

「引得市」再度被學術期刊介紹 知乎: https://zhuanlan.zhihu.com/p/8575990952 昨天搜尋「引得市」發現了山田崇仁先生寫的這篇文章。  台湾の陳信良氏が作成・運営する漢字・文献の検索サービス「引得市 index(https://www.meba...