20210517 《中國書畫全書.篇目索引》數位化冠名贊助計畫
知乎:https://zhuanlan.zhihu.com/p/373114488
【前言】
筆者近開放了三種相關的索引製作,請看以下連結說明
20210510《中國書畫文獻索引》筆畫查字表、《中國書畫全書》目錄數位化完成
blog:https://ebag2007.blogspot.com/2021/05/20210510.html
知乎:https://zhuanlan.zhihu.com/p/373109219
三種資料庫的製作,還是沒辦法完整的呈現《中國書畫全書》,最後一哩路是《中國書畫全書.篇目索引》,考量筆者的時間與成本,希望是用冠名贊助的方式。
【贊助金額】
目前資料約有一萬八千多筆,須逐一檢視修正內容,並再手動輸入頁碼。評估執行時間與成本約三萬元新台幣,贊助單位最低是五千元,最多以六人為限。不限個人或團體。
【獎勵方式】
贊助者姓名或單位將顯示留存於資料庫上方顯眼處。
例:《中國書畫全書.篇目索引》係王小明、陳美麗、廖添丁、章均亞冠名贊助製作。
【宣傳時間】
贊助金額達到三萬元才會開始進行,從五月中旬起,以三十至六十天作宣傳期,若未達金額,將詢問贊助者是否將將贊助金額轉作資助其他索引製作,或者選擇退款。
【完成時程】
執行期間是二個月左右,預計2021年下半年上線開放使用。
【贊助方式】
同引得市【小額贊助】頁面(支付寶)
請點擊這裡→→http://www.mebag.com/index/donate.asp
綠界支付→→https://cart.cashier.ecpay.com.tw/qp/m4CB
※敬請注意!贊助後,請務必來信「ebag2007@gmail.com」
告知贊助金額用於「《中國書畫全書.篇目索引》數位化冠名贊助計畫」項目。
【Q&A】
Q:《中國書畫文獻索引》已經完成數位化,詞條更多,什麼還要再製作《中國書畫全書.篇目索引》?
A:有三個主要原因。
第一:《中國書畫文獻索引》各冊目錄索引,我們也已經合併製作,但僅有二百多列而已,無法呈現完整的書籍內容,因此需要篇目索引的部份來彌補。
第二:《中國書畫全書.篇目索引》是原始的索引,收錄於最後十四冊中,也是二十多年來使用者習慣的檢索方式,這些使用者數量龐大,涵蓋各專業領域的專家學者。
第三:相較於《中國書畫文獻索引》的單字檢索,《中國書畫全書.篇目索引》列出專有名詞、詞條,瀏覽檢索更直觀,即使內容可能不全。我們認為前後兩種資料庫相互搭配才是《中國書畫全書》檢索的最佳狀態。
【預期效益】
雖然還沒完成,我們已經能想像出那時後查詢狀況,輸入某某詞,點選頁碼隨即跳至該頁,在「二千餘萬字」的書畫寶庫中「瞬間秒查」!那是多麼令人期待的事?相較紙本得從頭讀到尾,應該能讓使用者、研究者理解「數位化」的重要性吧?
書畫藝術是自己藝術創作的主軸與養成根源,長期把精力用在古文字、文字造形的研究與文獻整理,為了讓更多人願意投入研究,不中斷書畫藝術的研究…。《中國書畫全書.篇目索引》的數位化,算是把考察與文獻數位化經驗,用在書畫領域上的一點小小回饋。
如果想讓這個資料庫完成的朋友,歡迎贊助專案,一起支持這項計畫。
20210509【《中國書畫全書.篇目索引》】初步數位化
《中國書畫全書.篇目索引》起訖763至1166頁,共404頁。圈選OCR文字辨識範圍就花了3個多小時,幸好作業時旁邊有小女兒陪伴,一起畫畫又算算數學減法才不覺得枯燥。從404-190開始計算,算到了404-404才離開,留下紙張上密密麻麻的數學算式。
初步OCR整理後約有一萬八千多列。每頁上下欄各有26行,轉換到excel變成52列,校正處理每頁以15分鐘計算,404頁就要6060分,約一百小時左右,一週五天25小時作業的話,則需要四到五星期時間。這是全職、全心投入且最高效率的算法,實際執行起來應該還是有落差。考量OCR辨識問題,篇目下方的頁碼採取另外輸入的方式,例如:
原始:二十八宿真形圖 一.八三四.下
輸入:二十八宿真形圖 1-834-2
即轉換為數字,冊別、頁碼、上下欄資訊以「-」減號隔開,上下代號各為1和2。如果篇目下方還有小字,則與篇目內容之間以「/」區隔,例如764頁上欄第17行的「二宜園圖/文衡山題」。
完成所有內容的校正之後,再結合目前剛發布的《中國書畫全書》[全書列表],可加上「作者」等其他資訊,視覺呈現與查詢上一定更方便了。
【延伸閱讀】
PDF檔案跳頁連結 以「中國書畫文獻索引」為例
https://www.youtube.com/watch?v=EwQyvEW7Ico
---
沒有留言:
張貼留言