2014年1月24日 星期五

20140124北京圖書館藏中國歷代石刻拓本匯編-索引數位化完成

20140124北京圖書館藏中國歷代石刻拓本匯編-索引數位化完成


http://blog.yam.com/ebag/article/72073654(天空部落格已關站)


    今日,完成了北京圖書館藏中國歷代石刻拓本匯編「標題字順索引」的全部數位化,原頁碼起迄125至224共99頁,缺字共13字,總共15678筆資料。很好記住的數字,就是「15678」,一萬五千多筆的資料,如果由筆者一人來校定,恐怕得花很久的時間,而且不容易將錯誤仔細的查驗完成。若換成眾多人力的整合,就可以在短時間內完成。

    此次的數位化的完成必須感謝「台北科技大學‧文化事業發展系」,選修「書法產業」的同學。筆者依選課編號列出,依序有:張軒榕、郭翰威、盧婷榆、賴耕平、邱媺涵、黃柏凱、李宛蓁、蘇倢誼、彭琦雯、江旻真、謝佳妤、蔡宜庭、賴恆毅、紀佩伶、劉馥華、楊景程、袁惠君、林映辰、黃楷婷、朱磊、謝亞璇、劉芳禎、游瑜婷、張香涵、王人由、王茹苹、潘姿云、曾思平、陳亭伃、爐若瑜共30位同學參與。

   研究文獻的有效應用一直是筆者多年來努力推廣與實際落實的課題,藉由「書法產業」的課程,讓同學們使用操作「漢文博士」,讓校定者不必先要具備的深厚的古文字學能力,在短時間內也可以掌握數萬個中文字,即使從沒見過的文字,不知道讀音,也能從這個工具中學習到文字的形音義。

    「邊做邊學」是學習的方法之一,因此筆者選擇重要書法相關的文獻做實際的處理,其中包含了人工逐一校正與電子資料處理等步驟。去年的「書法產業」課程中,筆者將原書索引頁面電子圖檔,先以「尚書七號」作OCR文字辨識,產生的文字檔,經過筆者初步校定與編輯處理,成為有排序的EXCEL格式檔案。將檔案分割成數份,請參與的同學下載自己的部分,配合索引頁面影印紙本做資料的校定。如果遇到難字或特殊罕用字則以「漢文博士」查詢處理。

    原始索引頁共有99頁,30人參與每人分配到3頁,其餘部分則由筆者處理,同學們必須校定約四百多筆的資料,從頭逐一比對,紙本與電子檔修改後,紙本必須再轉交給其他同學查閱校定,並在紙本上簽名負責,如此重複的校定可確保資料的正確率,而且每個人負責的文字數量不多,不會增加閱讀疲勞度,可使校正正確率不會降低。在過程中,同學們已經瀏覽到許多書法史上重要的碑刻名作,也學習到許多特殊的罕用字。

    當紙本的資料已經變成電子檔時,內容的改變方式就很多樣,其處理的效率可以用飛快來形容,當我們發現某些特定的錯誤時,就可以用「尋找」、「取代」來一併處理,如「束坡」取代成「東坡」。同學們處理後的電子檔,經筆者再重新合併,再次配合紙本比對,最後並處理「缺字」的部分。將EXCEL轉成資料庫形式,放上「引得市」做搜尋操作執行的測試階段。

    2014剛過了24天,趕在農曆年前完成了這項內容,筆者再一次感謝所有參與的同學,沒有你們,這份百冊的文獻可能過了數十年還是一樣靜悄悄的在書櫃的某一個角落,有了這樣的「轉變」,相信使用的人一定會更多,搜尋使用的人也會記得,這是由三十位同學齊心協力完成的結果,同學已不單只是「書法產業」的學習者,其實已經也是「產業」其中的一環了,如此的文獻數位化與課題實作,應該也是龐大的資料處理中,「眾志成城」最佳典範吧。

    做這些索引數位化的事情,不應算是「工作」,因為「工作」應該會有所得收入,這些從頭倒尾完全沒有,所以,應該稱為什麼呢???如果您是作者,願意無償的開放研究的內容,歡迎與筆者聯絡。讓我們一起讓研究環境更加便利與完善。

資料庫中必定還是會有錯誤,還請使用的朋友給予指正。


筆者云:「索引資料庫的建立,並不是研究的完成,而是代表科學研究的開始...」

附註:原書索引頁中,30以後的「□」筆畫是編列「其他」,引得市資料庫改為筆畫「31」。

北京圖書館金石組,《北京圖書館藏中國歷代石刻拓本匯編》(第一冊‧秦漢部分),鄭州:中州古籍出版社,1997年8月。ISBN:7-5348-0179-6/K‧33


《北京圖書館藏中國歷代石刻拓本匯編》100冊各冊內容
http://www.lib.cam.ac.uk/mulu/fb293121220.html


《北京圖書館藏中國歷代石刻拓本匯編》索引數位化完成的意義:

1.除了原始紙本的資訊,筆者再補充年代部分,讓檢索者可以即刻瞭解該拓本的製作的概約年代(西元)。
2.透過各種項目的排序列表,從中仔細分析就能有更多值得研究的項目。
3.「研究」就是不斷的搜尋,藉此體會在「大海撈針」的可能可行性。
4.想要知道「墓志銘」的數量多少?幾秒內就可以知道了。




    進入「引得市」請點選右上方「碑刻索引」,再點選「《北京圖書館藏中國歷代石刻拓本匯編》索引」。如果想要知道第六冊的目錄列表,請於搜尋選項中選擇「冊別-頁碼」,輸入「006_0」按下搜尋就可以了。

引得市-北京圖書館藏中國歷代石刻拓本匯編
引得市-北京圖書館藏中國歷代石刻拓本匯編-13缺字
引得市-北京圖書館藏中國歷代石刻拓本匯編-搜尋選項


「漢文博士」使用介紹
http://blog.yam.com/ebag/article/60218630


「引得市」查字最好的方式

http://www.mebag.com/index/

造形藝術與資訊處理技術研究中心
The Plastic Arts & Data Processing Research Center


附錄:

將不同EXCEL檔案合併再依個EXCEL檔案,簡單示範說明:

01-將EXCEL檔案放置同一個資料夾

02-執行mergertosheet_v3.xls並輸入檔名

03-將檔案合併到EXCEL活頁

04-已經所有檔案匯入活頁中

05-EXCEL檔案內大量的尋找取代


如何一次將多個Excel檔案copy到一個檔案內
http://discuz.bestdaylong.com/thread-247-1-1.html
下載處:http://discuz.bestdaylong.com/forum.php?mod=attachment&aid=MTk3MXxhZWJjNDRlOHwxMzkwNDY1NTY1fDB8MjQ3


多張工作表資料複製到一張工作表(影音)
http://www.excel.com.tw/movie/excelteachmovie/6enterprise_4_mergesheets/6enterprise_4_mergesheets.html


20140329《金石大字典》索引數位化完成
https://ebag2007.blogspot.com/2014/03/20140329.html

沒有留言:

張貼留言

 20241205《出土文獻與古文字教程》目錄索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/11003352905 【製作說明】 筆者在11月中旬左右已完成目錄索引,今日才發布的原因是想把另一部份「索引(941-958)」也製作完成再發布。所以...