20140103《額濟納漢簡文字編》筆畫檢字表數位化完成
舊連結(已斷連)http://blog.yam.com/ebag/article/83899545
知乎:https://zhuanlan.zhihu.com/p/24045255146
2025.2.16重新張貼在blog和知乎
【製作說明】
這是2015年開春處理完成的的第一份筆畫檢字表,原始檢字表只有作者對單字的編號制訂(詳細如下所示),從01001開始,最後是14077。沒有直接的頁碼,所以筆者必須先把「正編」共210頁先一頁一頁的瀏覽,並且把編號與頁碼對照表打好,另外一邊,像往常一樣OCR辨識處理筆畫檢字表並且一字一字校正。前後兩份資訊如何快速結合呢?利用「excel尋找取代」的小技巧,就可以快速的把真正的「頁碼」顯示並列在文字後面。經過這樣的補上「頁碼」,使用起來才會方便。
依照編號數量,計算起來只有877個,和EXXCEL最後的列數898個有所差異,應該是有些字重複出現所致,如「㠯」和「以」,「㱃」和「飲」字等,在檢字表中會有兩處,實際都是指向同一處頁碼。筆者發現重複且一樣的問題,古文字研究者的電腦技術通常不是很靈光,但是卻又不得不面對「古文字缺字」的問題,這份文字編的作者在缺字上處理的並不好,字跡圖檔相當模糊,很不利於瀏覽。現在之後,研究者應該好好利「用引得市」中的「古文字缺字資料庫」裡七千多字的古文缺字,這樣就不會再花時間又處理的不理想了。
《額濟納漢簡》為西漢中期至東漢早期簡牘,最早紀年為神爵三年(公元前59年),最晚者為建武四年(公元28),現在「引得市」已經可以檢索此份文獻,如此,又可以更清楚的理解文字演進的過程。
正編(11-220)
可識殘文(221)
不可識殘文(223-229)
可識模糊字形(231-282)
重文符號(283)
正編筆畫檢字表(285-290)
模糊可識字筆畫檢字表(291-293)
列數898
缺字6
王凱博,《額濟納漢簡文字編》,吉林大學碩士論文,2014年7月。
【導師】馮勝君,周忠兵
01001-01045( 45 個
02001-02088( 89 個
03001-03090( 91 個
04001-04053( 54 個
05001-05061( 62 個
06001-06069( 70 個
07001-07065( 66 個
08001-08070( 71 個
09001-09040( 41 個
10001-10053( 54 個
11001-11030( 31 個
12001-12062( 63 個
13001-13061( 62 個
14001-14077( 78 個
877 個
「excel尋找取代」的應用例:
20130419《古文字詁林》部首檢字表處理中
http://blog.yam.com/ebag/article/61998992(已斷連)
進入「引得市」即可搜尋使用
沒有留言:
張貼留言