2025年2月15日 星期六

20140103《額濟納漢簡文字編》筆畫檢字表數位化完成

 20140103《額濟納漢簡文字編》筆畫檢字表數位化完成


舊連結(已斷連)http://blog.yam.com/ebag/article/83899545


知乎:https://zhuanlan.zhihu.com/p/24045255146


2025.2.16重新張貼在blog和知乎


【製作說明】

    這是2015年開春處理完成的的第一份筆畫檢字表,原始檢字表只有作者對單字的編號制訂(詳細如下所示),從01001開始,最後是14077。沒有直接的頁碼,所以筆者必須先把「正編」共210頁先一頁一頁的瀏覽,並且把編號與頁碼對照表打好,另外一邊,像往常一樣OCR辨識處理筆畫檢字表並且一字一字校正。前後兩份資訊如何快速結合呢?利用「excel尋找取代」的小技巧,就可以快速的把真正的「頁碼」顯示並列在文字後面。經過這樣的補上「頁碼」,使用起來才會方便。


    依照編號數量,計算起來只有877個,和EXXCEL最後的列數898個有所差異,應該是有些字重複出現所致,如「㠯」和「以」,「㱃」和「飲」字等,在檢字表中會有兩處,實際都是指向同一處頁碼。筆者發現重複且一樣的問題,古文字研究者的電腦技術通常不是很靈光,但是卻又不得不面對「古文字缺字」的問題,這份文字編的作者在缺字上處理的並不好,字跡圖檔相當模糊,很不利於瀏覽。現在之後,研究者應該好好利「用引得市」中的「古文字缺字資料庫」裡七千多字的古文缺字,這樣就不會再花時間又處理的不理想了。


    《額濟納漢簡》為西漢中期至東漢早期簡牘,最早紀年為神爵三年(公元前59年),最晚者為建武四年(公元28),現在「引得市」已經可以檢索此份文獻,如此,又可以更清楚的理解文字演進的過程。


正編(11-220)

可識殘文(221)

不可識殘文(223-229)

可識模糊字形(231-282)

重文符號(283)

正編筆畫檢字表(285-290)

模糊可識字筆畫檢字表(291-293)


列數898

缺字6



王凱博,《額濟納漢簡文字編》,吉林大學碩士論文,2014年7月。

【導師】馮勝君,周忠兵


01001-01045( 45 個

02001-02088( 89 個

03001-03090( 91 個

04001-04053( 54 個

05001-05061( 62 個

06001-06069( 70 個

07001-07065( 66 個

08001-08070( 71 個

09001-09040( 41 個

10001-10053( 54 個

11001-11030( 31 個

12001-12062( 63 個

13001-13061( 62 個

14001-14077( 78 個

        877 個



「excel尋找取代」的應用例:

20130419《古文字詁林》部首檢字表處理中

http://blog.yam.com/ebag/article/61998992(已斷連)



進入「引得市」即可搜尋使用

http://www.mebag.com/index/


沒有留言:

張貼留言

史上最早的家書(11號木牘和6號木牘二件)

史上最早的家書(11號木牘和6號木牘二件) 收信人衷(中)是二位主角的大哥,1975年年底出土的墓葬群,睡虎地秦墓四號墓的墓主人。棺木內沒有其他陪葬品,只有這二件家書。除了表示,沒有其他貴重的東西可以陪葬,也代表對家人的思念,濃厚的兄弟之情…。 在外征戰的二兄弟,參與了秦滅楚的大...