2020年8月13日 星期四

★20200814「古文字缺字資料庫」缺字處理方針說明★

 


★20200814「古文字缺字資料庫」缺字處理方針說明★



知乎:https://zhuanlan.zhihu.com/p/183802882


「古文字缺字資料庫」:http://www.mebag.com/index/quezi/List.asp


「古文字缺字資料庫」是筆者從2004年開始,為了戰國文字的顯示與檢索,而開始製作缺字圖形,各朝代時期,不同材質、材料的文獻中需要顯示的缺字集中在一處便於使用,目前也是「引得市」檢索字頭最重要的輔助資料庫。


筆者過去為了配合使用者舊系統的顯示,也把Unicode「C、D」區的字也處理成缺字圖形,十幾年過去了,作業系統Win 8也已經可以直接顯示「C、D」區。電腦系統汰換更新,加上Unicode擴張字不斷的新增,長遠來看,我們也應該調整造字的涵蓋範圍了。


在瑾昀兄的多次提醒與建議,筆者決定在今日起不再為Unicode「C、D、E、F、G」區的字製作缺字及編號,包括目前最新製作的文獻索引,Unicode「C、D、E、F、G」區的字直接錄入字頭,不再有編號。


和以往不同的是:


今年八月中旬以後製作的文獻,Unicode「C、D、E、F、G」區的字都已不再顯示缺字編號。原先的文獻索引還會顯示編號,會建議使用者改變習慣,直接使用C~G擴張區的字頭。


「缺字庫」列表中的流水號,以游標點選有「複製」整列字頭的功能,在方針策略改變後,其中Unicode字的複製的功能會過濾掉,例如:原本應該會是「s001-001(𫠭)」,目前變成「𫠭」(E區字)。其他Unicode以外的缺字,功能一樣沒有改變。


在瑾昀兄程式的調整下,「缺字庫」中,若是Unicode「C、D、E、F、G」區的缺字,都會優先以「字頭」作為關鍵字查詢主站的文獻,所以使用者不必擔心,未來文獻索引沒有缺字編號的時候,缺字庫對應不到的問題。功能都正常一樣可以使用


目前「缺字庫」中的Unicode「C、D、E、F、G」區的缺字約有1781筆,佔整體比例不到十分之一,可見我們處理的缺字的策略方向是正確的,即使Unicode的擴張字不斷的累積,但經過了二十年,依舊無法滿足學界對字頭的顯示與輸入需要。「缺字庫」仍有相當重要的存在必要。


我們會從開始「C、D」開始調整,將編號置換成真正的缺字,當然舊文獻的索引對應與修正是最重要的。關於缺字的處理與應用,還有很多值得改善調整的地方,歡迎師長朋友們持續給予建議與指教。


以上


沒有留言:

張貼留言

20240422《中國語言學大辭典》分類詞目表索引數位化完成

 20240422《中國語言學大辭典》分類詞目表索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/693938707 【製作說明】 這本書在33年前出版,正在看這篇文章的朋友可能都還沒出生?1991年那時候我在作什麼呢?就讀專科學校(美術工藝科),...