★20200814「古文字缺字資料庫」缺字處理方針說明★
知乎:https://zhuanlan.zhihu.com/p/183802882
「古文字缺字資料庫」:http://www.mebag.com/index/quezi/List.asp
「古文字缺字資料庫」是筆者從2004年開始,為了戰國文字的顯示與檢索,而開始製作缺字圖形,各朝代時期,不同材質、材料的文獻中需要顯示的缺字集中在一處便於使用,目前也是「引得市」檢索字頭最重要的輔助資料庫。
筆者過去為了配合使用者舊系統的顯示,也把Unicode「C、D」區的字也處理成缺字圖形,十幾年過去了,作業系統Win 8也已經可以直接顯示「C、D」區。電腦系統汰換更新,加上Unicode擴張字不斷的新增,長遠來看,我們也應該調整造字的涵蓋範圍了。
在瑾昀兄的多次提醒與建議,筆者決定在今日起不再為Unicode「C、D、E、F、G」區的字製作缺字及編號,包括目前最新製作的文獻索引,Unicode「C、D、E、F、G」區的字直接錄入字頭,不再有編號。
和以往不同的是:
今年八月中旬以後製作的文獻,Unicode「C、D、E、F、G」區的字都已不再顯示缺字編號。原先的文獻索引還會顯示編號,會建議使用者改變習慣,直接使用C~G擴張區的字頭。
「缺字庫」列表中的流水號,以游標點選有「複製」整列字頭的功能,在方針策略改變後,其中Unicode字的複製的功能會過濾掉,例如:原本應該會是「s001-001(𫠭)」,目前變成「𫠭」(E區字)。其他Unicode以外的缺字,功能一樣沒有改變。
在瑾昀兄程式的調整下,「缺字庫」中,若是Unicode「C、D、E、F、G」區的缺字,都會優先以「字頭」作為關鍵字查詢主站的文獻,所以使用者不必擔心,未來文獻索引沒有缺字編號的時候,缺字庫對應不到的問題。功能都正常一樣可以使用
目前「缺字庫」中的Unicode「C、D、E、F、G」區的缺字約有1781筆,佔整體比例不到十分之一,可見我們處理的缺字的策略方向是正確的,即使Unicode的擴張字不斷的累積,但經過了二十年,依舊無法滿足學界對字頭的顯示與輸入需要。「缺字庫」仍有相當重要的存在必要。
我們會從開始「C、D」開始調整,將編號置換成真正的缺字,當然舊文獻的索引對應與修正是最重要的。關於缺字的處理與應用,還有很多值得改善調整的地方,歡迎師長朋友們持續給予建議與指教。
以上
沒有留言:
張貼留言