研究生：為研究而生: ★20200814「古文字缺字資料庫」缺字處理方針說明★

2020年8月13日星期四

「古文字缺字資料庫」是筆者從2004年開始，為了戰國文字的顯示與檢索，而開始製作缺字圖形，各朝代時期，不同材質、材料的文獻中需要顯示的缺字集中在一處便於使用，目前也是「引得市」檢索字頭最重要的輔助資料庫。

筆者過去為了配合使用者舊系統的顯示，也把Unicode「C、D」區的字也處理成缺字圖形，十幾年過去了，作業系統Win 8也已經可以直接顯示「C、D」區。電腦系統汰換更新，加上Unicode擴張字不斷的新增，長遠來看，我們也應該調整造字的涵蓋範圍了。

在瑾昀兄的多次提醒與建議，筆者決定在今日起不再為Unicode「C、D、E、F、G」區的字製作缺字及編號，包括目前最新製作的文獻索引，Unicode「C、D、E、F、G」區的字直接錄入字頭，不再有編號。

和以往不同的是：

今年八月中旬以後製作的文獻，Unicode「C、D、E、F、G」區的字都已不再顯示缺字編號。原先的文獻索引還會顯示編號，會建議使用者改變習慣，直接使用C～G擴張區的字頭。

「缺字庫」列表中的流水號，以游標點選有「複製」整列字頭的功能，在方針策略改變後，其中Unicode字的複製的功能會過濾掉，例如：原本應該會是「s001-001(𫠭)」，目前變成「𫠭」（E區字）。其他Unicode以外的缺字，功能一樣沒有改變。

在瑾昀兄程式的調整下，「缺字庫」中，若是Unicode「C、D、E、F、G」區的缺字，都會優先以「字頭」作為關鍵字查詢主站的文獻，所以使用者不必擔心，未來文獻索引沒有缺字編號的時候，缺字庫對應不到的問題。功能都正常一樣可以使用

目前「缺字庫」中的Unicode「C、D、E、F、G」區的缺字約有1781筆，佔整體比例不到十分之一，可見我們處理的缺字的策略方向是正確的，即使Unicode的擴張字不斷的累積，但經過了二十年，依舊無法滿足學界對字頭的顯示與輸入需要。「缺字庫」仍有相當重要的存在必要。

我們會從開始「C、D」開始調整，將編號置換成真正的缺字，當然舊文獻的索引對應與修正是最重要的。關於缺字的處理與應用，還有很多值得改善調整的地方，歡迎師長朋友們持續給予建議與指教。

以上