研究生：為研究而生: 20210309「引得市工具包」使用心得報告

20210309「引得市工具包」使用心得報告

知乎：https://zhuanlan.zhihu.com/p/355856032

♥♥♥♥♥相當感謝瑾昀兄開發設計「引得市索引工具程式」，讓筆者能夠快速的更新處理龐大的索引資料，也讓廣大「引得市」的使用者擁有最新正確的索引資料。♥♥♥♥♥

【前言】

昨天瑾昀兄提供了程式的最新版本（index-tool v20210308.7z），解壓縮為「index-tool」裡面共有三個資料夾，分別是：

批次部件檢索

缺字工具包

部件檢索字符集

全部內容或許可稱為「引得市工具包」。（圖01）

說到這個工具程式，最早就要回朔到2019年了…，簡要的說，就是瑾昀兄所獨立研究開發，針對引得市的索引、部件經常大量頻繁更新修正，應用下可達到最高效率所需的處理工具。

筆者對程式完全不懂，不過在瑾昀兄熱心教導下，逐漸熟悉，也能夠頻繁的使用。還附上「readme.txt」詳盡的介紹工具的各種使用方式。

以下就針對三個主要功能做一些簡單說明。

一、【批次部件檢索】介紹（參用作者readme.txt）（圖02）

當中有三個檔案，分別是：component.txt、生成待轉換數據.bat、批次部件檢索.htm。

功能：提供一組構字式，通過批次部件檢索快速找出Unicode字（或補充字）

使用方式：

1. 在component.txt中填入構字式，一行一個。

2. 執行「生成待轉換數據.bat」，以生成批次部件檢索需要的「data.js」檔。

3. 打開「批次部件檢索.htm」，點擊「開始」按鈕，然後瀏覽器開始批次檢索（期間瀏覽器會卡住不動，請耐心等待）。

4. 瀏覽器執行完畢會把結果顯示在下方文本框中。結果有兩欄，分別爲構字式、對應的Unicode字（或補充字）。

▲透過這個工具，先把資料執行處理一遍，再詳細檢查資料就會很精準，避免一開始就逐條檢查，耗時費力。也可避免誤將一般Unicode字視為缺字。

---------------------------分隔線▲

二、【缺字工具包】介紹（參用作者readme.txt）（圖03）

當中有二個資料夾（有序版、無序版），二個檔案，分別是：quezi_data.txt、variants.txt。

功能一：提供一組構字式，批次找到缺字資料庫中精準（或者包容異體）匹配的缺字。依照構字式部件「有序」、「無序」與否分爲兩个版本。

功能二：排査缺字資料庫中的重複字（構字式一樣）。

注意：「有序版」和「無序版」操作一致，區別僅在於是否區分構字式部件的順序，以下操作適合任意一版。

缺字資料庫更新方式：

1. 將最新版缺字資料庫中的「缺字編號」和「構字式」兩欄貼到「quezi_data.txt」檔下。

2. 執行「重新生成詞典.bat」以生成最新的資料庫詞典「dict.bin」。

異體關係更新方式：

1. 打開variants.txt直接編輯保存即可，一行爲一組異體關係（兩兩互爲包容異體部件）。

功能一使用方式：

1. 確保缺字資料庫和異體關係已保持最新（見「缺字資料庫更新方式」和「異體關係更新方式」）。

2. 在component.txt中填入構字式，一行一個。

3.1 執行「批次缺字檢索(包容異體).bat」，待黑窗提示「轉換成功」。轉換結果在result_with_variant.txt檔裏，兩欄分別爲構字式、缺字編號（如果匹配多个則以「,」隔開）。

3.2 執行「批次缺字檢索(不包容異體).bat」，待黑窗提示「轉換成功」。轉換結果在result_without_variant.txt檔裏，兩欄分別爲構字式、缺字編號（如果匹配多个則以「,」隔開）。

功能二使用方式：

1. 確保缺字資料庫已更新完畢（見「缺字資料庫更新方式」）。

2. 執行「重複編號排査.bat」，待黑窗提示「構建詞典成功」。排査結果在duplicate.txt檔裏，兩欄分別爲構字式、缺字編號（如果匹配多个則以「,」隔開）。

注意：功能二不支持包容異體選項，只支持有序/無序選項。

▲「缺字工具包」有序、無序搭配異體部件關係，能將範圍限制縮得很小，也可放大擴展查詢的範圍，依照資料內容需要，自由的搭配調整，能有效精準的辨查字形重複或接近的文字。

將查到的結果，使用下列內容「尋找/取代」。

(s\d{3}-\d{3})

替換爲

再複製內容貼到「HackMD」當中，就能夠有構字式和缺字圖形顯示的結果（見：圖03c-1、圖03c-2、圖03c-3、圖03c-4、圖03c-5、圖03c-6）處理後，我們就能夠最快又精確的知道，構字式中部件多種組合下所呈現的缺字圖形，近二萬列中，有沒有重複造字就能一目了然。

---------------------------分隔線▲

三、【部件檢索字符集】介紹（參用作者readme.txt）（參用作者readme.txt）（圖04）

當中有一個資料夾（charset），二個檔案，分別是：doc、生成.bat。

功能：提供一組索引條目，生成部件檢索所需字符集文檔。

使用方式：

1. 在doc.txt中填入索引條目（書名+字頭兩欄，以tab分隔），一行一條。

2. 執行「生成.bat」，待黑窗提示「轉換成功」。結果在charset資料夾裏。

▲這個軟體也是相當好用的工具，現在只要按下生成執行的一秒鐘，就能把原先須要幾分甚至數十分以上的工作量瞬間濃縮減少。

舉例來說：缺字編號「s118-004」（構字式「竹膚,竹虍胃」）為2020年發布的G區字。在此之前，引得市中有：新見金文字編、楚系簡帛文字編(增訂本)、齊文字編、上博藏戰國楚竹書字匯、上博楚簡文字聲系(一-八)、古籀彙編、古文字譜系疏證、楚簡帛通假彙釋、簡帛古書通假字大系、古文字詁林、春秋文字字形表、古文字通假字典、金文大字典等13種文獻收入此字，原以「s118-004」呈現。我們除了手動開啟這13種excel修改成為「𰪠」之外，「部件檢索」（http://www.mebag.com/index/component.asp）所使用的不重複字頭檔案，也須要更正，把「𰪠」納入。（見：圖04a）

我們要把每種文獻的字頭複製出來，執行正規化，將「(.)」取代成「\1\r\n」，前後需要幾個步驟，如果修改文獻數量很多，加上更新的次數很頻繁的話，就很花處理時間。

---------------------------分隔線▲

【小結】缺字處理的重大革新

從以上三種不同的工具程式的介紹中，可以知道善用軟體工具不但加快工作流程，也會讓我們更積極的追求正確完善的內容。有了這些工具，可說是近年來「缺字處理的重大革新」。

最後，再說一下文獻缺字相關的製作經驗作為結束。

近期我們處理了《金文大字典》的索引。整理後得知，當中C至G區的字約有394列，以外的缺字則有530列。如果26年前出版時，我們立馬進行字頭輸入建檔的話，則缺字就高達394+530＝924列，這本書全部字頭也才2671列，等於是有三成多的內容都是缺字，需要造字處理（無論是圖形顯示或安裝字形檔…）當時的檔案，現在如果要繼續使用，就得進行大規模的轉換更新。

《金文大字典》

字列 2112

缺字 530

圖形字 29

總字列 2671

我們要表達的是，面對眾多的古文缺字，使用者如果都不作為，就等著unicode每年發布的的擴張字，等了二十六年之後，只會多了三百多字，其他的幾百字還是得自己解決。

所以2004年開始，筆者就已經採用自己設計的方式來處理缺(古文字缺字資料庫)，持續至今，依序建檔編號。當這些原有的缺字已被unicode納入擴張字當中，則我們也會立即因應更新，這樣的處理方式，未來仍是可行，能夠持續下去。

每年總是會發布新的擴張字，原有的「缺字」都有可能需要替換成unicode字，所以，更新文獻時，借助工具是很重要的。

例如：2020年unicode更新了G區的文字，「引得市」數百種索引文獻當中，如何取出這些原先的缺字，如果逐條檢查，就筆者一人處理，不知要多久才能完成。但是，有了好的軟體工具，就可快速處理完成，維持龐大資料精確的內容，資料經常更新維護，使用者也會經常使用，環環相扣，影響頗大。

【與時俱進的重要】

古文字資料庫只要有經費人力，人人都可以建置，但後續的維護與更新才是重點，持續更新維持才算是「活的資料庫」。而我們要如何判斷哪些是活的資料庫呢？只要使用E、F、G區的字查查看，如果這些區段的字都能夠檢索並且顯示的話，就是很好的證明。