2021年3月9日 星期二

20210309「引得市工具包」使用心得報告

 

20210309「引得市工具包」使用心得報告



知乎:https://zhuanlan.zhihu.com/p/355856032


♥♥♥♥♥相當感謝瑾昀兄開發設計「引得市索引工具程式」,讓筆者能夠快速的更新處理龐大的索引資料,也讓廣大「引得市」的使用者擁有最新正確的索引資料。♥♥♥♥♥


【前言】


昨天瑾昀兄提供了程式的最新版本(index-tool v20210308.7z),解壓縮為「index-tool」裡面共有三個資料夾,分別是:


批次部件檢索

缺字工具包

部件檢索字符集


全部內容或許可稱為「引得市工具包」。(圖01)


說到這個工具程式,最早就要回朔到2019年了…,簡要的說,就是瑾昀兄所獨立研究開發,針對引得市的索引、部件經常大量頻繁更新修正,應用下可達到最高效率所需的處理工具。


筆者對程式完全不懂,不過在瑾昀兄熱心教導下,逐漸熟悉,也能夠頻繁的使用。還附上「readme.txt」詳盡的介紹工具的各種使用方式。


以下就針對三個主要功能做一些簡單說明。


一、【批次部件檢索】介紹(參用作者readme.txt)(圖02)

當中有三個檔案,分別是:component.txt、生成待轉換數據.bat、批次部件檢索.htm。


功能:提供一組構字式,通過批次部件檢索快速找出Unicode字(或補充字)


使用方式:

1. 在component.txt中填入構字式,一行一個。

2. 執行「生成待轉換數據.bat」,以生成批次部件檢索需要的「data.js」檔。

3. 打開「批次部件檢索.htm」,點擊「開始」按鈕,然後瀏覽器開始批次檢索(期間瀏覽器會卡住不動,請耐心等待)。

4. 瀏覽器執行完畢會把結果顯示在下方文本框中。結果有兩欄,分別爲構字式、對應的Unicode字(或補充字)。


▲透過這個工具,先把資料執行處理一遍,再詳細檢查資料就會很精準,避免一開始就逐條檢查,耗時費力。也可避免誤將一般Unicode字視為缺字。


---------------------------分隔線▲


二、【缺字工具包】介紹(參用作者readme.txt)(圖03)

當中有二個資料夾(有序版、無序版),二個檔案,分別是:quezi_data.txt、variants.txt。


功能一:提供一組構字式,批次找到缺字資料庫中精準(或者包容異體)匹配的缺字。依照構字式部件「有序」、「無序」與否分爲兩个版本。

功能二:排査缺字資料庫中的重複字(構字式一樣)。


注意:「有序版」和「無序版」操作一致,區別僅在於是否區分構字式部件的順序,以下操作適合任意一版。


缺字資料庫更新方式:

1. 將最新版缺字資料庫中的「缺字編號」和「構字式」兩欄貼到「quezi_data.txt」檔下。

2. 執行「重新生成詞典.bat」以生成最新的資料庫詞典「dict.bin」。


異體關係更新方式:

1. 打開variants.txt直接編輯保存即可,一行爲一組異體關係(兩兩互爲包容異體部件)。


功能一使用方式:

1. 確保缺字資料庫和異體關係已保持最新(見「缺字資料庫更新方式」和「異體關係更新方式」)。

2. 在component.txt中填入構字式,一行一個。

3.1 執行「批次缺字檢索(包容異體).bat」,待黑窗提示「轉換成功」。轉換結果在result_with_variant.txt檔裏,兩欄分別爲構字式、缺字編號(如果匹配多个則以「,」隔開)。

3.2 執行「批次缺字檢索(不包容異體).bat」,待黑窗提示「轉換成功」。轉換結果在result_without_variant.txt檔裏,兩欄分別爲構字式、缺字編號(如果匹配多个則以「,」隔開)。



功能二使用方式:

1. 確保缺字資料庫已更新完畢(見「缺字資料庫更新方式」)。

2. 執行「重複編號排査.bat」,待黑窗提示「構建詞典成功」。排査結果在duplicate.txt檔裏,兩欄分別爲構字式、缺字編號(如果匹配多个則以「,」隔開)。

注意:功能二不支持包容異體選項,只支持有序/無序選項。


▲「缺字工具包」有序、無序搭配異體部件關係,能將範圍限制縮得很小,也可放大擴展查詢的範圍,依照資料內容需要,自由的搭配調整,能有效精準的辨查字形重複或接近的文字。


將查到的結果,使用下列內容「尋找/取代」。


(s\d{3}-\d{3})

替換爲

<img src="http://glyphwiki.org/glyph/ebag_\1.svg" alt="\1" height="26px" />


再複製內容貼到「HackMD」當中,就能夠有構字式和缺字圖形顯示的結果(見:圖03c-1、圖03c-2、圖03c-3、圖03c-4、圖03c-5、圖03c-6)處理後,我們就能夠最快又精確的知道,構字式中部件多種組合下所呈現的缺字圖形,近二萬列中,有沒有重複造字就能一目了然。


---------------------------分隔線▲


三、【部件檢索字符集】介紹(參用作者readme.txt)(參用作者readme.txt)(圖04)


當中有一個資料夾(charset),二個檔案,分別是:doc、生成.bat。


功能:提供一組索引條目,生成部件檢索所需字符集文檔。


使用方式:

1. 在doc.txt中填入索引條目(書名+字頭兩欄,以tab分隔),一行一條。

2. 執行「生成.bat」,待黑窗提示「轉換成功」。結果在charset資料夾裏。


▲這個軟體也是相當好用的工具,現在只要按下生成執行的一秒鐘,就能把原先須要幾分甚至數十分以上的工作量瞬間濃縮減少。


舉例來說:缺字編號「s118-004」(構字式「竹膚,竹虍胃」)為2020年發布的G區字。在此之前,引得市中有:新見金文字編、楚系簡帛文字編(增訂本)、齊文字編、上博藏戰國楚竹書字匯、上博楚簡文字聲系(一-八)、古籀彙編、古文字譜系疏證、楚簡帛通假彙釋、簡帛古書通假字大系、古文字詁林、春秋文字字形表、古文字通假字典、金文大字典等13種文獻收入此字,原以「s118-004」呈現。我們除了手動開啟這13種excel修改成為「𰪠」之外,「部件檢索」(http://www.mebag.com/index/component.asp)所使用的不重複字頭檔案,也須要更正,把「𰪠」納入。(見:圖04a)


我們要把每種文獻的字頭複製出來,執行正規化,將「(.)」取代成「\1\r\n」,前後需要幾個步驟,如果修改文獻數量很多,加上更新的次數很頻繁的話,就很花處理時間。


---------------------------分隔線▲


【小結】缺字處理的重大革新


從以上三種不同的工具程式的介紹中,可以知道善用軟體工具不但加快工作流程,也會讓我們更積極的追求正確完善的內容。有了這些工具,可說是近年來「缺字處理的重大革新」。


最後,再說一下文獻缺字相關的製作經驗作為結束。


近期我們處理了《金文大字典》的索引。整理後得知,當中C至G區的字約有394列,以外的缺字則有530列。如果26年前出版時,我們立馬進行字頭輸入建檔的話,則缺字就高達394+530=924列,這本書全部字頭也才2671列,等於是有三成多的內容都是缺字,需要造字處理(無論是圖形顯示或安裝字形檔…)當時的檔案,現在如果要繼續使用,就得進行大規模的轉換更新。


《金文大字典》

字列 2112

缺字 530

圖形字 29

總字列 2671


我們要表達的是,面對眾多的古文缺字,使用者如果都不作為,就等著unicode每年發布的的擴張字,等了二十六年之後,只會多了三百多字,其他的幾百字還是得自己解決。


所以2004年開始,筆者就已經採用自己設計的方式來處理缺(古文字缺字資料庫),持續至今,依序建檔編號。當這些原有的缺字已被unicode納入擴張字當中,則我們也會立即因應更新,這樣的處理方式,未來仍是可行,能夠持續下去。


每年總是會發布新的擴張字,原有的「缺字」都有可能需要替換成unicode字,所以,更新文獻時,借助工具是很重要的。


例如:2020年unicode更新了G區的文字,「引得市」數百種索引文獻當中,如何取出這些原先的缺字,如果逐條檢查,就筆者一人處理,不知要多久才能完成。但是,有了好的軟體工具,就可快速處理完成,維持龐大資料精確的內容,資料經常更新維護,使用者也會經常使用,環環相扣,影響頗大。


【與時俱進的重要】


古文字資料庫只要有經費人力,人人都可以建置,但後續的維護與更新才是重點,持續更新維持才算是「活的資料庫」。而我們要如何判斷哪些是活的資料庫呢?只要使用E、F、G區的字查查看,如果這些區段的字都能夠檢索並且顯示的話,就是很好的證明。


♥♥♥♥♥相當感謝瑾昀兄開發設計「引得市索引工具程式」,讓筆者能夠快速的更新處理龐大的索引資料,也讓廣大「引得市」的使用者擁有最新正確的索引資料。♥♥♥♥♥
















【延伸閱讀】


20210309《金文大字典》索引數位化完成

blog:https://ebag2007.blogspot.com/2021/03/20210309.html

知乎:https://zhuanlan.zhihu.com/p/355845921

沒有留言:

張貼留言

20220429《新華大字典》(第3版.彩色本)索引數位化完成

 20220429《新華大字典》(第3版.彩色本)索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/507157904 【資料庫訂閱制】 20210903「語文辭典」2021.9.6(一)實施訂閱制 Blog: https://ebag2007.b...