2021年3月19日 星期五

20210319請支援〈引得市〉

20210319請支援〈引得市〉



成立九年的〈引得市〉,正面臨重大的考驗…


昨天晚上,儲存數十年資料文獻的4T外接硬碟,無法正常開啟,也無法顯示內容。本來預計幾天內就要完成上線的〈戰國文字字形表〉 可能無法實現,這份重要的索引已經製作好幾年,與朋友共同協作,最後在筆者的校正與造字幾近完成…。

〈戰國文字字形表〉索引只是其中一份索引資料,硬碟內還有筆者多年研究的圖文、各種藝術文字資料,也包含〈引得市〉網站等等,全都是無法估計的價值,筆者會想辦法盡力的復原資料。

此刻朋友建議我公開這個消息,讓大家共同來協助表達支持,共體時艱。

所以,這個Google表單的目的有二:

一是建立〈引得市〉使用者的帳號資料之用。
二是說明目前〈引得市〉的狀況,非常需要使用者一起支持贊助。


★★★立即填寫表單:https://forms.gle/ss9TbHtQJDi6N2xm7

如果大家能在此關鍵時刻適時的支援〈引得市〉,贊助支持新程式的開發與網站的索引建立與營運開銷,這樣危機才可能是轉機。

表單填寫後,可以的話,請再分享給經常使用〈引得市〉的朋友…

感謝大家

〈引得市〉創辦人 陳信良敬上
2021.3.19

第三方支付(綠界):https://p.ecpay.com.tw/6A728A4

★★★立即填寫表單:https://forms.gle/ss9TbHtQJDi6N2xm7


進入引得市前,請先填寫表單問卷, 設定的帳號將作為日後登錄使用(2選1)

2021年3月9日 星期二

20210309「引得市工具包」使用心得報告

 

20210309「引得市工具包」使用心得報告



知乎:https://zhuanlan.zhihu.com/p/355856032


♥♥♥♥♥相當感謝瑾昀兄開發設計「引得市索引工具程式」,讓筆者能夠快速的更新處理龐大的索引資料,也讓廣大「引得市」的使用者擁有最新正確的索引資料。♥♥♥♥♥


【前言】


昨天瑾昀兄提供了程式的最新版本(index-tool v20210308.7z),解壓縮為「index-tool」裡面共有三個資料夾,分別是:


批次部件檢索

缺字工具包

部件檢索字符集


全部內容或許可稱為「引得市工具包」。(圖01)


說到這個工具程式,最早就要回朔到2019年了…,簡要的說,就是瑾昀兄所獨立研究開發,針對引得市的索引、部件經常大量頻繁更新修正,應用下可達到最高效率所需的處理工具。


筆者對程式完全不懂,不過在瑾昀兄熱心教導下,逐漸熟悉,也能夠頻繁的使用。還附上「readme.txt」詳盡的介紹工具的各種使用方式。


以下就針對三個主要功能做一些簡單說明。


一、【批次部件檢索】介紹(參用作者readme.txt)(圖02)

當中有三個檔案,分別是:component.txt、生成待轉換數據.bat、批次部件檢索.htm。


功能:提供一組構字式,通過批次部件檢索快速找出Unicode字(或補充字)


使用方式:

1. 在component.txt中填入構字式,一行一個。

2. 執行「生成待轉換數據.bat」,以生成批次部件檢索需要的「data.js」檔。

3. 打開「批次部件檢索.htm」,點擊「開始」按鈕,然後瀏覽器開始批次檢索(期間瀏覽器會卡住不動,請耐心等待)。

4. 瀏覽器執行完畢會把結果顯示在下方文本框中。結果有兩欄,分別爲構字式、對應的Unicode字(或補充字)。


▲透過這個工具,先把資料執行處理一遍,再詳細檢查資料就會很精準,避免一開始就逐條檢查,耗時費力。也可避免誤將一般Unicode字視為缺字。


---------------------------分隔線▲


二、【缺字工具包】介紹(參用作者readme.txt)(圖03)

當中有二個資料夾(有序版、無序版),二個檔案,分別是:quezi_data.txt、variants.txt。


功能一:提供一組構字式,批次找到缺字資料庫中精準(或者包容異體)匹配的缺字。依照構字式部件「有序」、「無序」與否分爲兩个版本。

功能二:排査缺字資料庫中的重複字(構字式一樣)。


注意:「有序版」和「無序版」操作一致,區別僅在於是否區分構字式部件的順序,以下操作適合任意一版。


缺字資料庫更新方式:

1. 將最新版缺字資料庫中的「缺字編號」和「構字式」兩欄貼到「quezi_data.txt」檔下。

2. 執行「重新生成詞典.bat」以生成最新的資料庫詞典「dict.bin」。


異體關係更新方式:

1. 打開variants.txt直接編輯保存即可,一行爲一組異體關係(兩兩互爲包容異體部件)。


功能一使用方式:

1. 確保缺字資料庫和異體關係已保持最新(見「缺字資料庫更新方式」和「異體關係更新方式」)。

2. 在component.txt中填入構字式,一行一個。

3.1 執行「批次缺字檢索(包容異體).bat」,待黑窗提示「轉換成功」。轉換結果在result_with_variant.txt檔裏,兩欄分別爲構字式、缺字編號(如果匹配多个則以「,」隔開)。

3.2 執行「批次缺字檢索(不包容異體).bat」,待黑窗提示「轉換成功」。轉換結果在result_without_variant.txt檔裏,兩欄分別爲構字式、缺字編號(如果匹配多个則以「,」隔開)。



功能二使用方式:

1. 確保缺字資料庫已更新完畢(見「缺字資料庫更新方式」)。

2. 執行「重複編號排査.bat」,待黑窗提示「構建詞典成功」。排査結果在duplicate.txt檔裏,兩欄分別爲構字式、缺字編號(如果匹配多个則以「,」隔開)。

注意:功能二不支持包容異體選項,只支持有序/無序選項。


▲「缺字工具包」有序、無序搭配異體部件關係,能將範圍限制縮得很小,也可放大擴展查詢的範圍,依照資料內容需要,自由的搭配調整,能有效精準的辨查字形重複或接近的文字。


將查到的結果,使用下列內容「尋找/取代」。


(s\d{3}-\d{3})

替換爲

<img src="http://glyphwiki.org/glyph/ebag_\1.svg" alt="\1" height="26px" />


再複製內容貼到「HackMD」當中,就能夠有構字式和缺字圖形顯示的結果(見:圖03c-1、圖03c-2、圖03c-3、圖03c-4、圖03c-5、圖03c-6)處理後,我們就能夠最快又精確的知道,構字式中部件多種組合下所呈現的缺字圖形,近二萬列中,有沒有重複造字就能一目了然。


---------------------------分隔線▲


三、【部件檢索字符集】介紹(參用作者readme.txt)(參用作者readme.txt)(圖04)


當中有一個資料夾(charset),二個檔案,分別是:doc、生成.bat。


功能:提供一組索引條目,生成部件檢索所需字符集文檔。


使用方式:

1. 在doc.txt中填入索引條目(書名+字頭兩欄,以tab分隔),一行一條。

2. 執行「生成.bat」,待黑窗提示「轉換成功」。結果在charset資料夾裏。


▲這個軟體也是相當好用的工具,現在只要按下生成執行的一秒鐘,就能把原先須要幾分甚至數十分以上的工作量瞬間濃縮減少。


舉例來說:缺字編號「s118-004」(構字式「竹膚,竹虍胃」)為2020年發布的G區字。在此之前,引得市中有:新見金文字編、楚系簡帛文字編(增訂本)、齊文字編、上博藏戰國楚竹書字匯、上博楚簡文字聲系(一-八)、古籀彙編、古文字譜系疏證、楚簡帛通假彙釋、簡帛古書通假字大系、古文字詁林、春秋文字字形表、古文字通假字典、金文大字典等13種文獻收入此字,原以「s118-004」呈現。我們除了手動開啟這13種excel修改成為「𰪠」之外,「部件檢索」(http://www.mebag.com/index/component.asp)所使用的不重複字頭檔案,也須要更正,把「𰪠」納入。(見:圖04a)


我們要把每種文獻的字頭複製出來,執行正規化,將「(.)」取代成「\1\r\n」,前後需要幾個步驟,如果修改文獻數量很多,加上更新的次數很頻繁的話,就很花處理時間。


---------------------------分隔線▲


【小結】缺字處理的重大革新


從以上三種不同的工具程式的介紹中,可以知道善用軟體工具不但加快工作流程,也會讓我們更積極的追求正確完善的內容。有了這些工具,可說是近年來「缺字處理的重大革新」。


最後,再說一下文獻缺字相關的製作經驗作為結束。


近期我們處理了《金文大字典》的索引。整理後得知,當中C至G區的字約有394列,以外的缺字則有530列。如果26年前出版時,我們立馬進行字頭輸入建檔的話,則缺字就高達394+530=924列,這本書全部字頭也才2671列,等於是有三成多的內容都是缺字,需要造字處理(無論是圖形顯示或安裝字形檔…)當時的檔案,現在如果要繼續使用,就得進行大規模的轉換更新。


《金文大字典》

字列 2112

缺字 530

圖形字 29

總字列 2671


我們要表達的是,面對眾多的古文缺字,使用者如果都不作為,就等著unicode每年發布的的擴張字,等了二十六年之後,只會多了三百多字,其他的幾百字還是得自己解決。


所以2004年開始,筆者就已經採用自己設計的方式來處理缺(古文字缺字資料庫),持續至今,依序建檔編號。當這些原有的缺字已被unicode納入擴張字當中,則我們也會立即因應更新,這樣的處理方式,未來仍是可行,能夠持續下去。


每年總是會發布新的擴張字,原有的「缺字」都有可能需要替換成unicode字,所以,更新文獻時,借助工具是很重要的。


例如:2020年unicode更新了G區的文字,「引得市」數百種索引文獻當中,如何取出這些原先的缺字,如果逐條檢查,就筆者一人處理,不知要多久才能完成。但是,有了好的軟體工具,就可快速處理完成,維持龐大資料精確的內容,資料經常更新維護,使用者也會經常使用,環環相扣,影響頗大。


【與時俱進的重要】


古文字資料庫只要有經費人力,人人都可以建置,但後續的維護與更新才是重點,持續更新維持才算是「活的資料庫」。而我們要如何判斷哪些是活的資料庫呢?只要使用E、F、G區的字查查看,如果這些區段的字都能夠檢索並且顯示的話,就是很好的證明。


♥♥♥♥♥相當感謝瑾昀兄開發設計「引得市索引工具程式」,讓筆者能夠快速的更新處理龐大的索引資料,也讓廣大「引得市」的使用者擁有最新正確的索引資料。♥♥♥♥♥
















【延伸閱讀】


20210309《金文大字典》索引數位化完成

blog:https://ebag2007.blogspot.com/2021/03/20210309.html

知乎:https://zhuanlan.zhihu.com/p/355845921

20210309《清華大學藏戰國竹簡(拾)》索引數位化完成

 20210309《清華大學藏戰國竹簡(拾)》索引數位化完成


知乎:https://zhuanlan.zhihu.com/p/355848194






【製作說明】


索引原先處理到168頁,169頁之後取俊安兄所提供的索引來修改,排序調整,補充缺字內容與構字式。新造缺字72處。包含先前的《馬王堆漢墓簡帛文字全編》、《金文大字典》的新造字,一個多禮拜下來筆者為了三種文獻新造了了五百多字,讓缺字庫現在達到19261字。引得市線上開放累計416種文獻。


字列 705

缺字 182

總字列 887


擴張C~G區有:34列


字形表

本文 160-232頁

合文 232-235頁








古文字缺字資料庫

http://www.mebag.com/index/quezi/List.asp


【使用說明】

進入引得市,上方選單「工具書▼」→「語文辭典」

網址:http://www.mebag.com/index/List.asp



【小額贊助】

如果「引得市」曾經幫助到您、而您想以實際行動支持我們的話,歡迎透過以下小額贊助的方式表達支持與鼓勵。無論金額多少都足夠表達您的一份心意。謝謝!

請點擊這裡→→http://www.mebag.com/index/donate.asp




【《清華大學藏戰國竹簡(拾)》檢索凡例】


一、本表依據隸定釋文,共收四千一百三十一個字形(重文按二字計),其中合文有二日五十六個,編號數字一百零八個,不識字四個。本表立字頭八百六十二個(含異體字頭)。

二、本表字形略依大徐本《説文》部首序列分排,不見於《説文》之字,依其構形附在相應的部首列字之後。

三、本表之序號爲《説文》之卷次與部序號,如1039字頭屬《説文》第十卷第三十九部心部。

四、本表附有拼音檢字索引、音節順序參考《漢語大字典》。所注拼音僅限於本輯釋文讀音,一字異音者互見。

五、本表附有筆畫檢字索引,筆畫計算參考《漢語大字典》。

六、凡合文附於表末,編號數字、不識字列爲附錄。



【延伸閱讀】

20210301《馬王堆漢墓簡帛文字全編》索引數位化完成


blog:https://ebag2007.blogspot.com/2021/02/20210301.html

知乎:https://zhuanlan.zhihu.com/p/353676711


---

黃德寬:《清華大學藏戰國竹簡(拾)》,上海:中西書局,2020年11月。
ISBN:978-7-5475-1744-4


20210309《金文大字典》索引數位化完成

 20210309《金文大字典》索引數位化完成


知乎:https://zhuanlan.zhihu.com/p/355845921




【製作說明】


文獻索引的產生,得從2016年談起,11月26日臉書網友Harmen Mesker先生問我能否製作《金文大字典》索引,原文是這樣的:

I do hope that one day you can add the 金文大字典 to the website, that would really help me. That book has a terrible index.

當時回覆有時間的話就會製作,直到2018年,筆者的「書法產業」課程,教導同學使用「部件檢索」輸入漢字,利用這份文獻索引作為實際的應用練習。


製作情形是,我們先將文獻中60頁的目錄建檔,每人分配一頁約50字上下,其餘由筆者製作(21頁),參與製作的同學有:

蔡育豪、曾靜揚、曾一修、陳玟伶、陳欣琦、董禮芫、郭家瑋、郭品瑩、洪嘉豪、許景程、黃浚彥、黃麗樺、黃彥榤、黃郁婷、李冠毅、李佳韓、李雯靜、林品妤、林映辰、林禹蓁、劉澟言、劉曼菱、呂秀敏、穆思妍、邱子芸、森田泰弘、蘇紹文、唐惟真、涂廸文、王緯齊、吳立慈、吳垣成、葉浩輝、葉淨慈、張景如、張廷、張翔媛、周怡萱、朱元儀等三十九位。


課程結束後,我並沒立即校正完成內容,那段時間還是忙著撰寫博士論文,往返日本。直到近期看到臉書的回顧,才又想起這份文獻應該要收尾一下了。


近日著手處理,依照目錄六十頁的內容一字一字檢查,然後excel改為頁碼排序,對照原書,五千多頁也是一頁一頁看,再把一些漏字加上,有些字頭不造字,而採用「圖形字」。此索引經統計,C至G區的字約有394列,可見這二十多年之間,unicode也才加入了三百多字,還有五百多字待日後加入擴張字(H、I、J、K…),最後造字新造約154字,花了將近一個禮拜的處理時間。



字列 2112

缺字 530

圖形字 29

總字列 2671


目錄(1-60)

本文(1-5680)


圖形字代號:t028













【補記】


《金文大字典》綠色的書皮,上中下三大冊,是當年很多人在金文研究或書法學習上很重要的工具書,出版已經26年,字頭釋文有部份已經改釋,研究金文的朋友應該會很清楚。今日完成與其他最新的文獻資料對照查詢,方便研究或一般讀者使用。


※特別說明:索引基本上都是取原書字形製作,另有31處取其他文獻調整字形,詳見文後補充說明。其餘有些字頭不適合造字,而改以「圖形字」呈現。


以前家人經常問我,花那麼多錢買那麼多書幹什麼?有每一本都看過嗎?的確,並沒有從頭到尾看完的書,那時的我也沒有多說什麼。


2012年「引得市」成立之後,就經常有機會把一本書從頭到尾「看」完,有時還不止看一遍。這就是「引得市」存在的價值之一,讓買書、擁有書的人,能夠好好的利用這本書,發揮書籍文獻的最大價值,把書當作一個資料庫,任意的檢索翻閱,今天我們又多了一本書可以好好利用…。


◆參與索引製作的北科大同學?都已經畢業了吧?(大家製作的成果在這裡啊…)






【使用說明】

進入引得市,上方選單「工具書▼」→「語文辭典」

網址:http://www.mebag.com/index/List.asp



【小額贊助】

如果「引得市」曾經幫助到您、而您想以實際行動支持我們的話,歡迎透過以下小額贊助的方式表達支持與鼓勵。無論金額多少都足夠表達您的一份心意。謝謝!

請點擊這裡→→http://www.mebag.com/index/donate.asp



【改動字形】31處


no 字頭 頁碼 目錄 構字式 備註

1 s032-266(廷) 0134 0001 𠃊土二亻,土𠃊二亻 參「包山楚墓文字全編」改形

2 s102-049(封) 0309 0002 丰田又 參「古文字譜系疏證」字形

3 𬔚(創) 0502 0004 立刅,立刃丶 參「戰國古文字典」字形

4 s022-030(䀇) 0568 0005 匚害五,匚宀丰吾,匚宀丰五口,匚宀三丨吾 參「春秋文字字形表」字形

5 𫧚(䀇) 0568 0005 匚害夫,匚㝬,匚宀丰口夫 參「西周文字字形表」字形

6 s027-042(𫨞) 0639 0006 厂止田𣥂,厂步田 參「古文字譜系疏證」字形

7 s038-177(s038-259) 1433 0013 甶𢆶女,甶幺幺女,丿田幺幺女 參「新金文編」字形

8 s030-365(亟) 1739 0016 一口人一,二口人 參「西周文字字形表」字形

9 s085-461 2561 0024 脰水,⺼豆水,月豆水 參「古文字詁林」字形

10 s102-096(灅)(㵢) 2567 0025 𤳳水,畕畕水,田田田田水,氵𤳳 參「古文字詁林」字形

11 s072-195(揚) 2582 0025 日王丮,日王⺄二丨 參「西周文字字形表」字形

12 𬋝(燹) 2686 0026 㣈火,㣇㣇火 參「古文字譜系疏證」字形

13 s030-384(豫) 2728 0026 八吕土象,八口口土象,八呂土象 參「春秋文字字形表」字形

14 s090-055(s090-098)(牅) 2737 0026 二丨凵爿,一一丨凵爿,𠙹爿 參「古文字詁林」字形

15 s030-089(嗣) 3268 0031 司册,司冊,𠃌一口册 參「上博楚簡文字聲系(一-八)」字形

16 𫲀(媵) 3940 0037 塍女,月龹土女,月八夫土女 參「春秋文字字形表」字形

17 s060-202(奔) 4473 0043 彳奔,彳大卉,彳大十廾 參「西周文字字形表」字形

18 𨏵(𨌲) 4523 0044 參「金文形義通解」字形

19 𬩗 4646 0046 遄尤,辶耑尤,辵耑尤 參「春秋文字字形表」字形

20 s162-360(遹) 4679 0046 辵𦥑矛內,辶𦥑矛內 參「古文字譜系疏證」字形

21 𨙅 4719 0047 參「古文字譜系疏證」字形

22 4754 0047 參「新金文編」字形

23 s163-406(𬪤) 4779 0048 䋣邑,䋣阝,每糸邑,每糸阝 參「春秋文字字形表」字形

24 s028-032(𩛥) 4866 0048 甾冖㿝,巛田冖白厶 參「古文字通假字典」字形

25 𬮔(𫴨) 4975 0050 柬閒,柬門月 參「商代文字字形表」字形

26 5015 0050 參「新金文編」字形

27 s172-088(鶉) 5019 0050 亯羊隹,𦎫隹,亠口日羊隹 參「西周文字字形表」字形

28 s137-038 5228 0053 𠃜舟頁,尸丨舟頁 參「古文字譜系疏證」字形

29 s196-040 5449 0056 來𠂇虍鳥,來十虍鳥 參「新金文編」字形

30 s206-037(鼎) 5607 0059 鼑𦥑甶大廾,卜鼎𦥑甶大廾 參「古文字譜系疏證」形

31 𬴤 5647 0060 𬴘奠,亠口日口一丨奠 參「古文字譜系疏證」形


【圖形字】39處


字頭 頁碼 目錄頁碼 備註

t028-0152-001 0152 0001 圖形字

t028-0159-001(帝) 0159 0002 圖形字

t028-0163-001(丁) 0163 0002 圖形字

t028-0178-001(父) 0178 0002 圖形字

t028-0570-001 0570 0005 圖形字

t028-0571-001 0571 0005 圖形字

t028-0626-001(匹) 0626 0006 圖形字

t028-1202-001(易) 1202 0011 圖形字

t028-1309-001(倉) 1309 0012 圖形字

t028-1312-001(會) 1312 0012 圖形字

t028-1339-001(屰) 1339 0012 圖形字

t028-1343-001(亢) 1343 0012 圖形字

t028-1588-001(圍) 1588 0014 圖形字

t028-1800-001(嗌) 1800 0016 圖形字

t028-2100-001(冬) 2100 0020 圖形字

t028-2584-001(揚) 2584 0025 圖形字

t028-2960-001(厄)(戹) 2960 0028 圖形字

t028-2964-001(易) 2964 0028 圖形字

t028-3035-001(盾) 3035 0029 圖形字

t028-3103-001(箙) 3103 0029 圖形字

t028-3274-001(朋) 3274 0031 圖形字

t028-3289-001(頊) 3287 0031 圖形字

t028-3520-001 3520 0033 圖形字

t028-4069-001 4069 0039 圖形字

t028-4180-001 4180 0040 圖形字

t028-4254-001(畢) 4254 0041 圖形字

t028-4820-001(克) 4820 0048 圖形字

t028-5327-001(亯) 5327 0055 圖形字

t028-5583-001(單) 5583 0059 圖形字



【延伸閱讀】

臉書帖:https://www.facebook.com/INdex201207/posts/1669822133105349


---

戴家祥:《金文大字典》(上中下),上海:學林出版社,1995年1月。

ISBN:7-80616-064-7


20240315阿良人的研究LIFE __閒談「說文解字」的規整化(影音記錄)

20240315阿良人的研究LIFE __閒談「說文解字」的規整化 (影音記錄)   知乎: https://zhuanlan.zhihu.com/p/687396300 【開場白】 前一次錄影記錄了:阿良人的研究 LIFE __ 「引得市·說文解字」資料庫介紹,整體效果還不錯。...