2020年3月7日 星期六

20200307《漢語大字典》、《漢語大詞典》、《辭源》三種字辭典索引開放使用

20200307《漢語大字典》、《漢語大詞典》、《辭源》三種字辭典索引開放使用

知乎:https://zhuanlan.zhihu.com/p/111663469

【製作說明】


此次的索引(資料庫)是「引得市」是相隔數月之後,再次多人協作的成果。《漢語大字典》、《漢語大詞典》、《辭源》這三種工具書是許多研究者經常使用查詢的書籍(通用的程度,應該無須多加介紹了…),不論是線上或離線,有許多型態可供使用者查詢應用。既然市面上已經有類似的索引,「引得市」為何還重複製作呢?理由如下:

1.三種索引皆由w兄所提供,校正多次,值得參用。
2.索引內容整合w兄所製作的「部件檢索」支援所有漢字顯示、檢索與拆分。完整支援字頭,例如《漢語大字典》的[交力龜]等字。
3.w兄是「開卷助理」(Gopage)的作者,隨查、隨點、隨看,快速游移在文獻書海,配合這三種索引又是最佳的整合用例。







我們將此三種字辭典合併在一處資料庫,命名為「語文辭典(擴展)」,未來視情況陸續增加內容。「語文辭典(擴展)」主要查詢的「文字」欄位完整支援「部件檢索」。提供「文字」、「筆畫」、「部首」、「拼音」欄位等關鍵字檢索。目前「筆畫」、「部首」、「拼音」欄位資訊尚未完善,將擇日補充。詞條經由正則式的排查後,取得不重複的單字字頭如下:

《漢語大字典》詞條約60367列,不重複字頭約:60366字
《漢語大詞典》詞條約356785列,不重複字頭約19050字
《辭源》詞條約111101列,不重複字頭約14393字


「部件檢索」取用這些不重複的字頭,讓使用者即使不知文字發音,輸入困難下也能藉由偏旁部件的拼湊來查詢內容。善用「部件檢索」才能將文獻的查詢發揮到極致,建議初次使用的朋友必定要好好的學習一下。

「引得市」成立將近八年,受到越來越多研究者的喜愛,除了更新速度快之外,檢索使用直觀與便利性應是主因,背後功臣就是W兄與瑾昀兄。W兄製作各種「部件檢索」程式與字型包的配合應用,瑾昀兄所撰寫的主站程式,又將「部件檢索」完善的應用在「引得市」中。

今日下午開始,筆者與瑾昀兄討論這次索引的製作方針,決定後瑾昀兄立馬著手製作了「語文辭典(擴展)」,經數個小時處理,終於在傍晚時完成,測試無誤後隨即上線。

現在「部件檢索」分成三大部份:「語文辭典」、「語文辭典(擴展)」、「說文解字」等,之間以灰階橫線區隔。將二百餘種字辭典等工具書文獻索引最佳化的整合在此,是「引得市」漢字檢索最重要的核心。

W兄與瑾昀兄都是漢字處理的專家,這三種文獻合併有數十萬筆的資料(528253),配合「部件檢索」的應用,相信必能讓各種字辭典有最佳視覺呈現與應用發揮。

「語文辭典(擴展)」網址:http://www.mebag.com/index/main_ext/list.asp

【使用說明】


使用「語文辭典(擴展)」之前,字型安裝是絕對必要的。除了「花園明朝(HanaMin)」之外,「FSung-F.ttf」也是有安裝的必要。如此,瀏覽器才能顯示黃橘底色的「補充字」,「補充字」是擴張C~F字以外尚未編碼的補充漢字(第15字面的字符),由w兄所製作整理。

關於漢字的顯示,強烈建議參考w兄《漢字使用環境的建置 ㈠ —— 顯示篇》(http://fgwang.blogspot.com/2018/02/blog-post.html)下載「全宋體.zip」,可全部安裝,或者只安裝其中的「FSung-F.ttf」。安裝好字型之後,建議將關閉瀏覽器再重開,測試看看能否正確的顯示。



最後,再節錄W兄《漢字使用環境的建置 ㈠ —— 顯示篇》一文,作為字型製作的補充說明:


【猶有不足】


可惜好景不常,很快地我又發現,光是這些 Unicode 定義的漢字還是不夠,像《康熙字典》、《漢語大字典》,甚至教育部的《重編國語辭典》以及我製作的「部件檢索」等等都還是需要一些 Unicode 沒有定義的字符。於是我又醞釀擴充,想把這些缺字補起來。這時剛好結識了對岸的網友 —— 紫雪藍海兄,他整理了一套私造字型,包含了《漢語大字典》的所有字頭缺字,但苦無檢字方法。於是我、紫兄和瑾昀三人一起合作,把紫兄提供的字型、以及「部件檢索」用到的部件字型(源自於中研院的漢字構形資料庫)全部重新整理,去蕪存菁,重訂編碼,另外製作了一套補充字型。結合了「部件檢索」的檢字功能,使得這些 Unicode 尚未編碼的漢字得以顯示、檢索,就像正常的已編碼漢字一般。至此我的漢字顯示環境算是「大勢底定」,可以實際上線運用了。

特別要提醒注意的是,補充字區的訂定只是一種暫時性的權宜之計,讓尚無 Unicode 官方標準之前有個可以使用的臨時管道。若某些補充字日後被官方正式收錄,那它們將從補充字中被剔除,移入正式字區。這些空下的碼位有可能被回收利用,再定義為其他新的補充字。因此每次新的官方標準發布後,都應該立即檢查一次補充字,將已正式編碼的字進行遷碼處理。

花園明朝(HanaMin)連結:https://zh-tw.osdn.net/projects/hanazono-font/downloads/68253/hanazono-20170904.zip/

「全宋體.zip」百度連結:https://pan.baidu.com/s/1W18LprA9gIali_uRIbZw9g
提取碼:cz8r

※再次提醒,「部件檢索」若要使用點選字跳頁功能,請取消「複製模式」的勾選。

【使用方式】


進入「引得市」上方選單「工具書▲」→「語文辭典(擴展)」
或輸入網址:http://www.mebag.com/index/main_ext/list.asp










【小額贊助】
http://www.mebag.com/index/donate.asp

【留言反饋】
http://www.mebag.com/index/discussion.asp


【後記】


根據瑾昀兄的建議,引得市日後會這樣來發展:

1.語文辭典,支持引得市缺字以及部件檢索已編碼字。
2.語文辭典(擴展),支持部件檢索已編碼字和補充字,不支持引得市缺字。專用於放W式辭典,因此,語文辭典(擴展)和部件檢索的相容性會更好。

也就是說,「語文辭典(擴展)」不像「語文辭典」以缺字庫的缺字編號+擴張C~F來顯示缺字。直接利用擴張字與「補充字」,在一般漢字顯示上相對較簡潔與完整。「語文辭典」以缺字編號來呈現缺字,隨著造字的數量增加,在古文字的支援上會比較足夠。因此,兩種型態的處理設計各有優缺點,使用者各取所需。

筆者再次替廣大的使用者謝謝W兄與瑾昀兄,兩人的無私付出與合作下,將文獻索引與檢索程式絕佳的搭配應用,提昇使用者的研究效率。即使各種文字寫作中不便註記,但在心裡應當也會有一個感謝的位置才是。

2020年開始至今,各地為防止病毒擴散,出入有所限制,影響生活甚大。而遠端視訊與各種數位應用顯得更加重要,期盼各地疫情儘早落幕,恢復往日正常作息。

------

「語文辭典(擴展)」網址:http://www.mebag.com/index/main_ext/list.asp

漢語大字典編輯委員會編:《漢語大字典》(第二版.九卷本),成都:四川出版集團.四川辭書出版社,2010年4月。ISBN:978-7-5403-1744-7
漢語大詞典編輯委員會:《漢語大詞典》:上海,漢語大詞典出版社,1994年4月。ISBN:7-5432-0010-4
何九盈.王寧.董琨.商務印書館編輯部:《辭源》(第三版):北京,商務印書館,2015年10月。

沒有留言:

張貼留言

「引得市」為古文字教科書的推薦工具之一

2012年本人創立的「引得市」,12年後已經成為古文字教科書的推薦工具之一。 知乎: https://zhuanlan.zhihu.com/p/7825368797 9. 引得市 http: //www. mebag. com/index 引得市網站由臺灣造形藝術與資訊處...