2015年8月25日 星期二

20150826《大漢和辭典》熟語索引(補充「卷別」與「頁碼」)開放使用

 20150826《大漢和辭典》熟語索引(補充「卷別」與「頁碼」)開放使用

http://blog.yam.com/ebag/article/100729953



20150112「大漢和辭典熟語索引」引得市介面

http://blog.yam.com/ebag/article/84268555



進入「引得市」點選「辭典」點選「《大漢和辭典》線上檢索」或網址列直接輸入:

www.mebag.com/index/daikannwa/list.asp


「《大漢和辭典》熟語索引」原始資料來源:「花園大學國際禪學硏究所, 川幡太一, 野村英登」網址:https://github.com/cjkvi/cjkvi-dict/blob/master/dkw-word.txt



「■」為原始資料的「#」,筆者補充了幾百筆,一人力量有限,希望線上使用者一起來補充內容。「x」(英文小寫x)為原書有編號但沒有錄入的,這部分不必處理。此外,缺字目前有兩處(以「s」可查詢)。


    《大漢和辞典》共12卷,索引於第13卷,相較於單字索引的數位化製作,名詞的索引已經有「花園大學國際禪學硏究所, 川幡太一, 野村英登」兩位研究者製作完成,我們只要補充上「卷別和頁碼」就可以讓使用者快速的查詢,或許也可以當作單字索引的替代方式,約四十多萬筆名詞在EXCEL透過一位網友「彰化一整天」的程式,批次尋找取代處理,程式跑了將近兩個小時才完成。


    原本兩位作者製作的的索引文字檔中有「字編號/流水號/名詞/總頁碼」,但是就沒有「卷別」與「頁碼」的資訊,一般我們查大套書,「卷別」和「頁碼」才是最關鍵的資訊,因此筆者在EXCEL作了一個對照表,然後再用上述的方式來尋找取代。舉例來說:「熟語」一詞是「07413」(總頁碼),筆者又補充上「07-0505」(卷別-頁碼)。


    原作者的索引資訊總數約「440972列」,因為筆者手邊的資料是1986年的(修訂版),因此只有製作到這個部分(407997列):「DW48894.0.0001.0 DP13757 龥號」


之後還有:


DW00001.0.H001.0 DPH0001 一飮三百杯

DW00001.0.H002.0 DPH0001 一榮一辱

DW00001.0.H003.0 DPH0001 一賀

DW00001.0.H004.0 DPH0001 一九

DW00001.0.H005.0 DPH0001 一丘土

DW00001.0.H006.0 DPH0001 一隅三反

DW00001.0.H007.0 DPH0001 一隅之見

DW00001.0.H008.0 DPH0001 一月之師

DW00001.0.H009.0 DPH0001 一弦

DW00001.0.H010.0 DPH0001 一言僨事一人定國

..............等

共有「32976」列沒有收錄在這次的處理。


    最後還是得處理目前文字檔案中呈現「■」符號的缺字,共有3759字。逐一檢查並造字才算是完成這次的索引製作。個人懷疑,這是原資料作者刻意將原本完整的內容作替換,如「彘」、「耦」、「伙」、「珩」、「蘅」、「貺」、「瓤」、「軺」、「篪」、「驁」、「摹」、「臬」、「賬」、「跗」、「佾」、「瑗」、「蓀」、「厝」、「騶」、「勰」、「毖」、「姝」、「墩」、「陘」、「踔」、「櫤」、「薌」、「諶」、「嬸」、「噱」、「啁」、「咻」、「唬」、「耦」、「坫」、「絝」、「畑」等字都是重複的變成「■」。



第一卷676頁「伯吁」有誤,應是「伯籲」。

第一卷678頁「伯塤仲■」有誤,應是「伯壎仲篪」。

第一卷965頁「儵■」有誤,應是「#」。

第二卷259頁「刺■」有誤,應是「#」。

第二卷388頁「勉■」有誤,應是「#」(02362-0021)。

第二卷423頁「勺水」有誤,應是「」(02494-0006)。



目前為止,「■」還有3248處,歡迎朋友校正回傳內容,讓資料臻於完善。

反饋可至「引得市」粉絲團留言,或寫信給筆者。



諸橋轍次[日],《大漢和辭典》(修訂版),東京:大修館書店,1986年7月(昭和61年7月1日)。


引得市《大漢和辭典》熟語索引

http://www.mebag.com/index/daikannwa/list.asp



大漢和辞典データベース

http://kanji-database.sourceforge.net/dict/daikanwa/index.html


「《大漢和辭典》熟語索引」原始資料來源:「花園大學國際禪學硏究所, 川幡太一, 野村英登」網址:https://github.com/cjkvi/cjkvi-dict/blob/master/dkw-word.txt




後記:


    在幾年前在日本期間,曾經掃描該套書,為了圖版品質,選擇300DPI灰階,從早到晚一冊大約掃了八小時以上,當時有這麼一股動力,但仍然沒辦法完全掃描完成,做了多少,也忘了,或許可能才完成二冊左右而已?這麼好的書籍文獻,不應該被時間遺忘,尤其是令人敬佩的學者畢生的著作。今日透過線上檢索,應該可以讓這樣的好書再一次被發現和廣為使用。



字編號-流水號

總頁碼

如何使用上的問題,請到

http://272586.blogspot.com

彰化一整天的Blog留言

或寄E-mail到imingho@gmail.com




進入「引得市」點選「辭典」點選「《大漢和辭典》線上檢索」或網址列直接輸入:

www.mebag.com/index/daikannwa/list.asp



塘槭?「槭」字疑

天𪊷?「𪊷」字疑

奄q

垢q

奏嚴?「嚴」字疑


注意:已將原始「衆」取代「眾」字。194處

注意:已將原始「爲」取代「為」字。943處

注意:已將原始「眞」取代尋「真」。797處。





------------------------------------


20150826處理:

「桮」「杯」


「鬭」「鬥」


扳儐蘅墊嬸珩暹璜汛鈺蓀瀹摹嘿洯仡噩瞀貺軺姝桌姍簋擄鄣讞鍛擗厫霉櫃賬盹驁睬篪摹夠瑗臬錁勰岵酗睽澈桅惕殮饔蠲盅跗佾埏陘騶梔痤薌瘼紼帳賾菇澌綃瞧碟忪鱭韙鏇歧卡厝咖屣藎絀膛劂楗炫鮞騭諶戩濞𦶜燝暹煜頊遴煊噶毖鍛掄踔掙軔塏您毖抿匭𥕢櫤圩姝箐墩豉剮陘櫃庳癉躒蒯釗譙坨鏜埕榫阽阼雯娣


沒有留言:

張貼留言

20220429《新華大字典》(第3版.彩色本)索引數位化完成

 20220429《新華大字典》(第3版.彩色本)索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/507157904 【資料庫訂閱制】 20210903「語文辭典」2021.9.6(一)實施訂閱制 Blog: https://ebag2007.b...