2021年4月8日 星期四

引得市文獻索引的整理紀錄(下篇):DBeaver的學習運用(資料庫管理工具)

 引得市文獻索引的整理紀錄(下篇):DBeaver的學習運用(資料庫管理工具)


知乎:https://zhuanlan.zhihu.com/p/363273707


引得市文獻索引的整理紀錄(上篇):引得市工具包再使用 

Blog:https://ebag2007.blogspot.com/2021/04/blog-post.html

知乎:https://zhuanlan.zhihu.com/p/363258232


前言

2021年4月7日的晚上,學習了使用「DBeaver」…


前篇說明筆者利用瑾昀兄與W兄所提供的程式,讓引得市總表(260種文獻索引)完成了unicode字的排查整理。就過去的習慣,還是得逐一更新另外獨立260種文獻的索引(excel格式)。


所以,我要開啟舊有索引,再把總表更新的字頭貼過去,這樣的動作要進行260次。為了能夠知道目前哪些已經完成、哪些還沒完成,我利用google keep把260種文獻清單貼上,每次完成一個,就句選文獻名稱備註。進行到49個的時候,我採用瑾昀兄的建議,學習「DBeaver」軟體,每次只更新維護總表,不再對單獨的excel檔案更新。需要時再匯出。


一個晚上,學好了軟體,也順便筆記一下「DBeaver」的使用方式



▲keep的紀錄

1.資料庫的新增與刪除

1.1 下載「DBeaver」


1.2 增加一個新的資料庫









1.3 刪除資料庫


 2.資料庫的部份內容匯出



















3.延伸應用:「SQL編輯器」貼入語法:(精算出所有索引的列數)







3.1 延伸應用「SQL編輯器」貼入語法:(精算缺字庫部首個別數量)

總表之外,也能再抓取古文字缺字資料庫的檔案,並且精算目前缺字庫各個部首的數量。語法如下:

過濾掉已註銷字的版本
`SELECT radical, count(*) AS count FROM toterm WHERE status = 1 GROUP BY radical;`
未過濾已註銷字的版本
`SELECT radical, count(*) AS count FROM toterm GROUP BY radical;`
 

4.小結

在「習慣」與「效率」兩邊,我選擇放棄以往的「習慣」,學習新的軟體。unicode聯盟每年都有新字發布,所以排查unicode字就是引得市每年都要進行的工作,例如:再來就是擴充H區的更新…。如果我沒改變處理方式,明年又得進行二百多個索引的複製貼出的作業流程。

而我們因為有詳細的unicode字的排查,所以每種文獻都能搭上最新發布的字,例如透過「部件檢索」我們可以輕易查得:《上博藏戰國楚竹書字匯》有62個字是擴充G區。這在其他網路上的資料庫是不容易看到的檢索方式。



缺字一般會是這樣的發展,以缺字編號「s001-001」([不不])作為例子



2020年8月開始,缺字有新的處理方式,最新製作的文獻索引,Unicode「C、D、E、F、G」區的字直接錄入字頭,不再有編號以及造字。缺字編號與unicode不再並列顯示,字頭欄位中的「s001-001(𫠭)」都會直接作「𫠭」。目前為止我們已經排查過引得市資料庫中所有的字頭,完全支援基本漢字到擴充G區的顯示與查詢。

這些讓資料庫保持最新相應的字頭的作業流程,如果沒有紀錄寫成文章,很多人應該也不知道「引得市」的價值所在?

一切都是瑾昀兄與W兄所精心製作的程式與建議,讓資料保持最精確並且與時俱進,作為引得市的使用者都應該謝謝他們。

【延伸閱讀】
20200814「古文字缺字資料庫」缺字處理方針說明

維基百科:Unicode擴充漢字


沒有留言:

張貼留言

20220429《新華大字典》(第3版.彩色本)索引數位化完成

 20220429《新華大字典》(第3版.彩色本)索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/507157904 【資料庫訂閱制】 20210903「語文辭典」2021.9.6(一)實施訂閱制 Blog: https://ebag2007.b...