2021年4月8日星期四

引得市文獻索引的整理紀錄（下篇）：DBeaver的學習運用（資料庫管理工具）

引得市文獻索引的整理紀錄（下篇）：DBeaver的學習運用（資料庫管理工具）

知乎：https://zhuanlan.zhihu.com/p/363273707

引得市文獻索引的整理紀錄（上篇）：引得市工具包再使用

Blog：https://ebag2007.blogspot.com/2021/04/blog-post.html

知乎：https://zhuanlan.zhihu.com/p/363258232

前言

2021年4月7日的晚上，學習了使用「DBeaver」…

前篇說明筆者利用瑾昀兄與W兄所提供的程式，讓引得市總表（260種文獻索引）完成了unicode字的排查整理。就過去的習慣，還是得逐一更新另外獨立260種文獻的索引（excel格式）。

所以，我要開啟舊有索引，再把總表更新的字頭貼過去，這樣的動作要進行260次。為了能夠知道目前哪些已經完成、哪些還沒完成，我利用google keep把260種文獻清單貼上，每次完成一個，就句選文獻名稱備註。進行到49個的時候，我採用瑾昀兄的建議，學習「DBeaver」軟體，每次只更新維護總表，不再對單獨的excel檔案更新。需要時再匯出。

一個晚上，學好了軟體，也順便筆記一下「DBeaver」的使用方式

▲keep的紀錄

1.資料庫的新增與刪除

1.1 下載「DBeaver」

1.2 增加一個新的資料庫

1.3 刪除資料庫

2.資料庫的部份內容匯出

3.延伸應用：「SQL編輯器」貼入語法：（精算出所有索引的列數）

3.1 延伸應用「SQL編輯器」貼入語法：（精算缺字庫部首個別數量）

總表之外，也能再抓取古文字缺字資料庫的檔案，並且精算目前缺字庫各個部首的數量。語法如下：

過濾掉已註銷字的版本

`SELECT radical, count(*) AS count FROM toterm WHERE status = 1 GROUP BY radical;`

未過濾已註銷字的版本

`SELECT radical, count(*) AS count FROM toterm GROUP BY radical;`

4.小結

在「習慣」與「效率」兩邊，我選擇放棄以往的「習慣」，學習新的軟體。unicode聯盟每年都有新字發布，所以排查unicode字就是引得市每年都要進行的工作，例如:再來就是擴充H區的更新…。如果我沒改變處理方式，明年又得進行二百多個索引的複製貼出的作業流程。

而我們因為有詳細的unicode字的排查，所以每種文獻都能搭上最新發布的字，例如透過「部件檢索」我們可以輕易查得：《上博藏戰國楚竹書字匯》有62個字是擴充G區。這在其他網路上的資料庫是不容易看到的檢索方式。

缺字一般會是這樣的發展，以缺字編號「s001-001」（[不不]）作為例子

2020年8月開始，缺字有新的處理方式，最新製作的文獻索引，Unicode「C、D、E、F、G」區的字直接錄入字頭，不再有編號以及造字。缺字編號與unicode不再並列顯示，字頭欄位中的「s001-001(𫠭)」都會直接作「𫠭」。目前為止我們已經排查過引得市資料庫中所有的字頭，完全支援基本漢字到擴充G區的顯示與查詢。

這些讓資料庫保持最新相應的字頭的作業流程，如果沒有紀錄寫成文章，很多人應該也不知道「引得市」的價值所在？

一切都是瑾昀兄與W兄所精心製作的程式與建議，讓資料保持最精確並且與時俱進，作為引得市的使用者都應該謝謝他們。

【延伸閱讀】

20200814「古文字缺字資料庫」缺字處理方針說明

https://zhuanlan.zhihu.com/p/183802882

維基百科:Unicode擴充漢字

https://zh.wikipedia.org/wiki/Wikipedia:Unicode%E6%89%A9%E5%B1%95%E6%B1%89%E5%AD%97

資料庫管理工具-DBeaver

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)