2021年4月8日 星期四

引得市文獻索引的整理紀錄(上篇):引得市工具包再使用

引得市文獻索引的整理紀錄(上篇):引得市工具包再使用 


知乎:https://zhuanlan.zhihu.com/p/363258232
引得市文獻索引的整理紀錄(下篇):DBeaver的學習運用(資料庫管理工具)
Blog:https://ebag2007.blogspot.com/2021/04/dbeaver.html
知乎:https://zhuanlan.zhihu.com/p/363273707

前言

三月中旬的時候,筆著使用了瑾昀兄提供的最新「引得市工具包(index-tool)」進行unicode字的全面排查。


1.古文字缺字資料庫的unicode字排查


這次的工作,是要把目前「古文字缺字資料庫」的1.9萬字中排查出是否有unicode字,並且紀錄再更新。執行程式約花費2.5小時左右。


程式排查出來自動儲存成「mapping.txt」,共2956列,由於編號與的unicode字的對照不夠直觀,所以我們必須進行下一個步驟,以利目視逐一檢查。


EmEditor中進行「缺字轉圖片的正則」:


(s\d{3}-\d{3})

替換爲

<a href="http://www.mebag.com/index/quezi/list.asp?key4=entry&key3=\1"><img src="http://glyphwiki.org/glyph/ebag_\1.svg" alt="\1" height="26px" /></a>


把取代後的結果,複製貼到「HackMD」上,即可顯示缺字的字形,不過這時候我們又發現「HackMD」並無法完全顯示E區或之後的unicode字,所以瑾昀兄提供二種個方式就能讓「HackMD」的網頁顯示出所有的unicode字。

★讓HackMD【強制網頁改字體】★

 留言

  • 方式一
    1.按f12打開控制臺
    2.把代碼貼過去執行
var style = document.createElement(‘style’);
style.innerText = ‘:not(.fa) {font-family:Arial,FMing-p,FMing-1,FMing-2,FMing-3,FMing-F,FSung-p,FSung-1,FSung-2,FSung-3,FSung-F,Calibri,PMingLiU,PMingLiU-ExtB,HanaMinA,HanaMinB !important}’;
document.getElementsByTagName(‘head’)[0].append(style);
  • 方式二:強制書籤(強制字型)
    新建一個chrome書籤,網址欄填入以下代碼,在hackmd,點擊這個書籤可以實現之前同樣的功能,而且更快速。(已建立取名:強制網頁字型)

javascript:void((function(){var s=document.createElement('style');s.innerText=':not(.fa):not([class*="icon"]):not(i){font-family:Arial,FMing-p,FMing-1,FMing-2,FMing-3,FMing-F,FSung-p,FSung-1,FSung-2,FSung-3,FSung-F,Calibri,PMingLiU,PMingLiU-ExtB,HanaMinA,HanaMinB !important}';document.body.appendChild(s);})())

接著就是,依照內容逐一的檢查處理,因為「HackMD」每次只能列出500筆左右的內容,所以我們依序切割成6個檔案,匯出成6個html方便檢查。


以下就是執行的過程截圖:






















2.引得市總表unicode字排查


根據上次缺字庫的檢查結果,我們檢查出一些基本漢字或B區等unicode字。這些字例會與編號做成一個對照表,用來批次處理總表的字頭。總表指的是引得市主站中260種文獻的內容,目前大約70多萬列,是「引得市」最核心內容。

我們將利用製作W兄製作的的批次工具,很快的就能完成更新取代的作業。



▲ 總表取出的書名與字頭


▲ 缺字轉換表


▲ 批次取代器

3.小結

 留言

引得市進行Unicode字全面的排查更新作業,中間遇到了外接硬碟的毀損(3.19),我們仍然持續處理現有的資料,經過二周左右,硬碟修理還原費高達新台幣兩萬多元,消息發布期間,許多海內外的朋友斗內支援、硬碟的添購。日後會把細目列出。再次感謝大家!

Google表單:https://forms.gle/ss9TbHtQJDi6N2xm7

騰訊問卷:https://wj.qq.com/s2/8216629/4766/

目前中國大陸約有299位,台灣有49位,希望尚未填寫表單的朋友繼續填寫。可能有一些過程,還沒有說明得很詳盡,等日後再補充。接續的處理,詳見(下篇)。

【延伸閱讀】

20210309「引得市工具包」使用心得報告

Blog:https://ebag2007.blogspot.com/2021/03/20210309_21.html
知乎:https://zhuanlan.zhihu.com/p/355856032

沒有留言:

張貼留言

20240422《中國語言學大辭典》分類詞目表索引數位化完成

 20240422《中國語言學大辭典》分類詞目表索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/693938707 【製作說明】 這本書在33年前出版,正在看這篇文章的朋友可能都還沒出生?1991年那時候我在作什麼呢?就讀專科學校(美術工藝科),...