研究生：為研究而生: 2月 2018

2018年2月27日星期二

引得市缺字字體編碼方案說明

知乎：https://zhuanlan.zhihu.com/p/34081721

撰文者：趙瑾昀

起先在v1.x版本的seal字體中，我們擬使用基本平面私用區（Private Use Area, PUA），該區只有6400個位置，而當時我們的缺字數量已經達到了九千多，所以我們還使用了第15平面的SPUA作爲補充。

V1.x版本的seal字體有個很大的缺陷，那就是缺字的Unicode碼點是按照glyphwiki上的順序自動順延產生，並不固定。這意味着同一個缺字在不同版本的字體中所使用的Unicode碼點往往不同（因爲我們在glyphwiki造字時會按照康熙部首順序從中間位置插入新字，從而更動了原來的順序），致使不同版本的字體不能兼容。

攷慮到引得市的缺字字形是由缺字編碼唯一確定的，所以若要固定缺字字形的Unicode碼點，就必須爲每一個合法的缺字編碼預分配/映射一個Unicode碼點，使其能夠一一對應。一個合法的缺字編碼可表示爲sXXX-YYY，其中XXX取值笵圍爲001～215，代表康熙214部首及圖形部，總計215部；而YYY取值笵圍爲001～999，爲該部下具體的編號。因此引得市缺字編碼的空間大小爲215*999=214785，大約需要佔用4個平面/Plane（注：每個平面有65536個碼點）。在這種情況下把基本平面和第15、16平面的私用區都拿過來也不夠用，因此我們借鑑中華字庫中間字庫的做法，選擇佔用目前未定義的第10～13平面（U+A0000～U+DFFFF）作爲編碼空間，以儘量避免在可預見的未來數十年內與其他字庫產生衝突（如使用了第15、16平面的全字庫，使用了第3至第6平面的中華字庫中間字庫等等，以及CJK擴展G集即將啓用的第3平面）。

圖1 生成缺字編碼空間的Python程式

圖2 生成對應Unicode編碼的Python程式（其中每個平面的最後兩個字符，即U+XFFFE和U+XFFFF，需要跳過）

圖3 得到的缺字編碼與Unicode碼點對應表

研究生: 20180227最新缺字字型(13913字)

研究生: 20180227最新缺字字型(13913字): 20180227最新缺字字型(13913字) 前幾天，瑾昀兄彙整了筆者在「 glyphwiki」製作的所有缺字，成為單一字型，共有13913字。與去年底發布的版本相差了1623字。近日測試無誤後開放自由下載使用。 seal v2.2 下載鏈接： ...

2018「新」部落格在這裡，名叫「研究生」

名稱在10年前就已經取好，是基於對「研究」的興趣與堅持，也作為自我勉勵。早在2008年2月就已經建立，只是放了10年....

20180227最新缺字字型(13913字)

前幾天，瑾昀兄彙整了筆者在「glyphwiki」製作的所有缺字，成為單一字型，共有13913字。與去年底發布的版本相差了1623字。近日測試無誤後開放自由下載使用。

seal v2.2下載鏈接：雲端硬碟：

https://drive.google.com/file/d/1uKnsn3UTs7xUn_gVIN53FfI2pwA4CKCu/view?usp=sharing

（百度若無法使用，請先使用google雲端硬碟）

seal v2.2下載鏈接：百度链接：

https://pan.baidu.com/s/1z6Voxx6rjpKG3yVKqfcWRw

古文字缺字資料庫：http://www.mebag.com/index/quezi/list.asp

Unicode與關聯字的數量統計（2018.2.26）

Unicode的數量共1345字。
關聯字的數量共1266字。

缺字製作網站：http://glyphwiki.org/wiki/

2018年2月25日星期日

「comic enhancer pro」軟體的應用

數位化文獻的過程中，書籍掃描後，圖檔如果有黑邊或歪斜圖片的情況。我們可以使用「comic enhancer pro」這個軟體來批次快速修正。

開啟其中的一張圖，然後在參數：點選「設置」。「糾斜」標籤選「自動糾斜_雙向」，只需要選擇一張圖，之後的都可以批次處理（一個資料夾內所有的圖）

如果圖四周有黑邊，在這個界面中，縮小調整紅色邊框，程式就可以把紅色邊框之外的黑匡去除。

此外，若簡體版的「comic enhancer pro」軟體開啟時有亂碼，可先安裝執行「Papploc右鍵啟動版.exe」

2018年2月23日星期五

批次修改輸出seal字型缺字圖檔的檔名

瑾昀兄教導的方式：

1.建立一個「rename.bat」，內容取用「seal v2.200.xlxs」的內容

如：

ren U_0A0000.png s001-001.png
ren U_0A0001.png s001-002.png
ren U_0A0002.png s001-003.png
ren U_0A0003.png s001-004.png

2.把「rename.bat」放在圖檔同一路徑位置。

3.執行rename.bat

這樣就可以把所有的缺字圖檔改成缺字編號了！

使用「BabelMap」輸出seal字型缺字圖檔

BabelMap
Fonts→Export Font Glyphs

詳細數據：

Font:seal
Font Size:50 points（文字大小）
font Smoothing Default
solid Glyph
Background 255,255,255
Fill/Line:0,0,0
Code Points「A0000」to「D4706」（輸出開始字與最後一字）
Save as:Portable Network Graphic(png)

以上圖檔編號為原始匯出的編號，輸入法壓縮包內的圖檔，筆者已更改檔名為缺字編號。

在word中，配合本文12級的細明體，置入缺字圖檔(縮小24-25％之間）。字型→進階(V)→位置(P)→下移→位移點數2.5點。可獲得最佳效果。
如果作為註解的字，以10級細明體來說，圖檔約縮小20-21%之間，位移點數一樣是下移「2.5點」，如此可獲得最佳效果。

-----

軟體「BabelMap」

http://www.babelstone.co.uk/Software/BabelMap.html
下載路徑：http://www.babelstone.co.uk/Software/3537/BabelMap.zip

解壓縮後點選「BabelMap.exe」即可使用。
此軟體是unicode團體中魏安（Andrew Christopher West）製作的
是公開軟體自由使用的軟體。

執行後，只要按「F11」
就會跳出一個部首視窗。

點選「丿」，然後右下角的「Additional Stroke」選擇「1」
就能打出「丿一」。依此就能打出一些特殊的部件（我們不知道發音的部件）

----

TextImages 文字轉圖片實用工具( 免安裝)

https://key.chtouch.com/ContentView.aspx?P=1308

2018年2月22日星期四

文字尋找取代的正則式

EmEditor常用功能

「編輯（E）」→「轉換選取範圍（L）」→「移去新行（R）」
「移除換行」快捷鍵：Alt+E+L+R

來自瑾昀兄的教學

打開emeditor

Ctrl+H(尋找/取代)→進階(V)...
選擇這个引擎「Onigmo」

用「.」即可匹配任意字

下一个加【】的正則：

加空格就這麼寫

尋找「(.)」→取代為：「\1 」

※注意，1後面有空格

20180222《古文字譜系疏證》字頭索引數位化完成

https://zhuanlan.zhihu.com/p/33925059

https://ebag.tian.yam.com/posts/216318164

最初的檔案是捕風兄所提供，2017.11.30瑾昀兄從qq傳來，沒有依照原書排序，得逐頁核對修正。2018.1.29 pm10:00~02:00約4小時編輯745列，大約完成1/12，可能還需要至少11x4=44小時。在農曆年前後，為了儘早完成，也就只有安排製作這一份檢字表，而最後實際製作的時間應該是超過原來估算的。

大約製作了900個新字，其他的2000多字取用原有的缺字庫，是繼《楚文字編》之後，又一個耗時費工的字頭索引，9000多列中就有3000多筆缺字。過程中，瑾昀兄也提供了Unicode字形與造字的建議。「古文字缺字資料庫」達到新高13913字。

字例 6158
缺字 3535
總字列 9693

此套書是2012年參與故宮百家姓漢字源流專案製作，游國慶老師建議參考的文獻，為了專案的工作效率，當時就有簡單的做了百家姓的字頭索引，也進一步想把全書字頭處理好，不過，一直沒有固定的時間能夠處理下去。

共有四冊，每冊約1000頁，有古文字系原等聲韻內容解說，且全書內容為手寫字，查詢閱讀起來有別於一般電腦打字的書籍，感覺特別有「溫度」。除了字頭的檢索之外，使用者也可針對該書的「系原」去查詢，例如，輸入「【系原】𣪕」，就可以查得「𣪕」字的系原資訊。

2013年郝士宏教授指導了四位碩士針對《古文字譜系疏證》做了修正（詳見文後），這次筆者並沒有依照修正的內容，還是採取原書，或許日後可以再另外整理一份修訂的版本。

總之，今天完成了製作難度頗高的文獻字頭索引，感謝捕風兄等朋友的協作，否則這套書的索引製作，若要一個人從頭到尾無中生有，沒有幾個月的工作時間，恐怕也難以完成。目前在QQ群中的各領域的研究同道，依個人的研究或興趣各自處理不同的字頭索引，或統合於「引得市」等網路平台，都是因應學術研究新時代的作法。

近日陸續收到於菟、周旭、瑾昀、偉明兄等人提供的新文獻索引檔案。很多很多值得期待的內容，大概最快也要等到3月中旬之後才能陸續整理，再放上引得市了。

小記：
1045頁的【系原】與1040重出。（缺「彔」的系原）

【使用方式】

進入「引得市」(www.mebag.com/index)，進站初始預設即「④古文字」。

合作提案（並非限於商業，任何形式的交流都很歡迎）
https://hackmd.io/s/HJ_qFWLNx

【學術交流】

※關於「引得市」的各種查詢應用，網路上的教學影片或文章介紹的不多，因此，很多教授與研究者可能還不熟悉，像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題，筆者都很樂意詳細解說，只要時間允許，都歡迎個人或學校機關團體私訊或留言約時間地點，公開來討論交流。

古文字缺字資料庫
http://www.mebag.com/index/quezi/list.asp

----

黃德寬主編：《古文字譜系疏證》（全四冊），北京：商務印書館，2007年5月。ISBN：978-7-100-05471-3

王曉云：《古文字譜系疏証（一）校訂》，安徽大學碩士學位論文，2013年4月。（指導教授郝士宏先生）
朱騖涵：《古文字譜系疏証（二）校訂》，安徽大學碩士學位論文，2013年4月。（指導教授郝士宏先生）
趙昕：《古文字譜系疏証（三）校訂》，安徽大學碩士學位論文，2013年4月。（指導教授郝士宏先生）
韓孝英：《古文字譜系疏証（四）校訂》，安徽大學碩士學位論文，2013年4月。（指導教授郝士宏先生）

訂閱：文章 (Atom)

研究生：為研究而生

站內精準搜尋

2018年2月27日星期二

引得市缺字字體編碼方案說明

引得市缺字字體編碼方案說明

研究生: 20180227最新缺字字型(13913字)

2018「新」部落格在這裡，名叫「研究生」

2018「新」部落格在這裡，名叫「研究生」

20180227最新缺字字型(13913字)