2018年2月27日 星期二

引得市缺字字體編碼方案說明

引得市缺字字體編碼方案說明

撰文者:趙瑾昀

起先在
v1.x版本的seal字體中,我們擬使用基本平面私用區(Private Use Area, PUA),該區只有6400個位置,而當時我們的缺字數量已經達到了九千多,所以我們還使用了第15平面的SPUA作爲補充。

V1.x版本的seal字體有個很大的缺陷,那就是缺字的Unicode碼點是按照glyphwiki上的順序自動順延產生,並不固定。這意味着同一個缺字在不同版本的字體中所使用的Unicode碼點往往不同(因爲我們在glyphwiki造字時會按照康熙部首順序從中間位置插入新字,從而更動了原來的順序),致使不同版本的字體不能兼容。


攷慮到引得市的缺字字形是由缺字編碼唯一確定的,所以若要固定缺字字形的Unicode碼點,就必須爲每一個合法的缺字編碼預分配/映射一個Unicode碼點,使其能夠一一對應。一個合法的缺字編碼可表示爲sXXX-YYY,其中XXX取值笵圍爲001215,代表康熙214部首及圖形部,總計215部;而YYY取值笵圍爲001999,爲該部下具體的編號。因此引得市缺字編碼的空間大小爲215*999=214785,大約需要佔用4個平面/Plane(注:每個平面有65536個碼點)。在這種情況下把基本平面和第1516平面的私用區都拿過來也不夠用,因此我們借鑑中華字庫中間字庫的做法,選擇佔用目前未定義的第1013平面(U+A0000U+DFFFF)作爲編碼空間,以儘量避免在可預見的未來數十年內與其他字庫產生衝突(如使用了第1516平面的全字庫,使用了第3至第6平面的中華字庫中間字庫等等,以及CJK擴展G集即將啓用的第3平面)。


圖1 生成缺字編碼空間的Python程式

圖2 生成對應Unicode編碼的Python程式(其中每個平面的最後兩個字符,即U+XFFFE和U+XFFFF,需要跳過)


圖3 得到的缺字編碼與Unicode碼點對應表

研究生: 20180227最新缺字字型(13913字)

研究生: 20180227最新缺字字型(13913字): 20180227最新缺字字型(13913字) 前幾天,瑾昀兄彙整了筆者在「 glyphwiki」製作的所有缺字,成為單一字型,共有13913字。與去年底發布的版本相差了1623字。近日測試無誤後開放自由下載使用。 seal v2.2 下載鏈接: ...

2018「新」部落格在這裡,名叫「研究生」


2018「新」部落格在這裡,名叫「研究生」


名稱在10年前就已經取好,是基於對「研究」的興趣與堅持,也作為自我勉勵。早在2008年2月就已經建立,只是放了10年....




20180227最新缺字字型(13913字)

20180227最新缺字字型(13913字)





前幾天,瑾昀兄彙整了筆者在「glyphwiki」製作的所有缺字,成為單一字型,共有13913字。與去年底發布的版本相差了1623字。近日測試無誤後開放自由下載使用。

(百度若無法使用,請先使用google雲端硬碟)

seal v2.2下載鏈接:百度链接:
古文字缺字資料庫http://www.mebag.com/index/quezi/list.asp
Unicode與關聯字的數量統計(2018.2.26)
Unicode的數量共1345字。
關聯字的數量共1266字。


缺字製作網站:http://glyphwiki.org/wiki/



2018年2月25日 星期日

「comic enhancer pro」軟體的應用

「comic enhancer pro」軟體的應用


數位化文獻的過程中,書籍掃描後,圖檔如果有黑邊或歪斜圖片的情況。我們可以使用「comic enhancer pro」這個軟體來批次快速修正。

開啟其中的一張圖,然後在參數:點選「設置」。「糾斜」標籤選「自動糾斜_雙向」,只需要選擇一張圖,之後的都可以批次處理(一個資料夾內所有的圖)

如果圖四周有黑邊,在這個界面中,縮小調整紅色邊框,程式就可以把紅色邊框之外的黑匡去除。


此外,若簡體版的「comic enhancer pro」軟體開啟時有亂碼,可先安裝執行「Papploc右鍵啟動版.exe」





2018年2月23日 星期五

批次修改輸出seal字型缺字圖檔的檔名

批次修改輸出seal字型缺字圖檔的檔名

瑾昀兄教導的方式:

1.建立一個「rename.bat」,內容取用「seal v2.200.xlxs」的內容

如:

ren U_0A0000.png s001-001.png
ren U_0A0001.png s001-002.png
ren U_0A0002.png s001-003.png
ren U_0A0003.png s001-004.png

2.把「rename.bat」放在圖檔同一路徑位置。

3.執行rename.bat

這樣就可以把所有的缺字圖檔改成缺字編號了!


使用「BabeMap」輸出seal字型缺字圖檔

使用「BabeMap」輸出seal字型缺字圖檔


BabeMap
Fonts→Export Font Glyphs









詳細數據:


Font:seal
Font Size:50 points(文字大小)
font Smoothing Default
solid Glyph
Background 255,255,255
Fill/Line:0,0,0
Code Points「A0000」to「D4369」(輸出開始字與最後一字)
Save as:Portable Network Graphic(png)



以上圖檔編號為原始匯出的編號,輸入法壓縮包內的圖檔,筆者已更改檔名為缺字編號。


在word中,配合本文12級的細明體,置入缺字圖檔(縮小24-25%之間)。字型→進階(V)→位置(P)→下移→位移點數2.5點。可獲得最佳效果。
如果作為註解的字,以10級細明體來說,圖檔約縮小20-21%之間,位移點數一樣是下移「2.5點」,如此可獲得最佳效果。














-----


軟體「BabelMap


http://www.babelstone.co.uk/Software/BabelMap.html
下載路徑:http://www.babelstone.co.uk/Software/3537/BabelMap.zip

解壓縮後點選「BabelMap.exe」即可使用。
此軟體是unicode團體中魏安(Andrew Christopher West)製作的
是公開軟體自由使用的軟體。

執行後,只要按「F11」
就會跳出一個部首視窗。

點選「丿」,然後右下角的「Additional Stroke」選擇「1」
就能打出「丿一」。依此就能打出一些特殊的部件(我們不知道發音的部件)

----

TextImages 文字轉圖片實用工具( 免安裝)

https://key.chtouch.com/ContentView.aspx?P=1308

2018年2月22日 星期四

文字尋找取代的正則式

文字尋找取代的正則式

來自瑾昀兄的教學







打開emeditor

Ctrl+H(尋找/取代)→進階(V)...
選擇這个引擎「Onigmo」

用「.」即可匹配任意字

下一个加【】的正則:

加空格就這麼寫

尋找「(.)」→取代為:「\1 ]

※注意,1後面有空格


20180222《古文字譜系疏證》字頭索引數位化完成

20180222《古文字譜系疏證》字頭索引數位化完成

https://zhuanlan.zhihu.com/p/33925059

https://ebag.tian.yam.com/posts/216318164



最初的檔案是捕風兄所提供,2017.11.30瑾昀兄從qq傳來,沒有依照原書排序,得逐頁核對修正。2018.1.29 pm10:00~02:00約4小時編輯745列,大約完成1/12,可能還需要至少11x4=44小時。在農曆年前後,為了儘早完成,也就只有安排製作這一份檢字表,而最後實際製作的時間應該是超過原來估算的。

大約製作了900個新字,其他的2000多字取用原有的缺字庫,是繼《楚文字編》之後,又一個耗時費工的字頭索引,9000多列中就有3000多筆缺字。過程中,瑾昀兄也提供了Unicode字形與造字的建議。「古文字缺字資料庫」達到新高13913字。


字例 6158
缺字 3535
總字列 9693


此套書是2012年參與故宮百家姓漢字源流專案製作,游國慶老師建議參考的文獻,為了專案的工作效率,當時就有簡單的做了百家姓的字頭索引,也進一步想把全書字頭處理好,不過,一直沒有固定的時間能夠處理下去。

共有四冊,每冊約1000頁,有古文字系原等聲韻內容解說,且全書內容為手寫字,查詢閱讀起來有別於一般電腦打字的書籍,感覺特別有「溫度」。除了字頭的檢索之外,使用者也可針對該書的「系原」去查詢,例如,輸入「【系原】𣪕」,就可以查得「𣪕」字的系原資訊。



2013年郝士宏教授指導了四位碩士針對《古文字譜系疏證》做了修正(詳見文後),這次筆者並沒有依照修正的內容,還是採取原書,或許日後可以再另外整理一份修訂的版本。

總之,今天完成了製作難度頗高的文獻字頭索引,感謝捕風兄等朋友的協作,否則這套書的索引製作,若要一個人從頭到尾無中生有,沒有幾個月的工作時間,恐怕也難以完成。目前在QQ群中的各領域的研究同道,依個人的研究或興趣各自處理不同的字頭索引,或統合於「引得市」等網路平台,都是因應學術研究新時代的作法。

近日陸續收到於菟、周旭、瑾昀、偉明兄等人提供的新文獻索引檔案。很多很多值得期待的內容,大概最快也要等到3月中旬之後才能陸續整理,再放上引得市了。



小記:
1045頁的【系原】與1040重出。(缺「彔」的系原)


【使用方式】

進入「引得市」(www.mebag.com/index),進站初始預設即「④古文字」。








合作提案(並非限於商業,任何形式的交流都很歡迎)
https://hackmd.io/s/HJ_qFWLNx


【學術交流】

※關於「引得市」的各種查詢應用,網路上的教學影片或文章介紹的不多,因此,很多教授與研究者可能還不熟悉,像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題,筆者都很樂意詳細解說,只要時間允許,都歡迎個人或學校機關團體私訊或留言約時間地點,公開來討論交流。


古文字缺字資料庫
http://www.mebag.com/index/quezi/list.asp

----

黃德寬主編:《古文字譜系疏證》(全四冊),北京:商務印書館,2007年5月。ISBN:978-7-100-05471-3

王曉云:《古文字譜系疏証(一)校訂》,安徽大學碩士學位論文,2013年4月。(指導教授郝士宏先生)
朱騖涵:《古文字譜系疏証(二)校訂》,安徽大學碩士學位論文,2013年4月。(指導教授郝士宏先生)
趙昕:《古文字譜系疏証(三)校訂》,安徽大學碩士學位論文,2013年4月。(指導教授郝士宏先生)
韓孝英:《古文字譜系疏証(四)校訂》,安徽大學碩士學位論文,2013年4月。(指導教授郝士宏先生)






20181114《引得市》新功能介紹

20181114《引得市》新功能介紹 知乎: https://zhuanlan.zhihu.com/p/49854505   20181111《引得市》改版說明 Blog: https://ebag2007.blogspot.com/2018/11/2018111...