2018年10月29日 星期一

20181029《曾侯乙墓竹簡文字編》與《曾文字編》索引數位化完成

20181029《曾侯乙墓竹簡文字編》與《曾文字編》索引數位化完成











知乎:https://zhuanlan.zhihu.com/p/47985885

【前言】


過去幾年,我們在楚系相關文獻的整理花了很多時間,尤其在缺字的整理編輯上,今日透過這兩種文獻,一併把「曾系文字」補足。大致戰國文字的缺字應當也整理的差不多了,除非再有新的出土文字,或者少數一字多形的字例。1.5萬多字的「缺字數量」也應當足夠研究者使用了。

【製作說明】


1.《曾侯乙墓竹簡文字編》筆劃索引原編輯者是偉明兄(3月初提供),筆者逐列對照調整原書排序,補充遺漏字並輸入字號、缺字編號等,新造約16字。

字列 356
缺字 190
圖形字 24(輸入t查詢可全數列示)
總字列 570

本文(1-191)
合文(193-196)
待考字(197-202)
殘字(203-205)




2.《曾文字編》筆劃索引原編輯者也是偉明兄(4月初提供),筆者逐列對照調整成原書排序,補充遺漏字並輸入字號、缺字編號等,新造約178字。

字列 1251
缺字 481
總字列 1732







【補記】


再60天左右,2019年又將到來,近期透過諸多研究同好的共同努力,《引得市》也將有全新的使用體驗,敬請關注期待!


【使用方式】

進入「引得市」(www.mebag.com/index)點選:②戰國文字」項目中即可查詢。


合作提案(並非限於商業,任何形式的交流都很歡迎)

https://hackmd.io/s/HJ_qFWLNx


【學術交流】


※關於「引得市」的各種查詢應用,網路上的教學影片或文章介紹的不多,因此,很多教授與研究者可能還不熟悉,像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題,筆者都很樂意詳細解說,只要時間允許,都歡迎個人或學校機關團體私訊或留言約時間地點,公開來討論交流。


-----

張光裕.滕壬生.黃錫全:《曾侯乙墓竹簡文字編》,台北市:藝文印書館,1997年1月。
孫啟燦:《曾文字編》,吉林大學碩士學位論文,2016年4月。


2018年10月20日 星期六

20181020最新缺字字型發布(seal v2.3.1)

20181020最新缺字字型發布(seal v2.3.1)



知乎:https://zhuanlan.zhihu.com/p/47245607



【※字型變換更新】

2018.10.24原先s154-166和s154-032構形相同,故此編號修改成其他字形。字型版本待下次更新一併修正。




【說明】


筆者近期為新文獻製作了許多缺字,和上次(約8個月前)所發布的版本也相差了1212字。所以應當需要再次發表新的版本。「glyphwiki」製作的缺字字型檔下載後共16個,交由瑾昀兄幫忙處理合成,此次共有最新缺字字型15125字,提供大家自由下載使用。

※如果您的文章中使用了缺字圖形或字型,歡迎您註記說明或幫忙推廣,讓更多人知道這類方便的工具,使研究更有效率。



【注意事項】


1. seal-MingLiU.ttf和seal-SimSun.ttf的font-face均爲seal,兩者分別適配了「細明體」和「宋体」的高度,除此之外完全一致。用戶只須安裝其中一種即可。
2. 若之前曾執行過SurrogateFallback.reg,後就不必再執行一次。
3. 若之前曾安裝過seal字型,請確保移除舊版字型檔後再安裝該版字型檔。若無法移除舊版請重新開機或者進入安全模式後刪除,以解除程式對字型檔的佔用。

【內容說明】


資料夾中包含:一個說明檔、一個xlsx檔,一個reg檔,二個字型檔以及一個壓縮檔。
png.7z:壓縮檔,封存有該版所有的缺字圖檔(png格式),共15125個。
seal v2.3.1.xlsx:該版字型檔的清單,列有缺字編號、Seal字、Unicode編碼和構字式。
seal-MingLiU.ttf:適配「細明體」字型高度的Seal字型。
seal-SimSun.ttf:適配「宋体」字型高度的Seal字型。
SurrogateFallback.reg:機碼,進行字型串接的註冊設定。務必執行一次,這樣才能在其他文書程式中顯示缺字字型。
古缺字使用說明20181020.txt:資料夾內的檔案介紹與說明,以及缺字字型的安裝等注意事項。


【下載處】


⊙下載點A(Google雲端硬碟):https://reurl.cc/4mbnv
⊙下載點B(百度):鏈接:https://pan.baidu.com/s/167XNPXBnvSzPvKa3iSp-qA 提取碼: eqy4


古文字缺字資料庫
http://www.mebag.com/index/quezi/list.asp



【《Index引得市》使用者調查】


請大家利用以下問卷,告訴我們目前需要的索引或者常用的書籍是哪些?提供更多改進、修改意見,已經填寫過得朋友也請再分享給朋友。二種內容都相同,擇一即可連結如下:

google表單
https://reurl.cc/q8Lgg

問卷星
https://www.wjx.top/jq/29010656.aspx


合作提案(並非限於商業,任何形式的交流都很歡迎)

https://hackmd.io/s/HJ_qFWLNx

------

【相關連結】


上一版本:
20180227最新缺字字型(13913字)
https://zhuanlan.zhihu.com/p/34074690


使用「BabelMap」輸出seal字型缺字圖檔
https://ebag2007.blogspot.com/2018/02/babemapseal.html

2018年10月18日 星期四

20181019《簡帛古書通假字大系》索引數位化完成

20181019《簡帛古書通假字大系》索引數位化完成


知乎:https://zhuanlan.zhihu.com/p/47170706



【製作過程】


索引是根據原書條目索引1447-1528頁(共82頁)而製作,筆者處理了一段時間,之後轉由偉明兄,8月20日回傳。10月14日開始整理內容並造字,新造缺字359字,總缺字有2184列(部份一列有二處缺字)。附錄含有圖形字的部份,我們也能在資料庫列表中顯示,使用者只要在檢索框中輸入「t」,即可列出所有的圖形字。

因為有充實完整的簡帛文字通假,這份文獻在古文字研究或書法集字創作上都很重要,自己也很期待能夠能夠儘早完成,所以有空就接續處理,幾個月下來,終於在今天完成了索引的整理。

之前和偉明兄合作完成的還有:《侯馬盟書文字編》、《侯馬盟書字表新編》等,另有許多他自己獨立完成的文獻,也都提供給「引得市」,偉明兄幾年來付出了相當多的精神和時間,筆者相當感謝。

※有文獻的使用需求或網站改進的問題,請都告訴我們,歡迎填寫下方的問卷表單。



【後記】


很高興又完成一部大作,而陸續還有更多索引等待處理。成立六年多的「引得市」仍是筆者一人獨立經營,各種營運成本問題如何改善或解決?仍無良策,也請大家請集思廣益。

近期為新文獻大量的造字,缺字庫已經累計15125筆,距離上次的版本(20180227最新缺字字型(13913字))已相差了1212字,有望近期再次更新,敬請期待。


【使用方式】

進入「引得市」(www.mebag.com/index)點選:⑨訓詁」項目中即可查詢。



缺字列表

圖形字列表


【簡單查字教學】


此外,再向使用者簡單說明一下「部件檢索」與「缺字庫」各自的功能:

在「訓詁」項目的右上角有個「部件檢索」,游標點選它進入頁面,輸入任何部件(前後位置不拘)即可同步組字列表在下方,例如輸入「老日」。點選下方顯示的字頭,就可以跳頁至文獻頁碼列表。(※記得[□複製模式]要關掉)

如果我們要找的字是「見⿰旨」,輸入後發現結果是0,表示此字不是一般漢字及擴張字B~F,這時請移駕到「古文字缺字資料庫」。再次輸入「見旨」,即可列出該字,再點擊「訓詁」就可跳頁至有該字的文獻中。商周、戰國時期這類的電腦缺字都可以在缺字庫中查詢,然後再點選需要的項目跳頁,使用者可多利用,它是查詢古文字缺字的必要工具。






【索引說明】


為了瀏覽視覺上的簡潔,原先字頭的「凡與風」都改成「凡-風」。即把「與」字以符號「-」取代。原先「爲」字以「爲(為)」呈現。


字列 7471
缺字 2184
總字列 9655


合作提案(並非限於商業,任何形式的交流都很歡迎)

https://hackmd.io/s/HJ_qFWLNx


【《Index引得市》使用者調查】


請大家利用以下問卷,告訴我們目前需要的索引或者常用的書籍是哪些?提供更多改進、修改意見,已經填寫過得朋友也請再分享給朋友。二種內容都相同,擇一即可連結如下:

google表單
https://reurl.cc/q8Lgg

問卷星
https://www.wjx.top/jq/29010656.aspx


【學術交流】


※關於「引得市」的各種查詢應用,網路上的教學影片或文章介紹的不多,因此,很多教授與研究者可能還不熟悉,像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題,筆者都很樂意詳細解說,只要時間允許,都歡迎個人或學校機關團體私訊或留言約時間地點,公開來討論交流。


【《簡帛古書通假字大系》凡例】


一、本書正文以韻部為綱,依照陳復華、何九盈《古韻通曉》(中國社會科學出版社,1987年)分作三十部編排,依次是:之幽宵侯魚支歌脂微職覺藥屋鐸錫月質物緝葉蒸冬東陽耕元真文侵談。同一韻部之字,按所屬聲系編排。不同聲系的字,再按《古韻通曉》的聲母排列次序排列,依次是:幫滂並明端透喻定泥來精清從心邪章昌船書禪日見溪群疑曉匣影。

二、為閱讀方便,本書釋文一般用通行字寫出,不嚴格按簡文原來的字形隸定。原簡無法辨認的字或竹簡殘斷而殘缺的字,能確定所缺字數的,本書釋文用□標示(一字對應一個□),字數不能確定的用〼表示,根據文例補出的字在字外加□。

三、通假字和異體字,用()隨文注明(郭店簡本《老子》因有今本、帛書本對照,而今本本書又分王弼本、傅奕本、河上本、嚴遵本,帛書本又分甲、乙本,情況較為複雜。故本書在具體字例下,未用()直接注明其通假字和異體字,而用按語的形式說明其在不同版本中的用字;同義換讀的字,用[]隨文注明;脫文能補出者,用【】隨文注明;衍文用〖〗注明;確認的錯字,用〈〉隨文注明;合文和重文,下加=,用()隨文注明;不識之字和尚無定論之字僅作隸定,不便隸定之字直接粘貼圖片。

四、對於追加聲符的雙聲字,本書作兩條出現,但於母字下羅列有關例證,於所追加聲符的字下不再重列,僅注明“見某部某字聲系”。

五、本書通假例證儘量採用公認的說法,慎加抉擇。為節省篇幅,凡有異說者,本書僅取白認為理由較充分的一說,而不備列諸說。

六、引述學者觀點,在被引述者之後用()隨文注明出處,其中專著(含學位論文)還列出引述內容所在頁或起止頁碼。書末附有“主要參考文獻”。

七、本書對於簡帛書籍的篇名多用簡稱,書前附有“篇名對照表”。

八、為方便檢索,書末附有條目索引和筆畫檢字表。

----

白於藍:《簡帛古書通假字大系》,福州:福建人民出版社,2017年12月。ISBN:978-7-211-07846-2











【相關連結】


20181012《簡帛古書通假字大系》缺字整理2小時紀錄
https://ebag2007.blogspot.com/2018/10/201810122.html

2018年10月12日 星期五

20181012《簡帛古書通假字大系》缺字整理2小時紀錄

20181012《簡帛古書通假字大系》缺字整理2小時紀錄


知乎:https://zhuanlan.zhihu.com/p/46625047


2小時約整理375字,仍有1119字待處理。可能還需要8小時左右才能完成。

接著,還須處理新增缺字,可能也有幾百字,一天若處理50-100字計算,工作天也需要3天左右。因為有「缺字庫」,在面對任何古文獻的索引數位化時,都有一種「倒吃甘蔗」的感覺,如果每次處理文獻都得重新造字,繁重的工作量,很快就會澆滅製作的熱情,期待更多人投入索引的製作。

時間:2018/10/12 16:00-18:00

白於藍:《簡帛古書通假字大系》,福州:福建人民出版社,2017年12月。
ISBN:978-7-211-07846-2

《Index引得市》使用者調查
https://reurl.cc/WLRr5



(32倍播放版)


(原速播放版-2小時)

2018年10月10日 星期三

《Index引得市》使用者調查


今天製作了這一份表單,想了解目前使用者的各種看法或意見。
希望大家填寫和分享。





連結如下,二種內容都相同,擇一即可。


google表單

https://reurl.cc/q8Lgg


問卷星

https://www.wjx.top/jq/29010656.aspx

2018年10月9日 星期二

20181009《里耶秦簡(貳)》釋文索引數位化完成

20181009《里耶秦簡(貳)》釋文索引數位化完成

知乎:https://zhuanlan.zhihu.com/p/46345540

20140321《里耶秦簡(壹)》釋文全文檢索完成
http://ebag2007.blogspot.com/2014/03/20140321.html


※20190808起,我們將(壹)(貳)釋文資料庫合併在一起!!
網址是原來(壹)的位置,如:http://www.mebag.com/index/liye/List.asp
之後(貳)的資料庫網址,可能會適時的刪除,敬請注意。





【資料來源】


word檔由王森兄提供,原始釋文建立者是南開大學李建雄。

【製作過程】


原始檔案為*.docx格式,三千多列的簡牘釋文,字數約在4-5萬之間。內容中有缺字或符號都是用圖檔呈現,這樣的資料形式若要作為「引得市」資料庫的檢索,勢必得大幅度的調整。因為是「圖檔」,所以必須人(眼)力一列一列的檢查處理,過程簡述如下:

‧先調整改變所有文字顏色,利用對比清晰的顏色容易分辨是「圖」或符號字
‧將原來的圖形改為可輸入的「符號」如:「┘丿㇏└〼╱▂⊠◎□.↵」,以【遣】呈現「□+遣」的樣貌。※檔案中以「↵」符號作為斷行記號,但前端不會顯示這個符號,會如同釋文編排直接斷行。
‧補上缺字編號並新造73多字,以及圖形字的編號(如:t003-0005-001)
‧簡號0019、0020、0295各有文字表格,資料庫無法顯示,僅能以文字列示如:「biaoge-1、biaoge-2、biaoge-3」(如圖示)。
‧將釋文轉貼至excel(釋文斷行以「↵」此符號表示)
‧簡號與「釋文」、「紅外線圖」對照頁碼輸入

從開始製作到今日完成上線,前後大約花了二個星期的工作天,時間大都花費在手動調整修改上,或許直接ocr再來校正修改可能都不用花這麼多時間。因此,更突顯資料數位化前,有個清楚的「正規化」執行規範(或SOP)是多麼重要。無論如何,還是相當感謝有心人能夠建檔製作內容。

引得市全文檢索資料規範(正規化):https://hackmd.io/s/B12dVycq7

目前引得市中簡牘釋文全文檢索,可支援缺字、圖形字的顯示及斷行,游標點擊「簡號」或「釋文」等同複製該內容等功能,都是瑾昀兄不斷地修改程式的幫助,筆者相當感謝。此次《里耶秦簡(貳)》製作的同時,順便把《里耶秦簡(壹)》原先一百多處的缺字補完,現在(壹)、(貳)的釋文都可在引得市完整的檢索使用。透過這樣快速便利的工具,期盼研究者可從中梳理出更多隱藏在簡牘中的各種資訊。


※《里耶秦簡(壹)》、《里耶秦簡(貳)》皆支援「開卷助理」。
rmp檔名請設定為:里耶秦簡(壹).rmp與里耶秦簡(貳).rmp


※完整呈現原始釋文編排位置與內容樣貌


【校正、補充說明】


以下簡號無字,原因如下:0380(無字)、0487(與0295綴合)、0527(與0526綴合)、0902(與0901綴合)

原釋文word檔
缺0118釋文(遺漏)
缺0580釋文(遺漏)
缺0589釋文(遺漏)
缺0611釋文(遺漏)
缺0688釋文(遺漏)
缺0727釋文(遺漏)
缺1371釋文(遺漏)
缺3272釋文(遺漏)

另,原書多一處簡號3418釋文「□□□郵」,亦有部份釋文以簡體字呈現經筆者修改。


【使用方式】

進入引得市→⑬簡牘選單「《里耶秦簡(貳)》釋文全文檢索」
或直接輸入網址:http://www.mebag.com/index/liye2/list.asp










【《里耶秦簡(貳)》凡例】


一 湖南龍山里耶秦簡根據簡牘出土地層單位分五輯整理出版。

二 第一輯包含第五、六、八層出土的簡牘,第二輯為第九層,第三輯為第七、十、十一、十三層,第四輯為第十二、十四層,第五輯為第十五、十六、十七層以及二○○五年十二月護城壕第十一號坑出土簡牘。

三 圖版據簡牘原大影印,按簡牘整理號編排。圖版下對應標明簡牘出土登記號。出土登記號是按層位號加序號編排。封泥匣出土時自為系列編號,編號方式是在層位號和序號後加「封」字。護城壕十一號坑出土簡牘編號為K1-K51。整理時將無字簡撿出,所以報告中的標本出土登記號不完全連屬。個別簡牘受版面限制,略有縮小,我們註明縮小比例;還有的截成兩段排版,我們另付全形圖於圖版之後,可參閱。

四 釋文據圖版順序編排,簡號注於釋文之末。釋文一般頂格排印。簡文提行書寫的,釋文也分行排列;簡文轉行的,釋文連排,在轉行處加標「┘」符號。有些簡文雖然從文義上可以判斷出是轉行,因殘斷過甚,釋文一律作提行處理。簡文分欄書寫的,在每一欄釋文末括注「第一欄」、「第二欄」等。簡牘正、背面都有文字時,則在釋文後括注「正」字和「背」字;個別簡牘側面有文字,釋文後括注「側」字。簡文一般按時間順序由右向左書寫,有些簡牘並未嚴格按照這種格式,中間行的書寫時間在左行之後,釋文不作調整。

五 簡文殘泐無法辨認的字,釋文用「□」號表示,一字一「□」;簡文漫漶,如能確定字數的,釋文也用「□」號表示,不能確定的用「……」號表示;存疑的字外加「□」號;簡文被削除處,釋文以「⊠」號表示;簡文殘斷處,釋文用「〼」號表示。木牘的情況較複雜,或兩側殘缺(兩側殘缺者不作說明),或上下殘斷,或一面殘斷,或一角殘斷,或中間部分殘斷,如果簡文有殘缺,同樣用「〼」表示,有殘斷而簡文文義完整,不使用「〼」表示。簡牘上的圖案,釋文中一般不體現,僅以括號標出「圖案」字樣。

六 簡文間留有空白,如果語意相連,釋文連排。語意不相連的,不論空白多少,釋文一律祇空出一個字位置。殘簡上的文字根據其位於上下殘斷處距離長短,仿照上說情況,釋文與斷在號「〼」號之間空一個字。

七 釋文一般按照原文字形釋寫,重文、合文和通假字不注出所重、所合和所通假之字。簡文「七十」均為合文,形態較特殊,為排版方便,逕釋為「七十」。簡文「吏」與「事」、「叢」與「最」、「薄」與「簿」等不分,釋文也按照原文字形釋寫,不加區別。不識之字照原樣摹寫。但有些異體字,為了印刷排字方便,釋文用通行字寫出,例如「女叉」作「奴」,「獾尹」作「獲」,「𥤊尹」作「穫」,「宀䊪」作「竊」,「𣉻」作「智」等等,不嚴格隸定。


八 簡文所用的符號,釋文儘量保留,如「.」、「└」、「丿」、「少(圖)」等,符號都祇佔一個字的字空。簿籍類文章日所條列的單項後多有符號「丨(圖)」,有長有短,或斜或彎曲,釋文時均以「丨(圖)」表示,祇佔一個字字空。釋文不另加標點。簡牘之首和封檢、楬之上端塗墨者和簡牘上表示分欄的墨線,釋文時取消,也不作說明。特殊現象也在釋文後加以說明。

九 簡牘有刻齒者,刻齒的數位萬、仟、佰、拾、個,各有特定的形態,釋文後另加說明。說明原則:刻齒位置的左或右,「萬」、「仟」、「佰」、「拾」、「個」位的刻齒數,並據簡文擬加數量單位。


---

湖南省文物考古研究所:《里耶秦簡(貳)》,北京:文物出版社,2017年12月。ISBN:978-7-5010-5369-8

20140321《里耶秦簡(壹)》釋文全文檢索完成
http://ebag2007.blogspot.com/2014/03/20140321.html

三處無法呈現表格內容,暫用biaoge-1~3表示

excel



里耶秦簡(貳)圖形字

里耶秦簡(壹)缺字

里耶秦簡(壹)圖形字

里耶秦簡(貳)缺字

20240315阿良人的研究LIFE __閒談「說文解字」的規整化(影音記錄)

20240315阿良人的研究LIFE __閒談「說文解字」的規整化 (影音記錄)   知乎: https://zhuanlan.zhihu.com/p/687396300 【開場白】 前一次錄影記錄了:阿良人的研究 LIFE __ 「引得市·說文解字」資料庫介紹,整體效果還不錯。...