2018年5月31日 星期四

20180601《汗簡注釋》檢字索引數位化完成

20180601《汗簡注釋》檢字索引數位化完成

知乎:https://zhuanlan.zhihu.com/p/37576794

「檢字索引(555-586)」是州吁兄所製作(20170917),擱置了快一年了,近日瑾昀兄提醒後,再繼續處理完成,筆者增補空白列並逐列查詢補上缺字編號、校正。約新造缺字100字。紙本中的字體是楷體,OCR辨識並不容易,所以必須得重新打字。感謝州吁兄的製作,讓我們又可以快速的查詢文獻。在「傳抄古文」的領域的研究文獻拼圖,又補上了一塊。



字列 2768缺字 179總字列 2947



【使用方式】


進入「引得市」(www.mebag.com/index)點選⑤傳抄古文」或輸入網址:http://www.mebag.com/index/chuanchao/list.asp








合作提案(並非限於商業,任何形式的交流都很歡迎)
https://hackmd.io/s/HJ_qFWLNx


----

黃錫全:《汗簡注釋》(出土思想文物與文獻研究叢書:17),台北:台灣古籍出版有限公司,2005年1月。ISBN:986-7743-90-3







2018年5月28日 星期一

文字與數字分別取出以「EmEditor」處理

文字與數字分別取出以「EmEditor」處理


一般數位化文獻的檢索表時,OCR最後,通常會呈現文字與數字(頁碼)合併在一起的情形,如何快速的分割文字和數字(頁碼)分別貼在excel欄位中是個必須克服的問題。

只要在「EmEditor」,利用「尋找/取代」正規表示式可以解決這個問題。


我1
他2
你3

「\d」(數字)
「[^\d]」(文字)

如果想取代(刪除)數字,則輸入「\d」去取代。
如果想取代(刪除)文字,則輸入「[^\d]」去取代。

這樣,把兩次的結果分別貼到excel,這樣就不用一列一列去處理了。







※檢查空白內容:


把這一欄貼到emeditor裏
然後搜尋
^$
有結果就是有空白欄
記得勾選「正則表達式」

EmEditor常用功能

「編輯(E)」→「轉換選取範圍(L)」→「移去新行(R)」
「移除換行」快捷鍵:Alt+E+L+R

2018年5月27日 星期日

【研究不要看#1】:20180527《引得市》的基本檢索

【研究不要看#1】:20180527《引得市》的基本檢索





針對初次使用《引得市》的老師、朋友們所錄製的示範影片,有其他問題請留言告訴我們。

※本集重點

1.每個資料庫項目都有其獨立的「部件檢索」界面。2.若想執行點字跳頁的功能時,「複製模式」不要打勾。3.電腦字「基本、A區、B區」,以外的都視為「缺字」。4.「缺字」使用構字式可在「古文字缺字資料庫」查詢。


背景音樂:Entire

2018年5月23日 星期三

20180523《秦簡逐字索引(增訂本)》全二冊,索引總檢字表數位化完成

20180523《秦簡逐字索引(增訂本)》全二冊,索引總檢字表數位化完成




知乎:https://zhuanlan.zhihu.com/p/37219652

ps.《甲骨文虛詞詞典》索引也完成了

兩年前筆者製作過《秦簡逐字索引》總檢字表的數位化,2014年原作者再出版了(增訂本)。這次的原始索引係偉明兄製作(20180223),筆者調整缺字字頭,新造約10字。藉此順道把新舊兩種版本的程式更新,支援了鼠標點選頁碼隨即開啟pdf的功能(Gopage開卷助理)。資料庫一樣放置在「⑯專書」中。(增訂本)的網址和前一個版本的網址差異是「_2014」,網誌是:http://www.mebag.com/index/qinjian_zhuzi_2014/list.asp

下面,列出了兩種版本的差異,使用者可以比較看看。

秦簡逐字索引(增訂本)總檢字表(1394-1487)

字列 2082
缺字 104
總字列 2186


秦簡逐字索引總檢字表(419-486)

字列 2144
缺字 95
總字列 2239







【補充說明】


今天同時也把偉明兄製作的《甲骨文虛詞詞典》索引放上引得市,已放在「⑪辭典」項目中。也把《三禮辭典》、《中國書法鑒賞大辭典》、《中國美學範疇辭典》、《中國書論辭典》等程式修正,都支援了「Gopage開卷助理」的使用。這回兩種文獻的增加,《引得市》的總文獻數量來到245種。

《甲骨文虛詞詞典》網址:http://www.mebag.com/index/jiaguwenxuci/list.asp

【使用方式】


「引得市」→專書→《秦簡逐字索引(增訂本)》索引
或直接進入網址:http://www.mebag.com/index/qinjian_zhuzi_2014/list.asp








-----

張顯成:《秦簡逐字索引(增訂本)》全二冊,成都:四川大學出版社,2014年12月。ISBN:978-75614-7260-6
張玉金:《甲骨文虛詞詞典》,北京:中華書局,1994年3月。ISBN:7-101-01216-7



合作提案(並非限於商業,任何形式的交流都很歡迎)
https://hackmd.io/s/HJ_qFWLNx


【學術交流】


※關於「引得市」的各種查詢應用,網路上的教學影片或文章介紹的不多,因此,很多教授與研究者可能還不熟悉,像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題,筆者都很樂意詳細解說,只要時間允許,都歡迎個人或學校機關團體私訊或留言約時間地點,公開來討論交流。







【延伸閱讀】


張顯成主編:《秦簡逐字索引》,成都:四川大學出版社,2010年12月。
ISBN 978-7-5614-5089-5

20160621《秦簡逐字索引》總檢字表數位化完成
https://ebag2007.blogspot.tw/2016/06/20160621.html

「引得市」→專書→《秦簡逐字索引》索引
或直接進入網址:http://www.mebag.com/index/qinjian_zhuzi/list.asp

2018年5月18日 星期五

20180518索引字頭處理正則式

20180518索引字頭處理正則式




因應「引得市」字頭右側「photo」欄位的刪除,瑾昀兄教我一個「正則式」。讓各種文獻複雜內容的字頭列表,一列只留一個缺字編號。以EmEditor為例,處理方式如下:



尋找:^[^s0-9]*(s\d{3}-\d{3}).*$


取代為:\1

※記得打勾「使用規則運算式(X)」

----
使用前


s029-111(癹)(廢)
s029-111(癹)(廢)


使用後


s029-111
s029-111



※檢查空白內容:


把這一欄貼到emeditor裏
然後搜尋
^$
有結果就是有空白欄
記得勾選「正則表達式」

2018年5月16日 星期三

20180517《戰國時代各系文字間的用字差異現象研究》字詞索引數位化完成

20180517《戰國時代各系文字間的用字差異現象研究》字詞索引數位化完成



知乎:https://zhuanlan.zhihu.com/p/36942094

這次的數位化內容是375至406頁的「字詞索引」,由偉明兄製作,約莫在3月中交給筆者,接手後逐列處理缺字並校正非缺字部份,新造字約91處,實際74字左右。透過字詞的檢索,我們可以查詢到一般字典或文字編不容易查詢到內容,尤其可以同時對照缺字和通用字的字形。所以,把這份研究當作通假字典來檢索也是很方便的。

字列 1608
缺字 497
總字列 2105

----

《戰國時代各系文字間的用字差異現象研究》字詞索引說明(375頁):


一、本索引按音序分別列出本書一、二、三章(不包括附表)中出現的字形與該字形所讀為之詞。字形和詞後列其所在頁碼,連續數頁見者祇標首見之頁(用字不同者除外)。

二、索引編制以檢索方便為原則。可確認本字的字形,所附讀音以字典辭書為準;無法確認本字的字形,讀音以其讀為之詞為準;部分字形和詞可能標注多音。


【使用方式】

進入「引得市」(www.mebag.com/index)點選:⑨訓詁」項目中即可查詢。







合作提案(並非限於商業,任何形式的交流都很歡迎)
https://hackmd.io/s/HJ_qFWLNx


【學術交流】

※關於「引得市」的各種查詢應用,網路上的教學影片或文章介紹的不多,因此,很多教授與研究者可能還不熟悉,像是「開卷助理如何用」、「電腦缺字」、「古文字輸入法的使用」等問題,筆者都很樂意詳細解說,只要時間允許,都歡迎個人或學校機關團體私訊或留言約時間地點,公開來討論交流。

----

周波:《戰國時代各系文字間的用字差異現象研究》,北京:線裝書局,2013年4月。
978-7-5120-0951-6








20180516《引得市》各項資料庫「缺字圖示」顯示修正


20180516《引得市》各項資料庫「缺字圖示」顯示修正


知乎:https://zhuanlan.zhihu.com/p/36921418

《引得市》是綜合各種領域內容的大型的資料庫,幾年來在筆者與眾人的補充下,「索引」已不僅限於文字學或書法、篆刻等造形藝術。

時間過得很快,去年6月「Gopage開卷助理」與《引得市》的結合已經快一週年了,不知使用者是否善用熟悉了?今日,瑾昀兄再為《引得市》提供了更好的使用體驗,原本資料庫界面中缺字呈現是用「圖示」的方式,置於最右側。內容中缺字位置與編號顯示,如s001-001。

現在,經過程式的修正,已經可以把缺字直接和內容並列,而且是以「SVG」(註1)顯示。形體和真正的文字很接近,不細看有時還看不出來差別。因為缺字能夠與字頭等內容並列,所以最右側的圖示顯示欄位就沒有必要存在了,所以資料庫都已經逐一刪除。

這樣的改變有什麼好處呢?

1.右側欄位刪除,欄寬空間多了空間,可再安排利用。

2.直覺直觀的瀏覽,瀏覽缺字不必再以「編號+右側的圖示」來辨別。

3.欄位中只要有缺字編號,程式就會自動轉成SVG格式的缺字,無論多少欄位都能顯示,不像以往一列只能顯示一個缺字。因為能夠動態的轉換,在全文資料庫中尤其可發揮到極致。

4.欄位中雖然改以SVG圖示呈現,在搜尋匡中依然可以使用「編號」檢索出來。

5.很多古文字相關的論文集,篇名常有許多缺字,有了這個技術,製作目錄索引時,就可以完全顯示支援。


實際上,前後到底差別如何,詳細請看圖示對照:


2018年5月13日 星期日

20180513《文字學概要(修訂本)》索引數位化完成

20180513《文字學概要(修訂本)》索引數位化完成



知乎:https://zhuanlan.zhihu.com/p/36796791

原始索引由偉明兄製作,瑾昀兄調整後筆者放於「專書」項目。一共1572筆,一天內急行軍連續更新了兩份文獻,筆電卡卡準備重新安裝。

----

《文字學概要(修訂本)》325頁【索引說明】


為便於讀者使用《文字學概要》,我們參考本書英譯本(馬幾道、羅傑瑞譯,2000)所附索引,改編成本書修訂本例字索引。索引按音序排列,不出古文字原形和字庫中沒有的古文字嚴格隸定形字頭。字形繁簡一般遵從原文,簡繁體同時出現的,一般情況下以簡體列於前。多音字如聲母不同則分列條目,聲母相同則不分。第13章"漢字的整理和簡化"中的例字未收入。


【使用方式】


進入「引得市」(www.mebag.com/index)點選⑯專書,選單選擇「《文字學概要(修訂本)》」,或輸入網址:http://www.mebag.com/index/wenzixuegaiyao/list.asp





合作提案(並非限於商業,任何形式的交流都很歡迎)
https://hackmd.io/s/HJ_qFWLNx

裘錫圭:《文字學概要(修訂本)》,北京:商務印書館,2013年7月。
978-7-100-09370-5







【延伸閱讀】

20180513《裘錫圭學術文集.一~六卷》索引數位化完成
知乎:https://zhuanlan.zhihu.com/p/36781902
 Blog:https://ebag2007.blogspot.tw/2018/05/20180513.html

2018年5月12日 星期六

20180513《裘錫圭學術文集.一~六卷》索引數位化完成

20180513《裘錫圭學術文集.一~六卷》索引數位化完成





知乎:https://zhuanlan.zhihu.com/p/36781902

【前言】


今日所發布的索引是知名學者裘錫圭先生的著作《裘錫圭學術文集》。2012年復旦大學出版社出版,共有六卷。分別是:甲骨文卷、簡牘帛書卷、金文及其他古文字卷、語言文字與古文獻卷、古代歷史、思想、民俗卷、雜著卷等。

數位化的內容是雜著卷333-419頁的「主題索引」。由好友周旭兄整理製作,再由瑾昀兄修正處理至目前版本。內容缺字甚多,為能盡早上線,缺字還沒能夠編號建檔,暫時以構字式表示。

【发布】裘锡圭学术文集索引文字版(發文者:周旭)

https://zhuanlan.zhihu.com/p/25490046

周旭按:本索引根據《裘錫圭學術文集》的《主題索引》部分ocr後校對整理。無法輸入者,以構字式形式表示。如:【⿰豆頁=頭】【⿱日軍=暈】【⿸广厶=広】等。不能用構字式表示者,用編號圖片表示,圖片見壓縮檔。爲方便檢索,部分無法輸入且不能用構字式表示的字。將其所通假的字用括號放在後面。最後,感謝爲本索引提供最新信息的朋友。


【製作過程】


筆者以最後的版本轉成「引得市」專書使用的格式,並採取瑾昀兄的建議,將「專書/專書2/專書/專書3」共28種文獻合併,選單語法則改以include方式處理,便於日後增加更多的專書內容。瑾昀兄也建議,將《裘錫圭學術文集》放置最頂端顯眼處(有種「置頂」概念)。

索引內容涵蓋不同的卷數和頁碼,甚為複雜,但是這份文獻一樣也能夠配合「Gopage開卷助理」,隨點隨看,有勞於瑾昀兄網頁的技術支援,筆者相當感謝。

【小結】


如果說數位化只是將紙本的內容轉成電子檔(txt/word),其實發揮的功能還是有限,但是如果能搭配「檢索」與「點選跳頁」,這樣的數位內容就能發揮到最大的效能。不必作到書籍全文的數位化,只要把「索引」處理好,就可以在任何龐大文獻中快速地找尋需要的內容。希望研究者都能把這樣工具或技術好好的學起來,研究不一定很有趣,但也不是苦到不行的差事。能夠把「Gopage開卷助理」應用好,相信對研究一定會很有幫助的。

此外,裘教授的另一著作《文字學概要(增訂本)》索引也正在處理中,敬請期待。


※在「筆畫」欄位中:
「非隸定字(包括原形、半隸定形和缺釋之字)」簡稱為「非隸定字」
「非隸定字(首字爲漢語拼音或英文字母」簡稱為「字母」

【使用方式】

進入「引得市」(www.mebag.com/index)點選⑯專書」或輸入網址:http://www.mebag.com/index/qiuxigui/List.asp







合作提案(並非限於商業,任何形式的交流都很歡迎)

https://hackmd.io/s/HJ_qFWLNx



---

裘錫圭:《裘錫圭學術文集.第一卷.甲骨文卷》,上海:復旦大學出版社,2012年10月。
裘錫圭:《裘錫圭學術文集.第二卷.簡牘帛書卷》,上海:復旦大學出版社,2012年10月。
裘錫圭:《裘錫圭學術文集.第三卷.金文及其他古文字卷》,上海:復旦大學出版社,2012年10月。
裘錫圭:《裘錫圭學術文集.第四卷.語言文字與古文獻卷》,上海:復旦大學出版社,2012年10月。
裘錫圭:《裘錫圭學術文集.第五卷.古代歷史、思想、民俗卷》,上海:復旦大學出版社,2012年10月。
裘錫圭:《裘錫圭學術文集.第六卷.雜著卷》,上海:復旦大學出版社,2012年10月。


---

主題索引


說明

一、本索引的條目,包括《文集》中討論到的比較重要的字、詞、文句以及文字學、語言學、文獻學、古代史、思想史、民俗學等方面的概念、現象和問題,重點提到的人名、書名、文章名,作過解釋的比較重要的甲骨卜辭、銅器銘文、簡牘帛書等古文字資料。

二、著重討論的古文字資料中的字、詞、文句等,一般以其原文爲索引條目,有時也加上器名、篇名或書名;討論到的古書內容,逕以書名爲索引條目。所論述的文字學、語言學、古代史、文獻學等方面的現象和問題,一般撮述其大意或主要結論爲索引條目。作過解釋的古文字資料,甲骨卜辭以著錄書加著錄號(一般用《甲骨文合集》等總集性著錄書而不用舊著錄書)爲索引條目,如「《合》2246正」;銅器銘文以器名爲條目,如「沈子它簋」;簡牘帛書以篇名或書名加簡號或行號爲條目,如「《孔子詩論》簡27」、「《甲乙編》33·4」、「《九主》381—382行」。

三、本索引的第一部分爲筆畫索引,以條目中可釋寫的首字筆畫爲序。第二部分爲非隸定字的索引,條目首字爲原形、半隸定形、缺釋之字(用缺文號「□」表示)者歸入此部分。原形字和一半爲隸定形、一半用原形之字,按自然分類法排列;一半爲隸定形、一半缺釋(用缺文號「□」表示)之字以可隸定部分的筆畫爲序排列;首字缺釋者附於其後。最後是首字爲外文字母的條目的索引。

四、每個條目後列出所屬卷數、頁碼,卷數用漢字表示,頁碼用阿拉伯數字表示。如同一條目見於同一卷的不同頁,只在首次出現的頁碼前注明卷數,不連續的頁碼之間用逗號隔開;如見於不同卷,彼此之間用分號隔開。例如:
万(萬) 一39,47—50;二153—154
表示用爲「萬」的「万」,在本書第一卷的39頁、47—50頁和第二卷的153—154頁有討論。

五、本索引條目中符號的使用遵從古文字學界的一般習慣,如用「()」表示通用關係,必要時也對此字的具體用法或釋法及其他有關情況加以說明;用「〈〉」表示正誤關係;用「/」表示異體關係。



20240315阿良人的研究LIFE __閒談「說文解字」的規整化(影音記錄)

20240315阿良人的研究LIFE __閒談「說文解字」的規整化 (影音記錄)   知乎: https://zhuanlan.zhihu.com/p/687396300 【開場白】 前一次錄影記錄了:阿良人的研究 LIFE __ 「引得市·說文解字」資料庫介紹,整體效果還不錯。...