2020年10月19日 星期一

〈漢字探偵事務所〉書法教室開始報名

 〈漢字探偵事務所〉書法教室開始報名

〈引得市〉創辦人

漢字探偵事務所所長

漢字探偵出版社社長

人稱:大東亞 漢字文化分析師 兼操盤手 暨漢字演變講師 戰國秦楚簡字典王 阿良


不熟人:阿良

熟的人:字典王 阿良

圈內人:大東亞 漢字文化分析師 字典王 阿良

業界老一輩:大東亞 漢字文化分析師 兼操盤手 字典王 阿良

真正的名字:大東亞 漢字文化分析師 兼操盤手 暨漢字演變講師 戰國秦楚簡字典王 阿良


歡迎找我查字典 寫字…

書法課程報名表單 https://reurl.cc/MdM2rW






#書法課

#高雄

#IKEA

#好事多

2020年10月12日 星期一

20201012〈引得市〉文獻索引數位化教學2.2

20200121「引得市」文獻索引數位化教學2.2


知乎:https://zhuanlan.zhihu.com/p/265214981


【前言】


這篇文章提供了索引製作的朋友詳細的教學說明,面對各種文獻的輸入建檔,大致上會有四種狀況,我們在簡報中依序都有詳細的解說。


相較於2.1,調整的部份是配合2020年8月中旬起對缺字處理的策略改變,重新制定製作文獻索引的方法。我們對C~G區的字都不再造字,直接取用Unicode的字元。


※有些字或內容在平台上的顯示可能不完整,所以此文採取文字圖片並行的方式,文字摘錄重點列示,完整內容朋友們可以利用下方「騰訊微雲」的連結,下載瀏覽。


▼▼▼以下內容開始▼▼▼


★20200814「古文字缺字資料庫」缺字處理方針說明★


blog:ebag2007.blogspot.com/2020/08/20200814.html

知乎:zhuanlan.zhihu.com/p/183802882


部件檢索:www.mebag.com/index/component.asp


2020年8月中旬開始,〈引得市〉新的文獻索引,會直接使用C~G擴張區的字頭。在此之前,我們都會為這些區段的Unicode字編號造字。

「缺字庫」列表中的流水號,以游標點選有「複製」整列字頭的功能,在方針策略改變後,其中Unicode字的複製的功能會過濾掉。 例如:原本應該會是「s001-001(     )」,會變為    。其他Unicode以外的缺字,功能一樣沒有改變。請詳見方針說明。▲


▲以上為簡報檔▲第2頁---------------------▲


文獻索引製作之前,請先下載安裝這兩種字型

⊙「花園明朝(HanaMin)」」

⊙「全宋體」

下載連結如下: https://zh-tw.osdn.net/projects/hanazono-font/downloads/68253/hanazono-20170904.zip/


https://pan.baidu.com/s/1W18LprA9gIali_uRIbZw9g

提取碼:cz8r


安裝好字型之後,建議將關閉瀏覽器再重開,測試看看能否正確的顯示。


延伸閱讀:

關於漢字的顯示,w兄《漢字使用環境的建置 ㈠ —— 顯示篇》http://fgwang.blogspot.com/2018/02/blog-post.html



▲以上為簡報檔▲第3頁---------------------▲


無論是掃描後圖檔以OCR文字辨識,或直接打字輸入再校正。接下來,辨別、認識文字是歸屬於“基本漢字、A或B~G區字”是數位化前的首項要務,另外,分辨是否為“缺字” ,也是重要的工作。


先使用“部件檢索”查詢,這裡沒有的字,我們再利用“古文字缺字資料庫”查詢看看。


部件檢索:www.mebag.com/index/component.asp

古文字缺字資料庫:www.mebag.com/index/component.asp


▲以上為簡報檔▲第5頁---------------------▲


索引的製作,建議使用「excel」或具備相同功能的軟體,無論以「筆畫檢字表」或「音序檢字表」製作,都一定要注意「排序」,要保持順序的正確,建議在字頭或條目的前一欄加入一個數字流水號。


▲以上為簡報檔▲第7頁---------------------▲


A:流水號

B:書名

C:筆畫或其他分類

D:字頭或詞彙

E:頁碼

F:索引頁頁碼

G:Gopage欄位(暫時先空著)

H:字號(若無直接空著)

I:備註

J:構字式


「字號」在甲金文這類文獻中扮演著重要的角色,有些圖形字或未隸定字,如果有「字號」作為註記,使用者就很容易透過字號找到它們。


因此,強烈建議製作者在索引數位化時一併整理起來!


▲以上為簡報檔▲第8頁---------------------▲


狀況1:遇到C區或之後的字

在〈部件檢索〉輸入「尚上」查詢。 ※只要是unicode字(即A~G區),現階段缺字庫已經不會再編號與造字。


▲以上為簡報檔▲第10頁---------------------▲


狀況1:遇到C區或之後的字(在“部件檢索”能夠找得到、有顯示出來的)

缺字庫「Unicode字」欄位內的意思是該字相對應的Unicode字。

(CDEFG區,也可能是兼容字)該字實際上已編碼,過去引得市的缺字資料庫為了相容舊式系統依然視爲缺字並給予編號。


▲以上為簡報檔▲第11頁---------------------▲


狀況2:遇到基本漢字、A區、 B區的文字

如果是基本漢字、A區或B區的字,就不必輸入「構字式」的任何內容。換句話說,只要不是C~G區字或“缺字”,只需要在字頭欄位輸入文字就可以。


▲以上為簡報檔▲第14頁---------------------▲


狀況3:「部件檢索」和「缺字庫」都沒有這個字…

例如以「口口巿」查詢,都查不到這個字,這時候,請在字頭欄位中填上「d」或「q」的英文標記。


▲以上為簡報檔▲第15頁---------------------▲


狀況3:「部件檢索」和「缺字庫」都沒有這個字…

字頭欄位中填上「d」或「q」的英文標記。然後在對應的「構字式」填上詳細的內容。構字式可能會有多種組合,前後以“,”區隔(半形逗點符號)


▲以上為簡報檔▲第16頁---------------------▲


狀況4:既不屬於缺字,也無法打出來的內容要怎麼辦?

像這樣的“字”或“族徽”圖形等,我們統稱為「圖形字」。圖形格式為png格式,命名規範如:txxx-xxxx-xxx(最前面是「t+書名文獻編號」為三碼編號,接著四碼頁碼,最後是流水號三位數)圖形字,筆畫欄位,請都輸入「0」。


▲以上為簡報檔▲第18頁---------------------▲


狀況4:既不屬於缺字,也無法打出來的內容要怎麼辦?

書名文獻編號,可先輸入t999暫代,回傳引得市之後會再改為符合現在實際的書名文獻編號。例如:t999-0100-003代表某書的第100頁的第3個圖形字,圖形字的流水號依照不同頁面,重新由001開始。在前端的檢索界面,使用者可輸入「t」作全面的瀏覽,或者輸入詳細的頁碼數據來查詢。


▲以上為簡報檔▲第19頁---------------------▲


其實,索引製作的門檻不高,不一定先要有文字學的基礎,只要善用工具,帶著邊做邊學習的心情,就可順利完成各種類型的索引製作。


衷心建議,無論文獻索引數位化的來源是“筆畫檢索表”或“音序檢索表” ,如果時間允許,應該再逐字逐頁依照文獻的本文排序,調整內容順序比對一至二次。


▲以上為簡報檔▲第21頁---------------------▲


---


「引得市」文獻索引數位化教學2.2 簡報檔

騰訊微雲下載:https://share.weiyun.com/kbkKXFHS


「引得市」文獻索引數位化教學2.2 PDF檔

騰訊微雲下載:https://share.weiyun.com/hCnlcf0A


【延伸閱讀】

「引得市」文獻索引數位化教學2.1

此次相較於前一版的教學內容,多了第四種狀況,在製作甲骨金文等文獻時,常有些圖形或未隸定字,應如何處理?這次有詳細的說明。

Blog:https://ebag2007.blogspot.com/2018/11/21.html

知乎:https://ebag2007.blogspot.com/2018/11/21.html


























2020年10月9日 星期五

〈引得市〉台灣大專院校相關系所學門分析研究

〈引得市〉台灣大專院校相關系所學門分析研究 

知乎:https://zhuanlan.zhihu.com/p/263664807

資料來源:教育部統計處 教育統計查詢網
 留言

https://stats.moe.gov.tw/qframe.aspx?qno=MQA5ADEA0

前言

2019年台灣的生育率在世界排名倒數第一,“少子化”已反應在大學生的數量上,十年前後的差距將近九萬人。許多大專院校以合併或停止招生、系所轉型等方式因應這波浪潮。博碩士班所受的影響並沒有學士班來得大,每年就讀的人數依然維持在二十萬人左右。

博、碩士在畢業前必須繳交校方系所規定的論文,而資料檢索、資料庫的使用是撰寫論文追求便捷、精確,經常採取的方式之一。雖然學校教授、研究員也是使用族群之一,但研究習慣不會輕易改變,因此比較年輕、會學習新的方法的博碩士生會是〈引得市〉最主要的使用者。

數據分析

台灣每年約有二十萬左右的博碩士新生(比例約1:5),分佈在人文、社會、科學這三方分類中。

〈引得市〉成立八年以來建立古文字相關字辭典、歷史語言、藝術文化等資料文獻,查詢使用族群多以「人文類」為主。人文類包含了“教育”、“藝術”、“人文”、“語文”四種學門。

教育部公開的資料是97-108學年度,前後共十二年,我們擇取近四年作為可開發(潛在)的使用組群。即105-108學年度。從學門領域逐漸縮小範圍。

105-108學年度博碩士生總數量是788460人,相關的四種學門人數總合是162958人,佔48.38%左右。

四種學門當中,除了“藝術學門”持平之外,其他三種皆為下降的趨勢,尤其是“語言學門”下降的幅度相當明顯,108學年的碩士人數比歷年平均少了1586人,與十年前比較硬是少了3602人,可以想見這學門的博碩士在明年或未來招生勢必相當辛苦。

擇選性質相近系所

108學年台灣共有126所大學,我們從中篩選出文史哲相關領域的博碩士系所課程,如:國立政治大學(11)、國立清華大學(9)、國立臺北藝術大學(9)、國立東華大學(8)、輔仁大學(8)、國立臺灣大學(7)、國立臺灣師範大學(7)、國立臺灣藝術大學(7)、國立中央大學(6)、國立高雄師範大學(6)…共62所大專院校。括弧內為與〈引得市〉內容性質相近數量。

數量最多的是國立政治大學,包含:中國文學系、台灣文學研究所、台灣史研究所、民族學系、宗教研究所、東亞研究所、哲學系、華語文教學博士學位學程、華語文教學碩士學位學程、圖書資訊與檔案學研究所、歷史學系等11個系所。

其中與〈引得市〉內容最為密切的是中文系,性質相同名稱略有差異如:中國文學系、中國文學與應用學系、中國文學學系、台灣文學與跨國文化研究所、國文學系、應用中國文學系等六種「中文系」,分別在:中國文化大學、世新大學、佛光大學、明道學校財團法人明道大學、東吳大學、東海大學、國立中山大學、國立中央大學、國立中正大學、國立中興大學、國立成功大學、國立政治大學、國立高雄師範大學、國立清華大學、國立嘉義大學、國立彰化師範大學、國立臺北大學、國立臺灣大學、國立臺灣師範大學、淡江大學、逢甲大學、輔仁大學、銘傳大學、靜宜大學等24所學校當中,也在我們仔細選擇的範圍之內。

在台灣五所大學裡面,就會有一所大學有設立「中文系」,可知這個科系在大學中的密度算是很高。

小結

台灣少子化的影響不容易在短時間獲得解決已是既定的事實。未來競爭的環境只會越來越嚴苛,在提昇競爭力的大方向上,個人家庭或國家在「教育」的預算必會更加重視,投注更多資源。新起、潛在使用者每年仍有數萬人,持續開發內容,確立專業的品牌價值,像〈引得市〉這種學術服務絕對是有龐大的商機,值得期待的藍海市場。




補記:〈引得市〉性質相近的141種系所、學程


在台灣共有17所大學有“中國文學系”!









2020年9月28日 星期一

20200928〈引得市.部件檢索〉「圖片模式」顯示問題修復

 20200928〈引得市.部件檢索〉「圖片模式」顯示問題修復


知乎:https://zhuanlan.zhihu.com/p/260189677

「部件檢索」是〈引得市〉中查詢偏旁、部件的好幫手,近日「圖片模式」顯示出了問題,經瑾昀兄的處理修復,目前已經可以正常顯示。


「圖片模式」的優點是讓我們在沒有電腦的情況下,利用手機或者平板等裝置,查詢任一漢字,不用擔心缺少字型無法顯示的問題。



只要一個【步驟】!


進入:http://www.mebag.com/index/component.asp,然後ctrl+f5

(記得勾選☑「圖片模式」)


20200923秦簡構形考察步驟詳細解說

 

20200923秦簡構形考察步驟詳細解說


知乎:https://zhuanlan.zhihu.com/p/260177728


【前言】


文字構形考察時為避免遺漏,我們採取偏旁部首或部件的方式,藉由「部件檢索」的功能,在一定的範圍內,將所有與部件相關的字形一起列出。


接下來如何找出文字之間的關係是個新問題,幸好有網站程式可以輔助,讓非文字學、音韻學領域的研究者也能快速的分類,有效率進一步考察。


【步驟A】

1.以「新編《睡虎地秦簡牘》文字編」為例。在「部件檢索」(http://www.mebag.com/index/component.asp)選擇此文獻。輸入部件,例如「勹」,總計78字。〔圖a-1〕

2.打開EmEditor,將內容貼入。尋找「(.)」取代為「\1\r\n」,把□使用規則運算式(X)打勾,然後全部取代(A)。※(注意:在進階(V)...檢查規則運算式引擎(G)是否為Onigmo)〔圖a-2〕

3.執行後,整個檔案會從原本變成一字一列的情形,我們按下「A→Z的排序」,然後把不需要的空白等都刪除。〔圖a-3〕

4.〈古音小鏡〉,點選右上角選單「小功能▼」→「古音配音」。或輸入網址:http://www.guguolin.com/font_peiyin.php「批量中古/上古配音」將剛剛整理好的內容貼上並按下「確定」。〔圖a-4〕

5.網站會把所有文字的韻部、聲紐、聲調等資訊都列出。〔圖a-5〕









【步驟B】

1.將前一步驟的網頁內容,複製並貼到EmEditor。〔圖b-1〕

2.開啟一個excel工作表,複製剛剛EmEditor的內容,貼到工作表中,最左邊的A欄作為流水號,上端開起「篩選」等…。〔圖b-2〕

3.選擇C欄的「聲紐」從A到Z排序(A),〔圖b-3〕

4.這樣相同「聲紐」的文字會聚集在一起,方便對照〔圖b-4〕。

5.幫紐有:謗、包、苞、豹、邊、別、方、枋、杓這九個字。分析構形時,就需要一起討論。〔圖b-5〕

6.excel檔案命名存檔,如「新編《睡虎地秦簡牘》文字編-勹形字頭音韻資料」,資料可作日後參考。〔圖b-6〕









【延伸閱讀】


20200920快速整理《說文》字號和字頭統計數量(不藏私密技)

Blog:https://ebag2007.blogspot.com/2020/09/20200920.html

知乎:https://zhuanlan.zhihu.com/p/256365422

2020年9月27日 星期日

20200928《商代文字字形表》索引數位化完成

 20200928《商代文字字形表》索引數位化完成



知乎:https://zhuanlan.zhihu.com/p/260006904


【製作說明】

「古漢字字形表系列」是目前最新的古文字研究成果,索引的製作是從2018年開始,原先是偉明兄先製作的,以拼音檢索內容為主,在4月11日回傳,筆者接手後發現遺漏很多字頭,所以決定重新一字一字處理。


當時正忙於博士論文撰寫,事情也很多,製作又擱置…再製作…,近期受瑾昀兄督促提醒,回頭讀甲骨、看甲骨,最後階段終於在這幾天一口氣完成,字號0001-2705,補上合文並新造157字。為〈引得市〉今年第28種文獻,總數量累計402種。


這幾年筆者製作「上海古籍出版社」所出版的五種文字字形表索引,花了很多時間,記得《秦文字字形表》是筆者與44位同學〈書法產業〉修課同學共同製作的,字形表系列目前只剩《戰國文字字形表》。最複雜內容的缺字最多,整理進度緩慢,所以請朋友們再等等了。




戰國文字字形表(????)

商代文字字形表(2020.9.28)

秦文字字形表(2019.5.4)

春秋文字字形表(2019.1.18)

西周文字字形表(2019.1.13)


對古文字有興趣的朋友,請刷一排六六六…



本文(1-602)

合文(603-674)

引書簡稱表(675)

參考文獻(676-678)



字列 2060

缺字 1218

總字列 3278


(C~G區/兼容共有117列。圖形字二處)

圖形字代號:t008


【《商代文字字形表》凡例】


一、本表為商代文字字形表,收錄了商代的甲骨文、金文及陶文等字形。

二、全書分為正文十四卷、合文一卷。正文字頭排列大致按照許慎《說文解字》一書順序,並按流水順序編號,一個字頭一個號碼。見於《說文解字》者,首出楷書字頭;同一字頭下的異體字出隸定字形,另起一欄,字形分列排列。凡《說文解字》所無之字,徑出隸定字頭,在字頭右上角標*號,按偏旁部首附於相應各部之後,大致按照筆畫多少排序。合文大致按以類相從、筆畫多少的順序排列。

三、本表收字原則:收錄全部已釋字;可隸定且大體了解用法的字;經常出現但尚未釋出的可隸定字。

四、每一字頭下所收字形為具有文字學意義之典型字形,各類異形異構字儘量全數收錄,字形殘缺或有相同字形但不其有典型性者一般不收。其中甲骨文字形兼顧不同組類和異體。

五、本表中甲骨文字形下標出組類情況,相同寫法的字形大致按照組類時代先後排列。王卜辭大致分為𠂤組、賓組、出組、何組、歷組、無名組、黃組,非王卜辭分為子組、圓體類、午組、婦女類、花東子、屯西類子卜辭。為節省篇幅,標注時一般用首字簡稱,如字形屬於無名組,只在出處後標「無可字形屬於婦女類,只在出處後標「婦」。由於花東子卜辭從其出處就可看出組類,故不再單獨標明。

六、字頭下必要時以按語注明用法或代表性考釋意見,不詳注出處。書後附有《參考文獻》。

七、為避免字形失真,本表收錄的字形,全部采用原拓掃描錄入,不作任何翻轉處理,但字形大小有所調整。字形儘量收錄拓片字適清晰者,但字形特別重要又無拓片者則附摹本收錄。

八、每一字形下均詳細標明出處,其體出處材料詳見《引書簡稱表》。

九、書後附有拼音檢字表和筆畫檢字表,以備檢索。合文部分不出檢字表。

十、收錄資料截止時間為二〇一五年六月。








【使用說明】

進入引得市,上方選單「工具書▼」→「語文辭典」

網址:http://www.mebag.com/index/List.asp



【小額贊助】

如果「引得市」曾經幫助到您、而您想以實際行動支持我們的話,歡迎透過以下小額贊助的方式表達支持與鼓勵。無論金額多少都足夠表達您的一份心意。謝謝!

請點擊這裡→→http://www.mebag.com/index/donate.asp



【引書簡稱表】

合 《甲骨文合集》

屯 《小屯南地甲骨》

英 《英國所藏甲骨集》

乙 《殷虛文字乙編》

美 《美國所藏甲骨錄》

德 《德瑞荷比所藏一些甲骨錄》

張 《張世放所藏殷墟甲骨集》

京人 《京都大學人文科學研究所藏甲骨文字》

安明 《明義士收藏甲骨文集》

懷特 《懷特氏等收藏甲骨文集》

掇二 《殷契拾掇二編》

掇三 《殷契拾掇三編》

合補 《甲骨文合集補編》

花東 《殷墟花園莊東地甲骨》

輯佚 《殷墟甲骨輯佚》

史購 《史語所購藏甲骨集》

俄藏 《俄羅斯國立愛米塔什博物館藏殷墟甲骨》

旅博 《旅順博物館所藏甲骨》

拾遣 《殷墟甲骨拾遣》

村中南 《殷墟小屯村中村南甲骨》

集成 《殷周金文集成》

殷新 《殷墟新出土青銅器》

近出 《近出殷周金文集錄》

近二 《近出殷周金文集錄二編》

影彙 《新收殷周青銅器銘文暨器影彙編》

陶彙 《古陶文彙編》








---


夏大兆:《商代文字字形表》,上海:上海古籍出版社,2017年9月。

ISBN:978-7-532-58234-1



【延伸閱讀】


20190504《秦文字字形表》索引數位化完成

Blog:https://ebag2007.blogspot.com/2019/05/20190504.html

知乎:https://zhuanlan.zhihu.com/p/64597360


20190113《西周文字字形表》索引數位化完成

Blog:https://ebag2007.blogspot.com/2019/01/20190113.html

知乎:https://zhuanlan.zhihu.com/p/54770642


20190118《春秋文字字形表》索引數位化完成

Blog:https://ebag2007.blogspot.com/2019/01/20190118.html

知乎:https://zhuanlan.zhihu.com/p/55209701


20240315阿良人的研究LIFE __閒談「說文解字」的規整化(影音記錄)

20240315阿良人的研究LIFE __閒談「說文解字」的規整化 (影音記錄)   知乎: https://zhuanlan.zhihu.com/p/687396300 【開場白】 前一次錄影記錄了:阿良人的研究 LIFE __ 「引得市·說文解字」資料庫介紹,整體效果還不錯。...