2020年10月19日 星期一

〈漢字探偵事務所〉書法教室開始報名

 〈漢字探偵事務所〉書法教室開始報名

〈引得市〉創辦人

漢字探偵事務所所長

漢字探偵出版社社長

人稱:大東亞 漢字文化分析師 兼操盤手 暨漢字演變講師 戰國秦楚簡字典王 阿良


不熟人:阿良

熟的人:字典王 阿良

圈內人:大東亞 漢字文化分析師 字典王 阿良

業界老一輩:大東亞 漢字文化分析師 兼操盤手 字典王 阿良

真正的名字:大東亞 漢字文化分析師 兼操盤手 暨漢字演變講師 戰國秦楚簡字典王 阿良


歡迎找我查字典 寫字…

書法課程報名表單 https://reurl.cc/MdM2rW






#書法課

#高雄

#IKEA

#好事多

2020年10月12日 星期一

20201012〈引得市〉文獻索引數位化教學2.2

20200121「引得市」文獻索引數位化教學2.2


知乎:https://zhuanlan.zhihu.com/p/265214981


【前言】


這篇文章提供了索引製作的朋友詳細的教學說明,面對各種文獻的輸入建檔,大致上會有四種狀況,我們在簡報中依序都有詳細的解說。


相較於2.1,調整的部份是配合2020年8月中旬起對缺字處理的策略改變,重新制定製作文獻索引的方法。我們對C~G區的字都不再造字,直接取用Unicode的字元。


※有些字或內容在平台上的顯示可能不完整,所以此文採取文字圖片並行的方式,文字摘錄重點列示,完整內容朋友們可以利用下方「騰訊微雲」的連結,下載瀏覽。


▼▼▼以下內容開始▼▼▼


★20200814「古文字缺字資料庫」缺字處理方針說明★


blog:ebag2007.blogspot.com/2020/08/20200814.html

知乎:zhuanlan.zhihu.com/p/183802882


部件檢索:www.mebag.com/index/component.asp


2020年8月中旬開始,〈引得市〉新的文獻索引,會直接使用C~G擴張區的字頭。在此之前,我們都會為這些區段的Unicode字編號造字。

「缺字庫」列表中的流水號,以游標點選有「複製」整列字頭的功能,在方針策略改變後,其中Unicode字的複製的功能會過濾掉。 例如:原本應該會是「s001-001(     )」,會變為    。其他Unicode以外的缺字,功能一樣沒有改變。請詳見方針說明。▲


▲以上為簡報檔▲第2頁---------------------▲


文獻索引製作之前,請先下載安裝這兩種字型

⊙「花園明朝(HanaMin)」」

⊙「全宋體」

下載連結如下: https://zh-tw.osdn.net/projects/hanazono-font/downloads/68253/hanazono-20170904.zip/


https://pan.baidu.com/s/1W18LprA9gIali_uRIbZw9g

提取碼:cz8r


安裝好字型之後,建議將關閉瀏覽器再重開,測試看看能否正確的顯示。


延伸閱讀:

關於漢字的顯示,w兄《漢字使用環境的建置 ㈠ —— 顯示篇》http://fgwang.blogspot.com/2018/02/blog-post.html



▲以上為簡報檔▲第3頁---------------------▲


無論是掃描後圖檔以OCR文字辨識,或直接打字輸入再校正。接下來,辨別、認識文字是歸屬於“基本漢字、A或B~G區字”是數位化前的首項要務,另外,分辨是否為“缺字” ,也是重要的工作。


先使用“部件檢索”查詢,這裡沒有的字,我們再利用“古文字缺字資料庫”查詢看看。


部件檢索:www.mebag.com/index/component.asp

古文字缺字資料庫:www.mebag.com/index/component.asp


▲以上為簡報檔▲第5頁---------------------▲


索引的製作,建議使用「excel」或具備相同功能的軟體,無論以「筆畫檢字表」或「音序檢字表」製作,都一定要注意「排序」,要保持順序的正確,建議在字頭或條目的前一欄加入一個數字流水號。


▲以上為簡報檔▲第7頁---------------------▲


A:流水號

B:書名

C:筆畫或其他分類

D:字頭或詞彙

E:頁碼

F:索引頁頁碼

G:Gopage欄位(暫時先空著)

H:字號(若無直接空著)

I:備註

J:構字式


「字號」在甲金文這類文獻中扮演著重要的角色,有些圖形字或未隸定字,如果有「字號」作為註記,使用者就很容易透過字號找到它們。


因此,強烈建議製作者在索引數位化時一併整理起來!


▲以上為簡報檔▲第8頁---------------------▲


狀況1:遇到C區或之後的字

在〈部件檢索〉輸入「尚上」查詢。 ※只要是unicode字(即A~G區),現階段缺字庫已經不會再編號與造字。


▲以上為簡報檔▲第10頁---------------------▲


狀況1:遇到C區或之後的字(在“部件檢索”能夠找得到、有顯示出來的)

缺字庫「Unicode字」欄位內的意思是該字相對應的Unicode字。

(CDEFG區,也可能是兼容字)該字實際上已編碼,過去引得市的缺字資料庫為了相容舊式系統依然視爲缺字並給予編號。


▲以上為簡報檔▲第11頁---------------------▲


狀況2:遇到基本漢字、A區、 B區的文字

如果是基本漢字、A區或B區的字,就不必輸入「構字式」的任何內容。換句話說,只要不是C~G區字或“缺字”,只需要在字頭欄位輸入文字就可以。


▲以上為簡報檔▲第14頁---------------------▲


狀況3:「部件檢索」和「缺字庫」都沒有這個字…

例如以「口口巿」查詢,都查不到這個字,這時候,請在字頭欄位中填上「d」或「q」的英文標記。


▲以上為簡報檔▲第15頁---------------------▲


狀況3:「部件檢索」和「缺字庫」都沒有這個字…

字頭欄位中填上「d」或「q」的英文標記。然後在對應的「構字式」填上詳細的內容。構字式可能會有多種組合,前後以“,”區隔(半形逗點符號)


▲以上為簡報檔▲第16頁---------------------▲


狀況4:既不屬於缺字,也無法打出來的內容要怎麼辦?

像這樣的“字”或“族徽”圖形等,我們統稱為「圖形字」。圖形格式為png格式,命名規範如:txxx-xxxx-xxx(最前面是「t+書名文獻編號」為三碼編號,接著四碼頁碼,最後是流水號三位數)圖形字,筆畫欄位,請都輸入「0」。


▲以上為簡報檔▲第18頁---------------------▲


狀況4:既不屬於缺字,也無法打出來的內容要怎麼辦?

書名文獻編號,可先輸入t999暫代,回傳引得市之後會再改為符合現在實際的書名文獻編號。例如:t999-0100-003代表某書的第100頁的第3個圖形字,圖形字的流水號依照不同頁面,重新由001開始。在前端的檢索界面,使用者可輸入「t」作全面的瀏覽,或者輸入詳細的頁碼數據來查詢。


▲以上為簡報檔▲第19頁---------------------▲


其實,索引製作的門檻不高,不一定先要有文字學的基礎,只要善用工具,帶著邊做邊學習的心情,就可順利完成各種類型的索引製作。


衷心建議,無論文獻索引數位化的來源是“筆畫檢索表”或“音序檢索表” ,如果時間允許,應該再逐字逐頁依照文獻的本文排序,調整內容順序比對一至二次。


▲以上為簡報檔▲第21頁---------------------▲


---


「引得市」文獻索引數位化教學2.2 簡報檔

騰訊微雲下載:https://share.weiyun.com/kbkKXFHS


「引得市」文獻索引數位化教學2.2 PDF檔

騰訊微雲下載:https://share.weiyun.com/hCnlcf0A


【延伸閱讀】

「引得市」文獻索引數位化教學2.1

此次相較於前一版的教學內容,多了第四種狀況,在製作甲骨金文等文獻時,常有些圖形或未隸定字,應如何處理?這次有詳細的說明。

Blog:https://ebag2007.blogspot.com/2018/11/21.html

知乎:https://ebag2007.blogspot.com/2018/11/21.html


























2020年10月9日 星期五

〈引得市〉台灣大專院校相關系所學門分析研究

〈引得市〉台灣大專院校相關系所學門分析研究 

知乎:https://zhuanlan.zhihu.com/p/263664807

資料來源:教育部統計處 教育統計查詢網
 留言

https://stats.moe.gov.tw/qframe.aspx?qno=MQA5ADEA0

前言

2019年台灣的生育率在世界排名倒數第一,“少子化”已反應在大學生的數量上,十年前後的差距將近九萬人。許多大專院校以合併或停止招生、系所轉型等方式因應這波浪潮。博碩士班所受的影響並沒有學士班來得大,每年就讀的人數依然維持在二十萬人左右。

博、碩士在畢業前必須繳交校方系所規定的論文,而資料檢索、資料庫的使用是撰寫論文追求便捷、精確,經常採取的方式之一。雖然學校教授、研究員也是使用族群之一,但研究習慣不會輕易改變,因此比較年輕、會學習新的方法的博碩士生會是〈引得市〉最主要的使用者。

數據分析

台灣每年約有二十萬左右的博碩士新生(比例約1:5),分佈在人文、社會、科學這三方分類中。

〈引得市〉成立八年以來建立古文字相關字辭典、歷史語言、藝術文化等資料文獻,查詢使用族群多以「人文類」為主。人文類包含了“教育”、“藝術”、“人文”、“語文”四種學門。

教育部公開的資料是97-108學年度,前後共十二年,我們擇取近四年作為可開發(潛在)的使用組群。即105-108學年度。從學門領域逐漸縮小範圍。

105-108學年度博碩士生總數量是788460人,相關的四種學門人數總合是162958人,佔48.38%左右。

四種學門當中,除了“藝術學門”持平之外,其他三種皆為下降的趨勢,尤其是“語言學門”下降的幅度相當明顯,108學年的碩士人數比歷年平均少了1586人,與十年前比較硬是少了3602人,可以想見這學門的博碩士在明年或未來招生勢必相當辛苦。

擇選性質相近系所

108學年台灣共有126所大學,我們從中篩選出文史哲相關領域的博碩士系所課程,如:國立政治大學(11)、國立清華大學(9)、國立臺北藝術大學(9)、國立東華大學(8)、輔仁大學(8)、國立臺灣大學(7)、國立臺灣師範大學(7)、國立臺灣藝術大學(7)、國立中央大學(6)、國立高雄師範大學(6)…共62所大專院校。括弧內為與〈引得市〉內容性質相近數量。

數量最多的是國立政治大學,包含:中國文學系、台灣文學研究所、台灣史研究所、民族學系、宗教研究所、東亞研究所、哲學系、華語文教學博士學位學程、華語文教學碩士學位學程、圖書資訊與檔案學研究所、歷史學系等11個系所。

其中與〈引得市〉內容最為密切的是中文系,性質相同名稱略有差異如:中國文學系、中國文學與應用學系、中國文學學系、台灣文學與跨國文化研究所、國文學系、應用中國文學系等六種「中文系」,分別在:中國文化大學、世新大學、佛光大學、明道學校財團法人明道大學、東吳大學、東海大學、國立中山大學、國立中央大學、國立中正大學、國立中興大學、國立成功大學、國立政治大學、國立高雄師範大學、國立清華大學、國立嘉義大學、國立彰化師範大學、國立臺北大學、國立臺灣大學、國立臺灣師範大學、淡江大學、逢甲大學、輔仁大學、銘傳大學、靜宜大學等24所學校當中,也在我們仔細選擇的範圍之內。

在台灣五所大學裡面,就會有一所大學有設立「中文系」,可知這個科系在大學中的密度算是很高。

小結

台灣少子化的影響不容易在短時間獲得解決已是既定的事實。未來競爭的環境只會越來越嚴苛,在提昇競爭力的大方向上,個人家庭或國家在「教育」的預算必會更加重視,投注更多資源。新起、潛在使用者每年仍有數萬人,持續開發內容,確立專業的品牌價值,像〈引得市〉這種學術服務絕對是有龐大的商機,值得期待的藍海市場。




補記:〈引得市〉性質相近的141種系所、學程


在台灣共有17所大學有“中國文學系”!









20240422《中國語言學大辭典》分類詞目表索引數位化完成

 20240422《中國語言學大辭典》分類詞目表索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/693938707 【製作說明】 這本書在33年前出版,正在看這篇文章的朋友可能都還沒出生?1991年那時候我在作什麼呢?就讀專科學校(美術工藝科),...