研究生：為研究而生: 20201012〈引得市〉文獻索引數位化教學2.2

2020年10月12日星期一

20201012〈引得市〉文獻索引數位化教學2.2

20200121「引得市」文獻索引數位化教學2.2

知乎：https://zhuanlan.zhihu.com/p/265214981

【前言】

這篇文章提供了索引製作的朋友詳細的教學說明，面對各種文獻的輸入建檔，大致上會有四種狀況，我們在簡報中依序都有詳細的解說。

相較於2.1，調整的部份是配合2020年8月中旬起對缺字處理的策略改變，重新制定製作文獻索引的方法。我們對C~G區的字都不再造字，直接取用Unicode的字元。

※有些字或內容在平台上的顯示可能不完整，所以此文採取文字圖片並行的方式，文字摘錄重點列示，完整內容朋友們可以利用下方「騰訊微雲」的連結，下載瀏覽。

▼▼▼以下內容開始▼▼▼

★20200814「古文字缺字資料庫」缺字處理方針說明★

blog：ebag2007.blogspot.com/2020/08/20200814.html

知乎：zhuanlan.zhihu.com/p/183802882

部件檢索：www.mebag.com/index/component.asp

2020年8月中旬開始，〈引得市〉新的文獻索引，會直接使用C～G擴張區的字頭。在此之前，我們都會為這些區段的Unicode字編號造字。

「缺字庫」列表中的流水號，以游標點選有「複製」整列字頭的功能，在方針策略改變後，其中Unicode字的複製的功能會過濾掉。例如：原本應該會是「s001-001（）」，會變為。其他Unicode以外的缺字，功能一樣沒有改變。請詳見方針說明。▲

▲以上為簡報檔▲第2頁---------------------▲

文獻索引製作之前，請先下載安裝這兩種字型

⊙「花園明朝(HanaMin)」」

⊙「全宋體」

下載連結如下：https://zh-tw.osdn.net/projects/hanazono-font/downloads/68253/hanazono-20170904.zip/

https://pan.baidu.com/s/1W18LprA9gIali_uRIbZw9g

提取碼：cz8r

安裝好字型之後，建議將關閉瀏覽器再重開，測試看看能否正確的顯示。

延伸閱讀：

關於漢字的顯示，w兄《漢字使用環境的建置㈠ —— 顯示篇》http://fgwang.blogspot.com/2018/02/blog-post.html

▲以上為簡報檔▲第3頁---------------------▲

無論是掃描後圖檔以OCR文字辨識，或直接打字輸入再校正。接下來，辨別、認識文字是歸屬於“基本漢字、A或B～G區字”是數位化前的首項要務，另外，分辨是否為“缺字” ，也是重要的工作。

先使用“部件檢索”查詢，這裡沒有的字，我們再利用“古文字缺字資料庫”查詢看看。

部件檢索：www.mebag.com/index/component.asp

古文字缺字資料庫：www.mebag.com/index/component.asp

▲以上為簡報檔▲第5頁---------------------▲

索引的製作，建議使用「excel」或具備相同功能的軟體，無論以「筆畫檢字表」或「音序檢字表」製作，都一定要注意「排序」，要保持順序的正確，建議在字頭或條目的前一欄加入一個數字流水號。

▲以上為簡報檔▲第7頁---------------------▲

A：流水號

B：書名

C：筆畫或其他分類

D：字頭或詞彙

E：頁碼

F：索引頁頁碼

G：Gopage欄位（暫時先空著）

H：字號（若無直接空著）

I：備註

J：構字式

「字號」在甲金文這類文獻中扮演著重要的角色，有些圖形字或未隸定字，如果有「字號」作為註記，使用者就很容易透過字號找到它們。

因此，強烈建議製作者在索引數位化時一併整理起來！

▲以上為簡報檔▲第8頁---------------------▲

狀況1：遇到C區或之後的字

在〈部件檢索〉輸入「尚上」查詢。※只要是unicode字（即A~G區），現階段缺字庫已經不會再編號與造字。

▲以上為簡報檔▲第10頁---------------------▲

狀況1：遇到C區或之後的字（在“部件檢索”能夠找得到、有顯示出來的）

缺字庫「Unicode字」欄位內的意思是該字相對應的Unicode字。

(CDEFG區，也可能是兼容字)該字實際上已編碼，過去引得市的缺字資料庫為了相容舊式系統依然視爲缺字並給予編號。

▲以上為簡報檔▲第11頁---------------------▲

狀況2：遇到基本漢字、A區、 B區的文字

如果是基本漢字、A區或B區的字，就不必輸入「構字式」的任何內容。換句話說，只要不是C~G區字或“缺字”，只需要在字頭欄位輸入文字就可以。

▲以上為簡報檔▲第14頁---------------------▲

狀況3：「部件檢索」和「缺字庫」都沒有這個字…

例如以「口口巿」查詢，都查不到這個字，這時候，請在字頭欄位中填上「d」或「q」的英文標記。

▲以上為簡報檔▲第15頁---------------------▲

狀況3：「部件檢索」和「缺字庫」都沒有這個字…

字頭欄位中填上「d」或「q」的英文標記。然後在對應的「構字式」填上詳細的內容。構字式可能會有多種組合，前後以“,”區隔（半形逗點符號）

▲以上為簡報檔▲第16頁---------------------▲

狀況4：既不屬於缺字，也無法打出來的內容要怎麼辦？

像這樣的“字”或“族徽”圖形等，我們統稱為「圖形字」。圖形格式為png格式，命名規範如：txxx-xxxx-xxx（最前面是「t+書名文獻編號」為三碼編號，接著四碼頁碼，最後是流水號三位數）圖形字，筆畫欄位，請都輸入「0」。

▲以上為簡報檔▲第18頁---------------------▲

狀況4：既不屬於缺字，也無法打出來的內容要怎麼辦？

書名文獻編號，可先輸入t999暫代，回傳引得市之後會再改為符合現在實際的書名文獻編號。例如：t999-0100-003代表某書的第100頁的第3個圖形字，圖形字的流水號依照不同頁面，重新由001開始。在前端的檢索界面，使用者可輸入「t」作全面的瀏覽，或者輸入詳細的頁碼數據來查詢。

▲以上為簡報檔▲第19頁---------------------▲

其實，索引製作的門檻不高，不一定先要有文字學的基礎，只要善用工具，帶著邊做邊學習的心情，就可順利完成各種類型的索引製作。

衷心建議，無論文獻索引數位化的來源是“筆畫檢索表”或“音序檢索表” ，如果時間允許，應該再逐字逐頁依照文獻的本文排序，調整內容順序比對一至二次。

▲以上為簡報檔▲第21頁---------------------▲

---

「引得市」文獻索引數位化教學2.2 簡報檔

騰訊微雲下載：https://share.weiyun.com/kbkKXFHS

「引得市」文獻索引數位化教學2.2 PDF檔

騰訊微雲下載：https://share.weiyun.com/hCnlcf0A

【延伸閱讀】

「引得市」文獻索引數位化教學2.1

此次相較於前一版的教學內容，多了第四種狀況，在製作甲骨金文等文獻時，常有些圖形或未隸定字，應如何處理？這次有詳細的說明。

Blog：https://ebag2007.blogspot.com/2018/11/21.html

知乎：https://ebag2007.blogspot.com/2018/11/21.html

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)