2020年9月20日 星期日

20200920快速整理《說文》字號和字頭統計數量(不藏私密技)

 20200920快速整理《說文》字號和字頭統計數量(不藏私密技)



知乎:https://zhuanlan.zhihu.com/p/256365422



【紀錄說明】


研究中時常會用到這些函數,也需要教導同學,所以補血(誤:寫)補多忘,紀錄過程。需要的朋友同道以後可以直接看這篇。分成【A、B、C、D】四個段落來解說,希望不會太難懂。像正則式這些尋找取代等,也是從瑾昀兄學得,自己非資訊程式專業,就是會應用而已。


做完這些步驟,我們可以得到什麼?

1.單獨字頭的說文字號

2.單獨字頭個別數量等資訊

當然有了字號,要再對應出部首也是很簡單的。


有人會問,需要這些資訊數量要作什麼呢?我們在短時間內若能知道最多的字例,先拿來分析研究,多的樣本下就會比較有客觀的研究效果。


藉由函數先得出字號…

有了字號就能精算字頭數量…

有了字號就能知道部首…

有了單字字頭,就能使用部件檢索考察偏旁…

有了上面系列的整理,就能把整份釋文,好好的理出細節…



事前準備:有一大段已經打好的釋文,這樣我們就這麼開始了…


【★提醒★】我們時常要把「EmEditor」作為資料的中繼點,如果複製貼上直接在Excel當中,往往會把不必要的內容給貼過去,包含一些函數或數學公式。複製內容後,先貼在「EmEditor」,在複製出來貼到需要的地方,這樣內容就會是單純的數字或者文字,不會夾帶其他內容。


【步驟A】

1.打開EmEditor,將釋文內容貼入。尋找「(.)」取代為「\1\r\n」,把□使用規則運算式(X)打勾,然後全部取代(A)。※(注意:在進階(V)...檢查規則運算式引擎(G)是否為Onigmo)

2.執行後,整個檔案會從原本變成一字一列的情形,我們按下「A→Z的排序」,然後把不需要的英文、數字符號、空白等都刪除。(注意:只留下文字,其他內容的都手動刪除)

3.這樣已經取得這段釋文的單字(3228列)。存檔備用。









【步驟B】

1.打開「自動填上說文編號.xlsx」,將剛剛的文字,貼到「產生說文字號」的工作表中。

2.將複製出來的說文編號以及字頭(兩欄),貼到新的xlsx。(請參照【★提醒★】)第一欄留著加上欄位名稱,使用「篩選」。

3.以「字號」為排序,會有依照說文次序的排列。並增加一欄註明非說文字頭。最左側最後加上排序。

4.只選擇說文字頭。(不顯示非說文字頭),

5.複製「字號」與「字頭」兩欄的內容(欄位名稱不必複製),貼到EmEditor,執行右鍵「進階(N)→刪除重複行(E)」(下方有2313行已刪除的資訊)

6.excel新增一個工作表,將B欄的數值先改成「文字」,再將EmEditor的內容貼到這裡。加上流水號,這個工作表就是初步整理後的字頭。要注意的是,會有一些字頭等於同一個字號的說文,例如:「以」和「㠯」這時候研究者可以自由選擇如何更進一步處理。













【步驟C】

1.新增一個工作表,複製「工作表1」的「字號」與「字頭」兩欄,個人習慣最左側一樣加上流水號上端第一欄加上「篩選」以及「檢視」→「凍結頂端列」。

2.再新增一個工作表,複製「工作表2」的「字號」欄位。貼到「C欄位」,其他欄位分別填入「=」「COUNTIF(B2:B3171,"」以及「")」(B3171當中的3171是內容的列數,調整更多也無坊)

3.將其他空白內容填上。並將內容複製貼到「EmEditor」,尋找「TAB」取代成「空白」,目的是把原本欄位之間的間隔給合併起來。







【步驟D】

1.將上一次在「EmEditor」合併的內容貼到「工作表3」的F欄,這時函數就會算出目前工作表中的數量。

2.複製「工作表2」的字號與字頭欄位,貼到「工作表3」的欄為D、E。這樣,初步的「字號」、「字頭」與數量就能有清楚的對照。

3.複製「工作表3」的「D、E、F」欄位,貼到EmEditor。

4.excel新增一個工作表,將B欄的數值先改成「文字」,再將EmEditor的內容貼到這裡。

5.增加流水號,「篩選」,在數量調整排序。可以看到這份釋文中最多的字例。

6.最後,我們選擇「字號」一整欄,在「常用」→「設定格式化的條件▼」→「醒目提示儲存格規則(H)▶」→s「重複的值(D)」。透過醒目顏色分辨,能提醒我們哪些字頭可以合併或者不需要合併。













【小結】


以上就是筆者用最短的時間,做了一次操作說明,希望能讓需要的朋友們明白並且可以實際使用。


「自動填上說文編號.xlsx」是筆者自己整理的對應表,時常更新修正,也會帶有自己的一些習慣,比如說「薄」與「簿」都是字號0562,研究者在使用的時候,若有疑問最好再稍微檢查驗證一下。

沒有留言:

張貼留言

20240422《中國語言學大辭典》分類詞目表索引數位化完成

 20240422《中國語言學大辭典》分類詞目表索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/693938707 【製作說明】 這本書在33年前出版,正在看這篇文章的朋友可能都還沒出生?1991年那時候我在作什麼呢?就讀專科學校(美術工藝科),...