20240818《數位⼈⽂視域下的楚簡資料庫分析與規劃——以《郭店楚墓⽵簡》為例》目錄索引數位化完成
知乎:https://zhuanlan.zhihu.com/p/715184068
【製作說明】
偶爾會逛逛網站,看一些感興趣的題目,昨天無意間在「臺灣博碩士論文知識加值系統」,以「楚簡」為關鍵詞,附帶條件有電子檔,查到的第一筆資料是:《數位⼈⽂視域下的楚簡資料庫分析與規劃——以《郭店楚墓⽵簡》為例》。
一直對古文字資料庫網站或資料庫很有興趣,何況又看到熟悉的人名,所以再點進去看「參考書目」,發現自己的名子和「引得市」,下載後快速的讀了一下,就決定要把目錄處理起來。
作者對近年楚簡資料庫的發展做了很深入詳細的考察,也仔細的說明製作資料庫面臨的問題。古文字在網站、網頁「顯示、檢索」等問題,程式技術上一直在修正突破,撇除技術問題,最重要的還是得有人推動,持續創新追求,自古英雄出少年,勇於追求夢想才是學術環境進步的重要推力,很高興有人在這方面努力耕耘,期待有更多新血加入。
ps.根據論文的提醒,「引得市」在《字源》遺漏「於」、「可」二字,也修改好了。
字列 339
缺字 4
總字列 343
圖形字代號:t046有10處
【使用說明】
進入引得市,上方選單「工具書▼」→「論文著作►」→「章句目錄►」→「其他」→「數位⼈⽂視域下的楚簡資料庫分析與規劃」
「《數位⼈⽂視域下的楚簡資料庫分析與規劃——以《郭店楚墓⽵簡》為例》目錄索引」網址:https://www.mebag.com/index/chujianziliaoku_fenxi_yuguihua/List.asp
【《數位⼈⽂視域下的楚簡資料庫分析與規劃——以《郭店楚墓⽵簡》為例》摘要】
楚簡的異體現象複雜,一個字可能有多種不同部件的組合模式,導致學習楚簡文字的門檻高。以楚簡文字為研究對象來評比目前知名的古文字網站後,並分析它們的部件檢索功能,會發現這些網站只能透過間接的方式查找「楚簡部件的異體字」,難以直接檢索。例如,以「部件」作為關鍵字檢索,部分網站可以找到「含有此部件的楷書字群」,少數網站可以查到「含有此部件的楚簡字例」,但無法在網站上直接查找楚簡部件的異體字例,這導致非專業的使用者難以快速理解楚簡文字的異體現象,也提高了理解楚簡文字的門檻。
本研究以張光裕先生等製作「郭店楚簡資料庫」的文本作為材料,這份釋文包含了字用與字形隸定,導致一些楚簡字因為字用與字形不同,而有兩個對應的楷書。因此本研究選擇字頻前二十二名的字例,合併重複計算的字例,將其中兩個字例與其他字例合併後,整理出「二十個字例」作為示範資料。以此模擬適合楚簡構形的網站,並在網站上同時呈現楚簡圖片與楷書字,將「楚簡字圖、楷書字、楚簡部件圖、楷書部件」的資料串連,以圖文相互參照的方式來降低使用門檻。同時從數位人文的角度來設想,以字譜(註1)的概念來串聯資料,將「楚簡字圖、楷書字、楚簡部件圖、楷書部件」的相互關係整合起來,以便呈現出各種異體字形,以及字與部件的相互關係。這樣除了方便使用者檢索「楚簡部件的異體字」與相關資訊外,未來還能做到許多更大規模的研究。
未來可以持續發展的研究方向有很多,其中包含某楚簡部件的分佈狀況、楚簡部件在某字的比例、某字有哪些楚簡部件組合的型式、楚簡部件與各時期字體部件的串連等面向,有機會擴大發展並整合其他古文字的字形。
還有可能透過拆解楚簡文字的構形,將楚簡字圖與部件分型,明確區分不同楚簡異體字所對應的部件組合,將每個楚簡字圖的部件座標標示清楚,便能降低機器學習圖片辨識的難度,讓「楚簡構形資料庫」的資料成為適合「楚簡文字圖片辨識的訓練資料集」。
楚簡文字存在多種異體情況,拆分楚簡文字的方式有許多,例如部首、字根、構件、形素、部件、偏旁、形符、義符、聲符等。在本研究中,綜合考量甲骨文與金文的拆分原則後,以「部件」為拆分楚簡文字的方式。並以自身學過書法四年的經歷出發,整合書法學習者與古文字學習者的需求,設計出適合郭店楚墓竹簡的實體關係圖,方便後端資料庫儲存Metadata外,也能讓網頁以簡潔的方式呈現郭店楚簡的字譜與部件樹,最後提出一些未來可發展的建議。因此,本研究的每個章節預計要討論的內容有:
1.第一章〈緒論〉,討論本研究的研究背景、研究動機、研究目的、研究方法與步驟。
2.第二章〈文獻回顧〉,內容包含郭店楚簡研究現況、異體字研究現況、楚簡資料庫的相關研究。本章將會提到郭店楚簡的相關書籍,如圖板、釋文、文字編、郭店楚簡的最小成文部件研究,還會討論異體字的相關問題,與楚簡資料庫的相關研究。
3.第三章〈從知名楚簡網站的限制來確立新資料庫的方向〉,本章將評比目前知名楚簡的網站,分析使用者在檢索過程中可能會遇到的限制。本研究以方便楚簡研究使用、對非研究者友善、適合楚簡部件的檢索功能等功能來分析這些知名楚簡的網站。同時從筆者的自身經驗出發,分析古文字學習者與書法學習者的需求,並結合「部件識字法(註2)」——用部件來認識楚簡文字的學習方法,來改善楚簡部件的檢索功能,也提出讓網站更便於使用的方法。
4.第四章〈文字的拆分原則〉,將從現行漢字與甲、金文的拆分原則來看楚簡文字的拆分,並選擇郭店楚簡中字頻排名前二十二的字例,合併成二十字為示範資料。拆分出部件後,再進一步討論不同學者製作的楚簡部件表的差異,例如「最小成文部件的看法不同」、「選用的隸定字不同」、「成文與否的看法不同」、「訛變部件的歸類方式不同」,而這些參差能以網站的方式一次呈現給使用者,方便使用者理解。本研究提出將「楷書部件」與「楚簡部件圖」以型號區分,並列出楚簡異體字的組成部件,與部件形近相訛的現象,系統性梳理楚簡文字的字際關係。
5.第五章〈楚簡構形資料庫架構〉,本章將從郭店簡文字的部件、單字、合文、單支簡圖板、釋文出發,說明網站的概念與目標,再進一步設計「資料庫的後端資料表」與「網頁的介面」。為資料庫設計的資料表,包含字用表、楷書異構字表、楷書異寫字表、楷書缺字表、相關索引表、楚簡字圖表、原圖圖板表、書法本圖板表、相關圖片、一支簡的各家釋文表、楷書部件表、楚簡部件圖表、相關期刊論文表,以異構字、部件、楚簡字圖、圖板為主要節點,整合眾多資料表。介面設計則是著重於「字形解說與相關索引、部件解說、圖板與釋文對讀、相關期刊論文」這四個頁面的內容,與「部件型號輔助查詢」功能。
6.第六章〈結論〉,本章將提到研究成果、研究限制與不足、未來展望。
關鍵詞:數位人文、郭店楚簡、異體字、整合型網站、部件串聯、字譜、部件 孳乳表
論文總頁數:384
(註1)「字譜」一詞,「重編國語辭典修訂本」解釋為「字典」。同時,「重編國語辭典修訂本」將「字典」解釋為「以字為單位,按一定體例編次,並解釋文字音義形體,以備查檢的工具書。如《康熙字典》、《韋氏大字典》。」
在沈康年編制的《古文字譜》中,將古文字字形(如甲骨文、金文、陶文、貨幣文、簡牘文、帛書、璽印文、石刻文、侯馬盟書等)依次列出,因此「字譜」也能理解為「以字為單位,按一定體例編次,將各種文字形體列出,以備查檢的工具書。」
李克(RickHarbaugh)《中文字譜——漢英字源字典》以182個獨立成體的「文」來串連書中四千多個「字」,用樹狀圖的方式呈現字譜,「文」在最左側,依序往右排列出不同階層的「字」,並設有網站方便使用者檢索,方便了解各字之間可能的關係。「字譜」一詞在《中文字譜——漢英字源字典》中是接近「部件孳乳表」的意思。
中華民國教育部「重編國語辭典修訂本」臺灣學術網路第六版,條目「字譜」,網址:https://dict.revised.moe.edu.tw/dictView.jsp?ID=137563&q=1&word=字譜。
中華民國教育部「重編國語辭典修訂本」臺灣學術網路第六版,條目「字典」,網址:https://dict.revised.moe.edu.tw/dictView.jsp?ID=137572&q=1&word=字典。
檢索日期:2023年10月12日
沈康年編制:《古文字譜》,(昆明:雲南人民出版社,2006年3月第一版),〈凡例〉頁1。
李克(RickHarbaugh):《中文字譜——漢英字源字典》,(臺北:翰蘆圖書出版有限公司,1998年),〈字譜及字典〉、頁1。
李克(RickHarbaugh)「中文.com」,網址:https://www.zhongwen.com。
(註2)「『部件識字法』是通過對漢字『部件』結構的分析進行識字的一種方法。」
戴汝潛:《漢字教與學》,(濟南:山東教育出版社,1999年5月第一版),頁122。
【延伸閱讀】
「臺灣博碩士論文知識加值系統」網址:https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?o=d
---
沒有留言:
張貼留言