建置「開源共享的協作平台」構想
知乎:https://zhuanlan.zhihu.com/p/369674839
緣由
「INDEX(索引)」是查詢資料的基礎、也是最重要的核心。一份索引能夠快速的定位內容,讓使用者立即得到需要的資訊,達到前所未有的研究效率。「索引」的應用成效,在成立十年的「引得市」早已獲得驗證。(學者們的使用經驗)
「索引」、「目錄」的編輯整理與數位化,搭配好的界面,就能增加書籍文獻的使用效率。索引並非實際內容,也無損著作者權益。「協作」是一種去中心化,不是上到下的命令執行,而是較自由人性化的方式,隨時可以進行編輯、或暫停,誰也都可以接手繼續。
放眼網路世界,目前並沒有類似的協作平台,提供學界或一般人士製作索引與相互交流。
「開源共享與協作」已是世界潮流,漢學相關研究、數位人文要持續創新,追求卓越,應立即成立一個全方位,適用所有人的「線上協作索引平台」,此平台提供自由編輯的界面,將製作完成的索引分類收錄,或自由開放下載使用。讓台灣的漢學、人文科學應用創新不再缺席,再度成為華文世界的領頭羊。
優勢特色
1.以「引得市」為借鏡,完整的平台設計規劃,並提供數百種實際索引範本。以範本作為基底,有排序的調整修正內容,節省重新製作的時間。
2.使用者可快速自由建立索引或編修,並有「Gopage開卷助理」與「古文字缺字資料庫」結合作為電腦缺字後盾。
3.「引得市」、「索引平台」、「使用者」三方形成一個完整的內容建立製作、實際應用的良性循環。
4.索引平台打破國別、學校單位機構的藩籬,登錄者能選擇持續單打獨鬥,或組織團隊建立索引專案等。資料有效的保存與累積應用,長遠發展下,形成專業的索引社群平台。
平台「缺字」支援的重要性
對於程式來說,索引、目錄製作編輯界面並不是很高難度的設計,問題在於專業的字辭典、古籍圖書等經常有電腦無法輸入、顯示的漢字,即使目前漢字已經可以顯示近十萬字,但仍然無法滿足。
舉例來說:《戰國文字字形表》全部有10211列,缺字就有3627列(不包含擴充E、F、G區字)。假設只能顯示出7000多列的話,這份索引就不能算是完整的。
Q&A:
- Q:協作平台為何不直接利用現有的免費資源,例如:「維基百科」、「Google文件」等?
- A:Google平台無法顯示所有漢字以及「缺字」,且中國大陸地區網友無法登入使用。此平台必須開放給所有的漢學研究、使用者,編輯索引的界面也要有特別的專屬程式設計,現有的免費資源都無法符合需求。
- Q:線上編輯完成的索引,能有什麼效益或應用?
- A:「索引」能自由查詢或下載,隨時可編輯更新,需要的人取用,想出力編輯的人則可持續增加內容。配合「Gopage開卷助理」的應用,更能達到查詢文獻的最佳效率。
平台程式需求
- 編輯界面能完整顯示所有漢字,例如基本漢字、擴充A~G區字,每年隨著unicode聯盟公佈新字也要即時補充更新。結合「古文字缺字資料庫」,讓使用者方便錄入缺字。
- 登入者有權限編輯修改、刪除屬於自己的索引,編輯能留下歷史紀錄,可回朔至某一版本。或者亦快速發布於「Github」。
- 線上所編輯的內容,能立即預覽並下載成csv格式。
- 編輯有主要基本欄位(鎖定無法更改),也能讓使用者新增欄位。
- 索引基本分成「字頭索引」與「目錄」兩大類。
- 站內可切換轉成「SVG」圖片字模式,讓使用者能利用電腦以外,如手機、平板等裝置進行查詢或編輯(目前「引得市」有此功能)。
「Gopage開卷助理」介紹
「Gopage開卷助理」程式與內容是王富國先生設計與製作,只要使用者準備一個文件檔(副檔名為RMP)作為文件的路徑與初始頁的頁差資訊,以及自備電子文件檔案。如此就可將索引結合此工具進行快速定位跳頁的功能。此功能於2017年開始應用於「引得市」,是許多研究者認為查詢字辭典或文獻最佳的方式。
「引得市」屬於線上的應用,沒有網路離線當然也可以使用,使用者於電腦中,建立一個excel索引檔,一樣可以達到跳頁顯示的效果。
「古文字缺字資料庫」介紹
是引得市最重要的資料庫,一段時間後會整理成字型檔,公開提供下載,最新的版本已於2021年4月24日發布。缺字製作快速,隨時因應需求新造字。
現有1.9萬餘字,涵蓋甲骨、金文、各類材質等文字,與「引得市」數百種字辭典文獻索引連動,解決彌補現階段unicode無字,使用者無法顯示、查詢使用等問題,其中擴充E~G區只佔了1800多字。未來現有區段編號都將持續替換成unicode字元。
小結
據筆者所知,學者們大多時間埋頭苦幹鑽研所學,或者忙於教學、行政工作,只有研討會或特定聚會才有機會相互交流。平時已經累積建置了很多資料。但是,大部分可能會是相同內容重複製作的內容,有了這個平台,各種資訊公開透明,誰做了什麼、哪些資料還沒人處理…。研究者之間可以互通有無,不受限於研究單位、學校等,能夠分工一起完成龐大的資料整理。
每個人的時間都很寶貴,一人的一小時和十個人的各自一小時總和起來差距很大。我們用互助分享、學術環保的角度出發建置這個平台,衷心期盼平台開放使用這一天的到來。
相關文章
- 「引得市」網址:http://www.mebag.com/index/
- 「古文字缺字資料庫」網址:http://www.mebag.com/index/quezi/list.asp
- 漢字使用環境的建置 ㈣ —— 開卷篇(作者王富國)
http://fgwang.blogspot.com/2018/12/blog-post.html- 建立「開卷助理」新的RMP檔
https://zhuanlan.zhihu.com/p/32155043- 20210424「Seal缺字字型製作生成」的新方法暨最新版本釋出
知乎:https://zhuanlan.zhihu.com/p/367471915- 學者們的使用經驗
https://hackmd.io/bZpObdoRRx--d0LWeS92tA?view
沒有留言:
張貼留言