2021年5月3日 星期一

建置「開源共享的協作平台」構想

 建置「開源共享的協作平台」構想

知乎:https://zhuanlan.zhihu.com/p/369674839

緣由

「INDEX(索引)」是查詢資料的基礎、也是最重要的核心。一份索引能夠快速的定位內容,讓使用者立即得到需要的資訊,達到前所未有的研究效率。「索引」的應用成效,在成立十年的「引得市」早已獲得驗證。(學者們的使用經驗

「索引」、「目錄」的編輯整理與數位化,搭配好的界面,就能增加書籍文獻的使用效率。索引並非實際內容,也無損著作者權益。「協作」是一種去中心化,不是上到下的命令執行,而是較自由人性化的方式,隨時可以進行編輯、或暫停,誰也都可以接手繼續。

放眼網路世界,目前並沒有類似的協作平台,提供學界或一般人士製作索引與相互交流。

「開源共享與協作」已是世界潮流,漢學相關研究、數位人文要持續創新,追求卓越,應立即成立一個全方位,適用所有人的「線上協作索引平台」,此平台提供自由編輯的界面,將製作完成的索引分類收錄,或自由開放下載使用。讓台灣的漢學、人文科學應用創新不再缺席,再度成為華文世界的領頭羊。

優勢特色

1.以「引得市」為借鏡,完整的平台設計規劃,並提供數百種實際索引範本。以範本作為基底,有排序的調整修正內容,節省重新製作的時間。

2.使用者可快速自由建立索引或編修,並有「Gopage開卷助理」與「古文字缺字資料庫」結合作為電腦缺字後盾。

3.「引得市」、「索引平台」、「使用者」三方形成一個完整的內容建立製作、實際應用的良性循環。

4.索引平台打破國別、學校單位機構的藩籬,登錄者能選擇持續單打獨鬥,或組織團隊建立索引專案等。資料有效的保存與累積應用,長遠發展下,形成專業的索引社群平台。

平台「缺字」支援的重要性

對於程式來說,索引、目錄製作編輯界面並不是很高難度的設計,問題在於專業的字辭典、古籍圖書等經常有電腦無法輸入、顯示的漢字,即使目前漢字已經可以顯示近十萬字,但仍然無法滿足。

舉例來說:《戰國文字字形表》全部有10211列,缺字就有3627列(不包含擴充E、F、G區字)。假設只能顯示出7000多列的話,這份索引就不能算是完整的。

Q&A:

  • Q:協作平台為何不直接利用現有的免費資源,例如:「維基百科」、「Google文件」等?
  • A:Google平台無法顯示所有漢字以及「缺字」,且中國大陸地區網友無法登入使用。此平台必須開放給所有的漢學研究、使用者,編輯索引的界面也要有特別的專屬程式設計,現有的免費資源都無法符合需求。
  • Q:線上編輯完成的索引,能有什麼效益或應用?
  • A:「索引」能自由查詢或下載,隨時可編輯更新,需要的人取用,想出力編輯的人則可持續增加內容。配合「Gopage開卷助理」的應用,更能達到查詢文獻的最佳效率。

平台程式需求

  • 編輯界面能完整顯示所有漢字,例如基本漢字、擴充A~G區字,每年隨著unicode聯盟公佈新字也要即時補充更新。結合「古文字缺字資料庫」,讓使用者方便錄入缺字。
  • 登入者有權限編輯修改、刪除屬於自己的索引,編輯能留下歷史紀錄,可回朔至某一版本。或者亦快速發布於「Github」。
  • 線上所編輯的內容,能立即預覽並下載成csv格式。
  • 編輯有主要基本欄位(鎖定無法更改),也能讓使用者新增欄位。
  • 索引基本分成「字頭索引」與「目錄」兩大類。
  • 站內可切換轉成「SVG」圖片字模式,讓使用者能利用電腦以外,如手機、平板等裝置進行查詢或編輯(目前「引得市」有此功能)。

「Gopage開卷助理」介紹

「Gopage開卷助理」程式與內容是王富國先生設計與製作,只要使用者準備一個文件檔(副檔名為RMP)作為文件的路徑與初始頁的頁差資訊,以及自備電子文件檔案。如此就可將索引結合此工具進行快速定位跳頁的功能。此功能於2017年開始應用於「引得市」,是許多研究者認為查詢字辭典或文獻最佳的方式。

「引得市」屬於線上的應用,沒有網路離線當然也可以使用,使用者於電腦中,建立一個excel索引檔,一樣可以達到跳頁顯示的效果。

「古文字缺字資料庫」介紹

是引得市最重要的資料庫,一段時間後會整理成字型檔,公開提供下載,最新的版本已於2021年4月24日發布。缺字製作快速,隨時因應需求新造字。

現有1.9萬餘字,涵蓋甲骨、金文、各類材質等文字,與「引得市」數百種字辭典文獻索引連動,解決彌補現階段unicode無字,使用者無法顯示、查詢使用等問題,其中擴充E~G區只佔了1800多字。未來現有區段編號都將持續替換成unicode字元。

小結

據筆者所知,學者們大多時間埋頭苦幹鑽研所學,或者忙於教學、行政工作,只有研討會或特定聚會才有機會相互交流。平時已經累積建置了很多資料。但是,大部分可能會是相同內容重複製作的內容,有了這個平台,各種資訊公開透明,誰做了什麼、哪些資料還沒人處理…。研究者之間可以互通有無,不受限於研究單位、學校等,能夠分工一起完成龐大的資料整理。

每個人的時間都很寶貴,一人的一小時和十個人的各自一小時總和起來差距很大。我們用互助分享、學術環保的角度出發建置這個平台,衷心期盼平台開放使用這一天的到來。


相關文章

沒有留言:

張貼留言

20220429《新華大字典》(第3版.彩色本)索引數位化完成

 20220429《新華大字典》(第3版.彩色本)索引數位化完成 知乎: https://zhuanlan.zhihu.com/p/507157904 【資料庫訂閱制】 20210903「語文辭典」2021.9.6(一)實施訂閱制 Blog: https://ebag2007.b...