研究資料寄存所團隊於 Open Repositories 2023 會議發表成果

李承錱於 2023 年 6 月 12 至 15 日,赴南非開普敦參加 Open Repositories 2023 (OR2023) 國際會議,並以研究資料寄存所近期新增的 ARK 持續識別碼功能為主題,發表 A Persistent Identifier Practice For A Research Data Repository (〈實踐於研究資料儲存庫的持續識別碼系統〉;詳:https://n2t.net/ark:37281/k562n4m0z)。以下文章修改自其提交至中央研究院之會議心得報告。

International Conference on Open Repositories 於每年六至七月間召開,係關於開放儲存庫 (Open Repositories) 經營實務之年度性會議。來自圖書館學、人文社會、資訊科學、法律等相關領域之研究人員,透過此場合交流自身之研究資料典藏經驗,並探討包括學術機構研究資料的管理 (Managing)、開放 (Open)、再利用 (Re-using)、評估 (Assessment)、使用權 (Rights) 等議題,共同推動作為支持學術研究之重要角色的開放儲存庫工作。今年 (OR2023) 的大會主題為 Repositories unlocked for discovery and interoperability,將討論如何透過開放儲存庫的標準、框架、體系與方法,以促進結構化和機器可讀資料的探索與相互操作。本團隊曾於 2015 年參與 Open Repositories 會議並發表壁報論文,過去兩年 (2021 至 2022 年) 則受肺炎疫情影響,以線上形式發表論文。

會議首日安排數個工作坊議程,本團隊參加其中的 Developing Good Practices to Support Non-English and Multilingual Content in Repositories 工作坊。該工作坊的主辦單位 COAR (Confederation of Open Access Repositories) 正在對外徵集對其擬定的「管理儲存庫內非英語及多語系內容的推薦作法」 (recommendations for managing non-English and multilingual content in repositories) 的公眾意見。該文件針對儲存庫管理者、系統開發者與資料提供者,提出十六項關於多語系後設資料 (metadata) 與操作介面設計的實務建議。文件中並介紹數年前由本團隊設計,於研究資料寄存所 (https://data.depositar.io/) 導入以 Wikidata 項目 (item) 作為資料集多語系關鍵字的功能。在小組討論時間裡,我們與工作坊參與者解釋該功能的實作細節與討論未來發展方向。

第二至四日上午為大會議程。Open Repositories 會議的投稿主題,多圍繞於以下主流開放 (原始碼) 儲存庫套件:Dataverse、DSpace、EPrints、Fedora、Invenio、Islandora,與 Samvera。我們雖未使用上述套件,但學術研究資料的儲存議題,並不受限於特定套件。例如 RO-Crate (Research Object Crate) 計畫即試圖解決目前研究資料發布時,文字、資料、程式碼、實驗室記錄本、數值結果等散落於各處的困擾,更可結合 WorkflowHub 服務以展示與再現研究流程。又如索引超過一萬個開放儲存庫的 CORE,其提供的 Repository Dashboard 服務,協助儲存庫管理者檢視後設資料品質、可用性 (測試連線是否正常)、後設資料 (例如提供缺少 DOI 的資料集清單) ,及開放取用合規 (OA Compliance) 狀態等資訊,據以實踐儲存庫的FAIR (Findable, Accessible, Interoperable, Reusable) 目標。此外,儲存庫的機器存取 (machine-accessible) 能力,是令資料便於再次使用的關鍵,來自洛斯阿拉莫斯國家實驗室 (Los Alamos National Laboratory) 的團隊就建議可將資料集的到達頁 (landing page) 內容嵌於 HTTP 標頭 (header) 中,以利電腦程式取得資料集的基本資訊。

最後,近來已成為儲存庫標準配備的持續識別碼 (persistent identifier) 功能,會議期間也有數個議程探討其最新發展。筆者於第二日下午的 Dev Track: Research data repository developments 議程中,介紹研究資料寄存所近期新增的 ARK 持續識別碼功能。無獨有偶,另一個來自拉丁美洲的團隊,也發表以區塊鏈技術實作的分散式 ARK 識別碼網絡:dARK,提升持續識別碼服務的可靠性。在議程後的討論中,我們都認同,對於中小型儲存庫而言,導入自由且無須另行支付費用的 ARK 持續識別碼,相較商業化且集中式管理的 DOI,是成本效益更佳的選擇;我們也交換聯絡方式,未來或許可以合作推廣 ARK 技術,以及拓展 dARK 海外節點。此外,InvenioRDM (通用儲存庫 Zenodo 所使用的核心套件) 的開發者也對 ARK 很有興趣,並詢問我們關於轉址機制,和目標物件位置異動後處理等議題。