xlm-roberta-large-ehri-ner-all開源模型 - 支持9種語言大屠殺命名實體識別

首頁

Xlm Roberta Large Ehri Ner All

由ehri-ner開發

基於XLM-RoBERTa微調的多語言大屠殺相關命名實體識別模型，支持9種語言，F1值達81.5%。

序列標註

Transformers

支持多種語言#大屠殺NER #多語言實體識別 #歷史檔案標註

下載量 208

發布時間 : 3/5/2024

模型概述

該模型用於識別大屠殺相關文本中的命名實體，支持多語言，旨在通過自動標註豐富EHRI門戶的元數據並增強其可發現性。

模型特點

多語言支持

支持9種語言的命名實體識別，包括捷克語、德語、英語等。

高精度

在多語言實驗設置中，總體F1得分為81.5%。

領域特定

專注於大屠殺相關文本的命名實體識別，適用於學術研究和檔案管理。

模型能力

命名實體識別

多語言文本處理

自動標註

使用案例

學術研究

大屠殺研究

識別大屠殺證詞或檔案描述中的命名實體，便於研究與分析。

提高研究效率，增強材料可發現性。

檔案管理

元數據豐富

自動標註文本中的命名實體，鏈接到受控詞彙表和權威集。

豐富元數據，提高檔案材料的可發現性和組織效率。

🚀 ehri-ner/xlm-roberta-large-ehri-ner-all 模型卡片

歐洲大屠殺研究基礎設施（EHRI）旨在通過其服務，使分散的大屠殺相關資料信息更易獲取且相互關聯，從而支持大屠殺研究。開發一種能夠在大屠殺證詞或檔案描述等文本中檢測命名實體的工具，將有助於將更多資料與特定領域受控詞彙表中的相關標識符關聯起來，豐富其語義，並提高其可發現性。xlm - roberta - large - ehri - ner - all 模型使用 EHRI - NER 數據集對 XLM - RoBERTa（XLM - R）進行微調，用於與大屠殺相關的命名實體識別（NER）。EHRI - NER 是一個多語言數據集（包括捷克語、德語、英語、法語、匈牙利語、荷蘭語、波蘭語、斯洛伐克語和意第緒語），適用於大屠殺相關文本的命名實體識別。

模型描述

開發者：Dermentzi, M. 和 Scheithauer, H.
資助方：歐盟委員會 H2020 - INFRAIA - 2018–2020 項目。資助協議編號 871111。DOI 10.3030/871111。
適用語言（NLP）：該模型在捷克語、德語、英語、法語、匈牙利語、荷蘭語、波蘭語、斯洛伐克語和意第緒語數據上進行了微調，但由於使用了具有跨語言遷移能力的多語言基礎模型（XLM - R），它可能適用於更多語言。
許可證：EUPL - 1.2
微調基礎模型：FacebookAI/xlm - roberta - large

屬性	詳情
模型類型	用於大屠殺相關文本命名實體識別的微調模型
訓練數據	EHRI - NER 數據集，通過聚合 EHRI 在線版本中的所有註釋文檔並轉換為適合訓練 NER 模型的格式構建而成

🚀 快速開始

該模型是在 EHRI - 3 項目的研究背景下開發的。具體而言，其目標是確定是否可以訓練一個單一模型，以識別大屠殺相關文本中不同文檔類型和語言的實體。實驗結果表明，儘管數據集相對較小，但在多語言實驗設置中，基於多語言大屠殺相關注釋進行微調的 XLM - R 模型的整體 F1 分數達到了 81.5%。我們認為這個分數足夠高，可以考慮進一步部署該模型，即從 EHRI 社區獲取更多反饋。一旦我們有一個 EHRI 利益相關者滿意的穩定模型，該模型及其後續版本將作為 EHRI 編輯流程的一部分使用。當用戶將文本輸入支持該模型的工具時，文本中的潛在命名實體將被自動預註釋，這有助於研究人員和專業檔案管理員更快地檢測這些實體，並將它們與 EHRI 自定義受控詞彙表和權威集中的相關受控詞彙實體關聯起來。這有可能促進 EHRI 門戶中描述的元數據豐富化，並提高其可發現性。此外，這也將使 EHRI 更容易開發新的在線版本，併為 EHRI 網絡中的檔案管理員和研究人員提供新的方式來組織、分析和展示他們的資料和研究數據，而這些工作原本需要大量的手動操作。

✨ 主要特性

多語言支持：支持捷克語、德語、英語、法語、匈牙利語、荷蘭語、波蘭語、斯洛伐克語和意第緒語等多種語言。
基於微調：在 XLM - RoBERTa 基礎模型上進行微調，適用於大屠殺相關文本的命名實體識別。

🔧 技術細節

該模型使用 EHRI - NER 數據集對 XLM - RoBERTa 進行微調。EHRI - NER 數據集是通過聚合 EHRI 在線版本中的所有註釋文檔並轉換為適合訓練 NER 模型的格式構建而成。在多語言實驗設置中，微調後的模型在大屠殺相關文本的命名實體識別任務中取得了 81.5% 的 F1 分數。

📄 許可證

該模型使用 EUPL - 1.2 許可證。

🔧 侷限性

數據來源侷限

用於微調此模型的數據集源自一系列手動註釋的數字學術版本，即 EHRI 在線版本。這些版本的原始目的並非為訓練 NER 模型提供數據集，儘管我們認為它們仍然構成了適合用於此目的的高質量資源。然而，用戶仍應注意，我們的數據集是對並非為此目的構建的資源的再利用。

模型性能侷限

微調後的模型偶爾會將實體錯誤分類為非實體標記，其中 I - GHETTO 是最容易混淆的實體。
該模型在提取多標記實體（如 I - CAMP、I - LOC 和 I - ORG）時偶爾會遇到挑戰，這些實體有時會與實體的開頭混淆。
它傾向於將 B - GHETTO 和 B - CAMP 錯誤分類為 B - LOC，考慮到它們在語義上接近，這並不奇怪。

使用場景侷限

該模型旨在作為與 EHRI 相關的編輯和出版流程的一部分使用，可能不適用於其他用戶或組織的需求。

建議

對於更多信息，我們鼓勵潛在用戶閱讀與該模型配套的論文： Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222

📚 引用

BibTeX：

@inproceedings{dermentzi_repurposing_2024,
    address = {Torino, Italy},
    title = {Repurposing {Holocaust}-{Related} {Digital} {Scholarly} {Editions} to {Develop} {Multilingual} {Domain}-{Specific} {Named} {Entity} {Recognition} {Tools}},
    url = {https://hal.science/hal-04547222},
    abstract = {The European Holocaust Research Infrastructure (EHRI) aims to support Holocaust research by making information about dispersed Holocaust material accessible and interconnected through its services. Creating a tool capable of detecting named entities in texts such as Holocaust testimonies or archival descriptions would make it easier to link more material with relevant identifiers in domain-specific controlled vocabularies, semantically enriching it, and making it more discoverable. With this paper, we release EHRI-NER, a multilingual dataset (Czech, German, English, French, Hungarian, Dutch, Polish, Slovak, Yiddish) for Named Entity Recognition (NER) in Holocaust-related texts. EHRI-NER is built by aggregating all the annotated documents in the EHRI Online Editions and converting them to a format suitable for training NER models. We leverage this dataset to fine-tune the multilingual Transformer-based language model XLM-RoBERTa (XLM-R) to determine whether a single model can be trained to recognize entities across different document types and languages. The results of our experiments show that despite our relatively small dataset, in a multilingual experiment setup, the overall F1 score achieved by XLM-R fine-tuned on multilingual annotations is 81.5{\textbackslash}\%. We argue that this score is sufficiently high to consider the next steps towards deploying this model.},
    urldate = {2024-04-29},
    booktitle = {{LREC}-{COLING} 2024 - {Joint} {International} {Conference} on {Computational} {Linguistics}, {Language} {Resources} and {Evaluation}},
    publisher = {ELRA Language Resources Association (ELRA); International Committee on Computational Linguistics (ICCL)},
    author = {Dermentzi, Maria and Scheithauer, Hugo},
    month = may,
    year = {2024},
    keywords = {Digital Editions, Holocaust Testimonies, Multilingual, Named Entity Recognition, Transfer Learning, Transformers},
}

APA： Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222