xlm-roberta-large-ehri-ner-all开源模型 - 支持9种语言大屠杀命名实体识别

首页

Xlm Roberta Large Ehri Ner All

由 ehri-ner 开发

基于XLM-RoBERTa微调的多语言大屠杀相关命名实体识别模型，支持9种语言，F1值达81.5%。

序列标注

Transformers

支持多种语言#大屠杀NER #多语言实体识别 #历史档案标注

下载量 208

发布时间 : 3/5/2024

模型简介

该模型用于识别大屠杀相关文本中的命名实体，支持多语言，旨在通过自动标注丰富EHRI门户的元数据并增强其可发现性。

模型特点

多语言支持

支持9种语言的命名实体识别，包括捷克语、德语、英语等。

高精度

在多语言实验设置中，总体F1得分为81.5%。

领域特定

专注于大屠杀相关文本的命名实体识别，适用于学术研究和档案管理。

模型能力

命名实体识别

多语言文本处理

自动标注

使用案例

学术研究

大屠杀研究

识别大屠杀证词或档案描述中的命名实体，便于研究与分析。

提高研究效率，增强材料可发现性。

档案管理

元数据丰富

自动标注文本中的命名实体，链接到受控词汇表和权威集。

丰富元数据，提高档案材料的可发现性和组织效率。

🚀 ehri-ner/xlm-roberta-large-ehri-ner-all 模型卡片

欧洲大屠杀研究基础设施（EHRI）旨在通过其服务，使分散的大屠杀相关资料信息更易获取且相互关联，从而支持大屠杀研究。开发一种能够在大屠杀证词或档案描述等文本中检测命名实体的工具，将有助于将更多资料与特定领域受控词汇表中的相关标识符关联起来，丰富其语义，并提高其可发现性。xlm - roberta - large - ehri - ner - all 模型使用 EHRI - NER 数据集对 XLM - RoBERTa（XLM - R）进行微调，用于与大屠杀相关的命名实体识别（NER）。EHRI - NER 是一个多语言数据集（包括捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语和意第绪语），适用于大屠杀相关文本的命名实体识别。

模型描述

开发者：Dermentzi, M. 和 Scheithauer, H.
资助方：欧盟委员会 H2020 - INFRAIA - 2018–2020 项目。资助协议编号 871111。DOI 10.3030/871111。
适用语言（NLP）：该模型在捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语和意第绪语数据上进行了微调，但由于使用了具有跨语言迁移能力的多语言基础模型（XLM - R），它可能适用于更多语言。
许可证：EUPL - 1.2
微调基础模型：FacebookAI/xlm - roberta - large

属性	详情
模型类型	用于大屠杀相关文本命名实体识别的微调模型
训练数据	EHRI - NER 数据集，通过聚合 EHRI 在线版本中的所有注释文档并转换为适合训练 NER 模型的格式构建而成

🚀 快速开始

该模型是在 EHRI - 3 项目的研究背景下开发的。具体而言，其目标是确定是否可以训练一个单一模型，以识别大屠杀相关文本中不同文档类型和语言的实体。实验结果表明，尽管数据集相对较小，但在多语言实验设置中，基于多语言大屠杀相关注释进行微调的 XLM - R 模型的整体 F1 分数达到了 81.5%。我们认为这个分数足够高，可以考虑进一步部署该模型，即从 EHRI 社区获取更多反馈。一旦我们有一个 EHRI 利益相关者满意的稳定模型，该模型及其后续版本将作为 EHRI 编辑流程的一部分使用。当用户将文本输入支持该模型的工具时，文本中的潜在命名实体将被自动预注释，这有助于研究人员和专业档案管理员更快地检测这些实体，并将它们与 EHRI 自定义受控词汇表和权威集中的相关受控词汇实体关联起来。这有可能促进 EHRI 门户中描述的元数据丰富化，并提高其可发现性。此外，这也将使 EHRI 更容易开发新的在线版本，并为 EHRI 网络中的档案管理员和研究人员提供新的方式来组织、分析和展示他们的资料和研究数据，而这些工作原本需要大量的手动操作。

✨ 主要特性

多语言支持：支持捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语和意第绪语等多种语言。
基于微调：在 XLM - RoBERTa 基础模型上进行微调，适用于大屠杀相关文本的命名实体识别。

🔧 技术细节

该模型使用 EHRI - NER 数据集对 XLM - RoBERTa 进行微调。EHRI - NER 数据集是通过聚合 EHRI 在线版本中的所有注释文档并转换为适合训练 NER 模型的格式构建而成。在多语言实验设置中，微调后的模型在大屠杀相关文本的命名实体识别任务中取得了 81.5% 的 F1 分数。

📄 许可证

该模型使用 EUPL - 1.2 许可证。

🔧 局限性

数据来源局限

用于微调此模型的数据集源自一系列手动注释的数字学术版本，即 EHRI 在线版本。这些版本的原始目的并非为训练 NER 模型提供数据集，尽管我们认为它们仍然构成了适合用于此目的的高质量资源。然而，用户仍应注意，我们的数据集是对并非为此目的构建的资源的再利用。

模型性能局限

微调后的模型偶尔会将实体错误分类为非实体标记，其中 I - GHETTO 是最容易混淆的实体。
该模型在提取多标记实体（如 I - CAMP、I - LOC 和 I - ORG）时偶尔会遇到挑战，这些实体有时会与实体的开头混淆。
它倾向于将 B - GHETTO 和 B - CAMP 错误分类为 B - LOC，考虑到它们在语义上接近，这并不奇怪。

使用场景局限

该模型旨在作为与 EHRI 相关的编辑和出版流程的一部分使用，可能不适用于其他用户或组织的需求。

建议

对于更多信息，我们鼓励潜在用户阅读与该模型配套的论文： Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222

📚 引用

BibTeX：

@inproceedings{dermentzi_repurposing_2024,
    address = {Torino, Italy},
    title = {Repurposing {Holocaust}-{Related} {Digital} {Scholarly} {Editions} to {Develop} {Multilingual} {Domain}-{Specific} {Named} {Entity} {Recognition} {Tools}},
    url = {https://hal.science/hal-04547222},
    abstract = {The European Holocaust Research Infrastructure (EHRI) aims to support Holocaust research by making information about dispersed Holocaust material accessible and interconnected through its services. Creating a tool capable of detecting named entities in texts such as Holocaust testimonies or archival descriptions would make it easier to link more material with relevant identifiers in domain-specific controlled vocabularies, semantically enriching it, and making it more discoverable. With this paper, we release EHRI-NER, a multilingual dataset (Czech, German, English, French, Hungarian, Dutch, Polish, Slovak, Yiddish) for Named Entity Recognition (NER) in Holocaust-related texts. EHRI-NER is built by aggregating all the annotated documents in the EHRI Online Editions and converting them to a format suitable for training NER models. We leverage this dataset to fine-tune the multilingual Transformer-based language model XLM-RoBERTa (XLM-R) to determine whether a single model can be trained to recognize entities across different document types and languages. The results of our experiments show that despite our relatively small dataset, in a multilingual experiment setup, the overall F1 score achieved by XLM-R fine-tuned on multilingual annotations is 81.5{\textbackslash}\%. We argue that this score is sufficiently high to consider the next steps towards deploying this model.},
    urldate = {2024-04-29},
    booktitle = {{LREC}-{COLING} 2024 - {Joint} {International} {Conference} on {Computational} {Linguistics}, {Language} {Resources} and {Evaluation}},
    publisher = {ELRA Language Resources Association (ELRA); International Committee on Computational Linguistics (ICCL)},
    author = {Dermentzi, Maria and Scheithauer, Hugo},
    month = may,
    year = {2024},
    keywords = {Digital Editions, Holocaust Testimonies, Multilingual, Named Entity Recognition, Transfer Learning, Transformers},
}

APA： Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222