Xlm Roberta Large Ehri Ner All
模型简介
模型特点
模型能力
使用案例
🚀 ehri-ner/xlm-roberta-large-ehri-ner-all 模型卡片
欧洲大屠杀研究基础设施(EHRI)旨在通过其服务,使分散的大屠杀相关资料信息更易获取且相互关联,从而支持大屠杀研究。开发一种能够在大屠杀证词或档案描述等文本中检测命名实体的工具,将有助于将更多资料与特定领域受控词汇表中的相关标识符关联起来,丰富其语义,并提高其可发现性。xlm - roberta - large - ehri - ner - all 模型使用 EHRI - NER 数据集对 XLM - RoBERTa(XLM - R)进行微调,用于与大屠杀相关的命名实体识别(NER)。EHRI - NER 是一个多语言数据集(包括捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语和意第绪语),适用于大屠杀相关文本的命名实体识别。
模型描述
- 开发者:Dermentzi, M. 和 Scheithauer, H.
- 资助方:欧盟委员会 H2020 - INFRAIA - 2018–2020 项目。资助协议编号 871111。DOI 10.3030/871111。
- 适用语言(NLP):该模型在捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语和意第绪语数据上进行了微调,但由于使用了具有跨语言迁移能力的多语言基础模型(XLM - R),它可能适用于更多语言。
- 许可证:EUPL - 1.2
- 微调基础模型:FacebookAI/xlm - roberta - large
属性 | 详情 |
---|---|
模型类型 | 用于大屠杀相关文本命名实体识别的微调模型 |
训练数据 | EHRI - NER 数据集,通过聚合 EHRI 在线版本中的所有注释文档并转换为适合训练 NER 模型的格式构建而成 |
🚀 快速开始
该模型是在 EHRI - 3 项目的研究背景下开发的。具体而言,其目标是确定是否可以训练一个单一模型,以识别大屠杀相关文本中不同文档类型和语言的实体。实验结果表明,尽管数据集相对较小,但在多语言实验设置中,基于多语言大屠杀相关注释进行微调的 XLM - R 模型的整体 F1 分数达到了 81.5%。我们认为这个分数足够高,可以考虑进一步部署该模型,即从 EHRI 社区获取更多反馈。一旦我们有一个 EHRI 利益相关者满意的稳定模型,该模型及其后续版本将作为 EHRI 编辑流程的一部分使用。当用户将文本输入支持该模型的工具时,文本中的潜在命名实体将被自动预注释,这有助于研究人员和专业档案管理员更快地检测这些实体,并将它们与 EHRI 自定义受控词汇表和权威集中的相关受控词汇实体关联起来。这有可能促进 EHRI 门户中描述的元数据丰富化,并提高其可发现性。此外,这也将使 EHRI 更容易开发新的在线版本,并为 EHRI 网络中的档案管理员和研究人员提供新的方式来组织、分析和展示他们的资料和研究数据,而这些工作原本需要大量的手动操作。
✨ 主要特性
- 多语言支持:支持捷克语、德语、英语、法语、匈牙利语、荷兰语、波兰语、斯洛伐克语和意第绪语等多种语言。
- 基于微调:在 XLM - RoBERTa 基础模型上进行微调,适用于大屠杀相关文本的命名实体识别。
🔧 技术细节
该模型使用 EHRI - NER 数据集对 XLM - RoBERTa 进行微调。EHRI - NER 数据集是通过聚合 EHRI 在线版本中的所有注释文档并转换为适合训练 NER 模型的格式构建而成。在多语言实验设置中,微调后的模型在大屠杀相关文本的命名实体识别任务中取得了 81.5% 的 F1 分数。
📄 许可证
该模型使用 EUPL - 1.2 许可证。
🔧 局限性
数据来源局限
用于微调此模型的数据集源自一系列手动注释的数字学术版本,即 EHRI 在线版本。这些版本的原始目的并非为训练 NER 模型提供数据集,尽管我们认为它们仍然构成了适合用于此目的的高质量资源。然而,用户仍应注意,我们的数据集是对并非为此目的构建的资源的再利用。
模型性能局限
- 微调后的模型偶尔会将实体错误分类为非实体标记,其中 I - GHETTO 是最容易混淆的实体。
- 该模型在提取多标记实体(如 I - CAMP、I - LOC 和 I - ORG)时偶尔会遇到挑战,这些实体有时会与实体的开头混淆。
- 它倾向于将 B - GHETTO 和 B - CAMP 错误分类为 B - LOC,考虑到它们在语义上接近,这并不奇怪。
使用场景局限
该模型旨在作为与 EHRI 相关的编辑和出版流程的一部分使用,可能不适用于其他用户或组织的需求。
建议
对于更多信息,我们鼓励潜在用户阅读与该模型配套的论文: Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222
📚 引用
BibTeX:
@inproceedings{dermentzi_repurposing_2024,
address = {Torino, Italy},
title = {Repurposing {Holocaust}-{Related} {Digital} {Scholarly} {Editions} to {Develop} {Multilingual} {Domain}-{Specific} {Named} {Entity} {Recognition} {Tools}},
url = {https://hal.science/hal-04547222},
abstract = {The European Holocaust Research Infrastructure (EHRI) aims to support Holocaust research by making information about dispersed Holocaust material accessible and interconnected through its services. Creating a tool capable of detecting named entities in texts such as Holocaust testimonies or archival descriptions would make it easier to link more material with relevant identifiers in domain-specific controlled vocabularies, semantically enriching it, and making it more discoverable. With this paper, we release EHRI-NER, a multilingual dataset (Czech, German, English, French, Hungarian, Dutch, Polish, Slovak, Yiddish) for Named Entity Recognition (NER) in Holocaust-related texts. EHRI-NER is built by aggregating all the annotated documents in the EHRI Online Editions and converting them to a format suitable for training NER models. We leverage this dataset to fine-tune the multilingual Transformer-based language model XLM-RoBERTa (XLM-R) to determine whether a single model can be trained to recognize entities across different document types and languages. The results of our experiments show that despite our relatively small dataset, in a multilingual experiment setup, the overall F1 score achieved by XLM-R fine-tuned on multilingual annotations is 81.5{\textbackslash}\%. We argue that this score is sufficiently high to consider the next steps towards deploying this model.},
urldate = {2024-04-29},
booktitle = {{LREC}-{COLING} 2024 - {Joint} {International} {Conference} on {Computational} {Linguistics}, {Language} {Resources} and {Evaluation}},
publisher = {ELRA Language Resources Association (ELRA); International Committee on Computational Linguistics (ICCL)},
author = {Dermentzi, Maria and Scheithauer, Hugo},
month = may,
year = {2024},
keywords = {Digital Editions, Holocaust Testimonies, Multilingual, Named Entity Recognition, Transfer Learning, Transformers},
}
APA: Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222
⚠️ 重要提示
该模型使用的数据集是对并非为训练 NER 模型构建的资源的再利用,用户应注意其局限性。
💡 使用建议
潜在用户可阅读与该模型配套的论文以获取更多信息。








