🚀 加泰罗尼亚语命名实体识别微调模型(RoBERTa-base)
本项目的 roberta-base-ca-cased-ner 模型是一个用于加泰罗尼亚语的命名实体识别(NER)模型。它基于 BERTa 模型微调而来,而 BERTa 是一个在中等规模语料库上预训练的 RoBERTa 基础模型,该语料库来自公开可用的语料和网络爬虫。
🚀 快速开始
代码示例
pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "
ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)
[{'entity_group': 'PER', 'score': 0.9983406, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'ORG', 'score': 0.99790734, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'LOC', 'score': 0.98424107, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'MISC', 'score': 0.9963934, 'word': ' Seg', 'start': 91, 'end': 94}, {'entity_group': 'MISC', 'score': 0.97889286, 'word': 'unda Guerra Mundial', 'start': 94, 'end': 113}]
✨ 主要特性
- 针对性微调:基于加泰罗尼亚语进行命名实体识别任务的微调,更适配加泰罗尼亚语的语言特点。
- 模型基础优质:源自预训练的 BERTa 模型,具有较好的语言理解能力。
📦 安装指南
文档未提供具体安装步骤,可参考 Hugging Face 相关模型的通用安装方法。
💻 使用示例
基础用法
pipe = pipeline("ner", model="projecte-aina/multiner_ceil")
example = "George Smith Patton fué un general del Ejército de los Estados Unidos en Europa durante la Segunda Guerra Mundial. "
ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)
📚 详细文档
模型描述
roberta-base-ca-cased-ner 是一个用于加泰罗尼亚语的命名实体识别(NER)模型,它从 BERTa 模型微调而来,而 BERTa 是一个 RoBERTa 基础模型,在一个中等规模的语料库上进行了预训练,该语料库来自公开可用的语料和网络爬虫(更多细节可查看 BERTa 模型卡片)。
预期用途和局限性
文档未详细提及预期用途和局限性的具体内容。
训练
训练数据
使用了加泰罗尼亚语的 NER 数据集 Ancora-ca-ner 进行训练和评估。
训练过程
文档未详细提及训练过程的具体内容。
评估
变量和指标
使用 F1 指标进行评估。
评估结果
模型 |
Ancora-ca-ner (F1) |
roberta-base-ca-cased-ner |
88.13 |
mBERT |
86.38 |
XLM-RoBERTa |
87.66 |
WikiBERT-ca |
77.66 |
更多细节可查看官方 GitHub 仓库 中的微调与评估脚本。
额外信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送邮件至 aina@bsc.es
版权
版权所有 (c) 2021 巴塞罗那超级计算中心的文本挖掘单元
许可信息
Apache 许可证,版本 2.0
资金支持
这项工作由 [加泰罗尼亚政府副主席兼数字与领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架内资助。
引用信息
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)向其他方部署或提供系统和/或服务,或成为这些模型的用户时,他们应注意,减轻使用这些模型所产生的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。