🚀 加泰罗尼亚语命名实体识别微调模型(roberta-base-ca-v2)
本项目基于 roberta-base-ca-v2 模型微调,实现加泰罗尼亚语的命名实体识别(NER)功能,为加泰罗尼亚语的文本处理提供了高效准确的解决方案。
🚀 快速开始
以下是使用此模型的示例代码:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
ner_results = nlp(example)
pprint(ner_results)
[{'entity_group': 'person-other', 'score': 0.90749526, 'word': ' George Smith Patton', 'start': 0, 'end': 19}, {'entity_group': 'organization-other', 'score': 0.9260813, 'word': ' Ejército de los Estados Unidos', 'start': 39, 'end': 69}, {'entity_group': 'location-other', 'score': 0.992481, 'word': ' Europa', 'start': 73, 'end': 79}, {'entity_group': 'event-attack/terrorism/militaryconflict', 'score': 0.99319077, 'word': ' Segunda Guerra Mundial', 'start': 91, 'end': 113}]
✨ 主要特性
- 针对性微调:基于 roberta-base-ca-v2 模型进行微调,专门用于加泰罗尼亚语的命名实体识别任务。
- 高效准确:在 AnCora-Ca-NER 测试集上取得了 89.29 的 F1 分数,表现出色。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="projecte-aina/roberta-base-ca-v2-cased-ner")
example = "Em dic Lluïsa i visc a Santa Maria del Camí."
ner_results = nlp(example)
pprint(ner_results)
📚 详细文档
模型描述
roberta-base-ca-v2-cased-ner 是一个用于加泰罗尼亚语的命名实体识别(NER)模型,它基于 roberta-base-ca-v2 模型进行微调。roberta-base-ca-v2 是一个 RoBERTa 基础模型,在一个从中等规模语料库收集的公开可用语料和网络爬虫数据上进行了预训练(更多详细信息请查看 roberta-base-ca-v2 模型卡片)。
预期用途和限制
roberta-base-ca-v2-cased-ner 模型可用于识别给定文本中的命名实体。但该模型受其训练数据集的限制,可能无法在所有用例中都有良好的泛化表现。
局限性和偏差
在提交时,尚未采取措施来评估模型中嵌入的偏差。然而,我们深知由于语料库是通过在多个网络源上进行爬虫技术收集的,我们的模型可能存在偏差。我们计划在未来对这些领域进行研究,如果完成研究,此模型卡片将进行更新。
训练
训练数据
我们使用了加泰罗尼亚语的 NER 数据集 AnCora-Ca-NER 进行训练和评估。
训练过程
模型以 16 的批量大小和 5e-5 的学习率训练了 5 个周期。然后,我们使用相应开发集中的下游任务指标选择了最佳检查点,并在测试集上进行了评估。
评估
变量和指标
此模型在微调时最大化了 F1 分数。
评估结果
我们在 AnCora-Ca-NER 测试集上对 roberta-base-ca-v2-cased-ner 与标准的多语言和单语言基线模型进行了评估:
模型 |
AnCora-Ca-NER (F1) |
roberta-base-ca-v2-cased-ner |
89.29 |
roberta-base-ca-cased-ner |
89.76 |
mBERT |
86.87 |
XLM-RoBERTa |
86.31 |
更多详细信息,请查看官方 GitHub 仓库 中的微调与评估脚本。
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至 aina@bsc.es
版权
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache 许可证,版本 2.0
资金支持
这项工作由 加泰罗尼亚政府副主席兼数字政策与领土部 在 Projecte AINA 框架内资助。
引用信息
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型所产生的风险是他们的责任,并且在任何情况下,都应遵守适用的法规,包括有关人工智能使用的法规。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。
🔧 技术细节
文档未提供技术实现细节,故跳过此章节。
📄 许可证
本项目采用 Apache 许可证,版本 2.0。