🚀 西班牙RoBERTa-base模型:基于BNE训练并针对CAPITEL命名实体识别(NER)数据集微调
本模型基于 roberta-base-bne 模型进行微调,用于西班牙语的命名实体识别(NER)任务。它利用了西班牙国家图书馆(BNE)的大规模语料库,并在CAPITEL数据集上进行了优化,能够准确识别西班牙语文本中的命名实体。
🚀 快速开始
代码示例
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
✨ 主要特性
- 语言适配:专为西班牙语设计,基于大规模西班牙语语料库预训练。
- 任务针对性:针对命名实体识别(NER)任务进行微调,在CAPITEL-NERC数据集上表现出色。
📦 安装指南
文档未提及具体安装步骤,可参考Hugging Face的通用安装指南,使用以下命令安装transformers
库:
pip install transformers
💻 使用示例
基础用法
from transformers import pipeline
from pprint import pprint
nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-base-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."
ner_results = nlp(example)
pprint(ner_results)
📚 详细文档
模型描述
roberta-base-bne-capitel-ner 是一个用于西班牙语的命名实体识别(NER)模型,它基于 roberta-base-bne 模型进行微调。而 roberta-base-bne 是一个 RoBERTa 基础模型,使用了截至目前已知的最大西班牙语语料库进行预训练,该语料库总计包含570GB的干净且去重的文本,这些文本是从西班牙国家图书馆(Biblioteca Nacional de España)在2009年至2019年期间进行的网络爬取数据中处理而来。
预期用途和限制
roberta-base-bne-capitel-ner 模型可用于识别命名实体(NE)。不过,该模型受其训练数据集的限制,可能无法在所有用例中都有良好的泛化能力。
限制和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。然而,我们深知由于语料库是通过在多个网络源上进行爬取技术收集而来,我们的模型可能存在偏差。我们计划在未来对这些领域进行研究,如果研究完成,此模型卡片将进行更新。
训练
用于训练和评估的数据集来自 CAPITEL竞赛(IberLEF 2020)(子任务1)。
训练过程
模型以16的批次大小和5e-5的学习率进行了5个epoch的训练。然后,我们使用相应开发集上的下游任务指标选择了最佳检查点,并在测试集上进行了评估。
评估
变量和指标
该模型在微调时最大化了F1分数。
评估结果
我们在CAPITEL-NERC测试集上针对标准多语言和单语言基线对 roberta-base-bne-capitel-ner 进行了评估:
模型 |
CAPITEL-NERC (F1) |
roberta-large-bne-capitel-ner |
90.51 |
roberta-base-bne-capitel-ner |
89.60 |
BETO |
87.72 |
mBERT |
88.10 |
BERTIN |
88.56 |
ELECTRA |
80.35 |
更多详细信息,请查看官方 GitHub仓库 中的微调与评估脚本。
附加信息
作者
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(Text Mining Unit,TeMU)(bsc-temu@bsc.es)
联系信息
如需进一步信息,请发送电子邮件至 plantl-gob-es@bsc.es
版权
版权归西班牙数字化与人工智能国务秘书处(Spanish State Secretariat for Digitalization and Artificial Intelligence,SEDIA)所有(2022)
许可信息
Apache许可证,版本2.0
资金支持
这项工作由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL框架内提供资金支持。
引用信息
如果您使用此模型,请引用我们的 论文:
@article{,
abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
doi = {10.26342/2022-68-3},
issn = {1135-5948},
journal = {Procesamiento del Lenguaje Natural},
keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
title = {MarIA: Spanish Language Models},
volume = {68},
url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
year = {2022},
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为这些模型的用户时,他们应注意,减轻使用这些模型所带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者(SEDIA - 数字化与人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。
🔧 技术细节
信息表格
属性 |
详情 |
模型类型 |
基于RoBERTa架构的命名实体识别(NER)模型 |
训练数据 |
CAPITEL竞赛(IberLEF 2020)子任务1的数据集 |
提示信息
⚠️ 重要提示
在提交时,尚未采取措施来估计模型中嵌入的偏差。由于语料库是通过网络爬取收集的,模型可能存在偏差。
💡 使用建议
由于模型受训练数据集的限制,可能无法在所有用例中都有良好的泛化能力。在使用时,请根据具体任务进行评估和调整。
📄 许可证
本模型采用 Apache许可证,版本2.0 进行许可。