roberta-large-bne-capitel-ner开源模型 - 助力西班牙语命名实体高效识别

首页

Roberta Large Bne Capitel Ner

由 PlanTL-GOB-ES 开发

该模型是基于RoBERTa架构的西班牙语命名实体识别模型，在BNE大规模语料库预训练后，使用CAPITEL-NERC数据集微调

序列标注

Transformers

支持多种语言开源协议:Apache-2.0 #西班牙语NER #高精度实体识别 #BNE预训练

下载量 370

发布时间 : 3/2/2022

模型简介

用于西班牙语文本中的命名实体识别任务，可识别如人名、地名等实体

模型特点

大规模预训练

基于570GB清洗过的西班牙国家图书馆(BNE)网络爬取数据预训练

领域优化

使用CAPITEL竞赛数据集进行命名实体识别专项微调

高性能

在CAPITEL-NERC测试集上达到90.51 F1值，优于同类西班牙语模型

模型能力

西班牙语文本处理

命名实体识别

人名识别

地名识别

组织机构名识别

使用案例

信息提取

用户信息提取

从用户输入文本中提取人名、地址等实体信息

示例输入'我叫Francisco Javier，住在马德里'可准确识别人名和地名

文档分析

机构文档处理

自动化处理包含机构名称和人名的西班牙语文档

可识别'BSC'等工作单位信息

🚀 西班牙RoBERTa-large模型：基于BNE训练并针对CAPITEL命名实体识别（NER）数据集微调

本模型是在BNE数据集上预训练的西班牙RoBERTa-large模型，针对CAPITEL命名实体识别（NER）数据集进行了微调。它能够有效地识别西班牙语中的命名实体，为自然语言处理任务提供强大支持。

标签与数据集

标签："西班牙国家图书馆", "西班牙语", "BNE", "CAPITEL", "NER"
数据集："BNE", "CAPITEL"

指标与推理参数

指标："F1"
推理参数：聚合策略为 "first"

模型索引

属性	详情
模型名称	roberta-large-bne-capiter-ner
任务类型	令牌分类
数据集类型	NER
数据集名称	CAPITEL-NERC
F1值	0.9051

示例输入

"Me llamo Francisco Javier y vivo en Madrid."
"Mi hermano Ramón y su mejor amigo Luis trabajan en el BSC."

🚀 快速开始

模型描述

roberta-large-bne-capitel-ner 是一个用于西班牙语的命名实体识别（NER）模型。它基于 roberta-large-bne 模型进行微调，而 roberta-large-bne 是一个 RoBERTa 大型模型，使用了截至目前已知的最大西班牙语语料库进行预训练，该语料库包含总计570GB的干净且去重的文本，这些文本是从西班牙国家图书馆（Biblioteca Nacional de España）在2009年至2019年期间进行的网络爬取数据中处理而来。

预期用途和限制

roberta-large-bne-capitel-ner 模型可用于识别命名实体（NE）。不过，该模型受其训练数据集的限制，可能无法在所有用例中都有良好的泛化表现。

使用方法

from transformers import pipeline
from pprint import pprint

nlp = pipeline("ner", model="PlanTL-GOB-ES/roberta-large-bne-capitel-ner")
example = "Me llamo Francisco Javier y vivo en Madrid."

ner_results = nlp(example)
pprint(ner_results)

限制和偏差

在提交时，尚未采取措施来评估模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上进行爬取技术收集而来，我们的模型可能存在偏差。我们计划在未来对这些领域进行研究，如果研究完成，本模型卡片将进行更新。

训练

所使用的数据集来自 2020年IberLEF的CAPITEL竞赛（子任务1）。

训练过程

模型以32的批量大小和3e - 5的学习率进行了5个周期的训练。然后，我们使用相应开发集上的下游任务指标选择了最佳检查点，并在测试集上进行了评估。

评估

变量和指标

该模型在微调时最大化了F1分数。

评估结果

我们在CAPITEL - NERC测试集上对 roberta-large-bne-capitel-ner 与标准多语言和单语言基线模型进行了评估：

模型	CAPITEL - NERC (F1)
roberta-large-bne-capitel-ner	90.51
roberta-base-bne-capitel-ner	89.60
BETO	87.72
mBERT	88.10
BERTIN	88.56
ELECTRA	80.35

更多详细信息，请查看官方 GitHub仓库中的微调与评估脚本。

额外信息

作者

巴塞罗那超级计算中心（Barcelona Supercomputing Center）的文本挖掘单元（Text Mining Unit，TeMU）（bsc - temu@bsc.es）

联系信息

如需进一步信息，请发送电子邮件至 <plantl - gob - es@bsc.es>

版权

版权归西班牙数字化与人工智能国务秘书处（Spanish State Secretariat for Digitalization and Artificial Intelligence，SEDIA）所有（2022年）

许可信息

Apache许可证，版本2.0

资金支持

这项工作由西班牙数字化与人工智能国务秘书处（SEDIA）在Plan - TL框架内提供资金支持。

引用信息

如果您使用此模型，请引用我们的论文：

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}