roberta-large-bne-capitel-pos开源西班牙语词性标注模型

首页

Roberta Large Bne Capitel Pos

由 PlanTL-GOB-ES 开发

基于西班牙国家图书馆(BNE)数据训练的RoBERTa-large模型，针对CAPITEL词性标注数据集微调的西班牙语词性标注模型

序列标注

Transformers

支持多种语言开源协议:Apache-2.0 #西班牙语词性标注 #高精度F1-98.56 #BNE语料训练

下载量 186

发布时间 : 3/2/2022

模型简介

该模型专门用于西班牙语文本的词性标注任务，基于大规模西班牙语语料库预训练，并在CAPITEL-POS数据集上微调

模型特点

大规模预训练数据

基于570GB经清洗和去重的西班牙语文本预训练，数据来源于西班牙国家图书馆2009-2019年的网络爬取数据

高性能词性标注

在CAPITEL-POS测试集上达到98.56的F1值，优于同类西班牙语模型

专业领域优化

使用IberLEF 2020 CAPITEL竞赛数据集进行微调，适合处理西班牙语专业文本

模型能力

西班牙语词性标注

文本标记分类

自然语言处理

使用案例

文本分析

新闻文本分析

分析西班牙语新闻文本中的词性分布

准确识别新闻文本中的各类词性

学术研究

用于西班牙语语言学研究和教学

提供专业级的词性标注结果

自然语言处理应用

信息提取系统

作为信息提取系统的预处理组件

提高后续处理任务的准确性

🚀 西班牙语RoBERTa-large模型：基于BNE数据训练并针对CAPITEL词性标注数据集微调

本模型是针对西班牙语的词性标注（POS）模型，在BNE数据上进行预训练，并针对CAPITEL词性标注数据集进行微调。它能够准确地为西班牙语句子中的每个词汇标注词性，为自然语言处理任务提供基础支持。

🚀 快速开始

模型描述

roberta-large-bne-capitel-pos 是一个用于西班牙语的词性标注（POS）模型，它基于 roberta-large-bne 模型进行微调。而 roberta-large-bne 是一个 RoBERTa 大型模型，它使用了迄今为止已知的最大西班牙语语料库进行预训练，该语料库包含总计570GB的干净且去重的文本，这些文本是从西班牙国家图书馆（Biblioteca Nacional de España）在2009年至2019年期间进行的网络爬取数据中处理而来。

预期用途和限制

roberta-large-bne-capitel-pos 模型可用于对西班牙语文本进行词性标注（POS）。不过，该模型受其训练数据集的限制，可能无法在所有用例中都有良好的泛化表现。

如何使用

以下是使用此模型的示例代码：

from transformers import pipeline
from pprint import pprint

nlp = pipeline("token-classification", model="PlanTL-GOB-ES/roberta-large-bne-capitel-pos")
example = "El alcalde de Vigo, Abel Caballero, ha comenzado a colocar las luces de Navidad en agosto."

pos_results = nlp(example)
pprint(pos_results)

限制和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上进行爬取技术收集的，我们的模型可能存在偏差。我们计划在未来对这些领域进行研究，如果完成研究，此模型卡片将进行更新。

训练

训练数据

使用的数据集来自 2020年IberLEF的CAPITEL竞赛（子任务2）。

训练过程

该模型以16的批量大小和3e - 5的学习率进行了5个周期的训练。然后，我们使用相应开发集上的下游任务指标选择了最佳检查点，并在测试集上进行了评估。

评估

变量和指标

此模型在微调时以最大化F1分数为目标。

评估结果

我们在CAPITEL - POS测试集上对 roberta-large-bne-capitel-pos 模型与标准的多语言和单语言基线模型进行了评估：

模型	CAPITEL - POS (F1)
roberta-large-bne-capitel-pos	98.56
roberta-base-bne-capitel-pos	98.46
BETO	98.36
mBERT	98.39
BERTIN	98.47
ELECTRA	98.16

更多详细信息，请查看官方 GitHub仓库中的微调与评估脚本。

附加信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc - temu@bsc.es）

联系信息

如需更多信息，请发送电子邮件至 <plantl - gob - es@bsc.es>

版权

版权归西班牙数字化与人工智能国务秘书处（SEDIA）所有（2022）

许可信息

Apache许可证，版本2.0

资金支持

这项工作由西班牙数字化与人工智能国务秘书处（SEDIA）在Plan - TL框架内提供资金支持。

引用信息

如果您使用此模型，请引用我们的论文：

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}