roberta-large-bne开源西班牙语语言模型 - 基于BNE数据训练实用工具

首页

Roberta Large Bne

由 PlanTL-GOB-ES 开发

基于西班牙国家图书馆(BNE)数据训练的RoBERTa大型西班牙语语言模型

大型语言模型

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语预训练 #大语料库训练 #掩码语言建模

下载量 1,685

发布时间 : 3/2/2022

模型简介

基于Transformer架构的西班牙语掩码语言模型，使用RoBERTa大型架构，在570GB清洁西班牙语语料上训练

模型特点

大规模西班牙语预训练

使用西班牙国家图书馆2009-2019年间570GB清洁去重文本训练

RoBERTa优化架构

采用RoBERTa-large架构，针对西班牙语进行优化

多任务适用性

支持多种下游NLP任务的微调，如问答、文本分类等

模型能力

掩码语言建模

文本特征提取

命名实体识别

文本分类

问答系统

使用案例

自然语言处理

文本分类

对西班牙语文本进行分类任务

在MLDoc数据集上F1得分0.9702

命名实体识别

识别西班牙语文本中的命名实体

在CoNLL-NERC数据集上F1得分0.8823

语义理解

语义相似度计算

计算西班牙语句子间的语义相似度

在STS数据集上综合得分0.8411

🚀 RoBERTa大模型：基于西班牙国家图书馆（BNE）数据训练

本项目基于Transformer架构，利用西班牙国家图书馆（BNE）的大规模西班牙语语料，对RoBERTa大模型进行预训练，得到了适用于西班牙语的掩码语言模型roberta-large-bne。该模型可用于填空任务，也可针对问答、文本分类、命名实体识别等下游任务进行微调。

🚀 快速开始

基础用法

>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-large-bne')
>>> pprint(unmasker("Gracias a los datos de la BNE se ha podido <mask> este modelo del lenguaje."))
[{'score': 0.0664491355419159,
  'sequence': ' Gracias a los datos de la BNE se ha podido conocer este modelo del lenguaje.',
  'token': 1910,
  'token_str': ' conocer'},
 {'score': 0.0492338091135025,
  'sequence': ' Gracias a los datos de la BNE se ha podido realizar este modelo del lenguaje.',
  'token': 2178,
  'token_str': ' realizar'},
 {'score': 0.03890657424926758,
  'sequence': ' Gracias a los datos de la BNE se ha podido reconstruir este modelo del lenguaje.',
  'token': 23368,
  'token_str': ' reconstruir'},
 {'score': 0.03662774711847305,
  'sequence': ' Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje.',
  'token': 3815,
  'token_str': ' desarrollar'},
 {'score': 0.030557377263903618,
  'sequence': ' Gracias a los datos de la BNE se ha podido estudiar este modelo del lenguaje.',
  'token': 6361,
  'token_str': ' estudiar'}]

高级用法

>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/roberta-large-bne')
>>> text = "Gracias a los datos de la BNE se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 19, 1024])

✨ 主要特性

架构：roberta-large
语言：西班牙语
任务：填空任务（fill-mask）
数据：BNE

📦 安装指南

文档未提及安装步骤，暂不提供。

📚 详细文档

模型描述

roberta-large-bne 是一个基于Transformer的西班牙语掩码语言模型。它基于 RoBERTa 大模型，并使用了截至目前已知的最大西班牙语语料库进行预训练。该语料库由西班牙国家图书馆（Biblioteca Nacional de España）在2009年至2019年期间进行的网络爬取数据编译而成，总共处理了570GB的干净且去重的文本。

预期用途和限制

roberta-large-bne 模型仅可直接用于掩码语言建模以执行填空任务（您可以尝试推理API或阅读下一节内容）。不过，它旨在针对非生成式下游任务进行微调，例如问答、文本分类或命名实体识别。您可以使用原始模型进行填空任务，也可以将其微调以用于下游任务。

局限性和偏差

在提交时，尚未采取任何措施来评估模型中嵌入的偏差和毒性。然而，我们深知由于语料库是通过对多个网络源进行爬取技术收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果研究完成，此模型卡片将进行更新。

训练

训练数据

西班牙国家图书馆（Biblioteca Nacional de España）每年对所有 .es 域名进行一次爬取。训练语料库由2009年至2019年期间这些爬取得到的59TB的WARC文件组成。

为了获得高质量的训练语料库，语料库经过了一系列操作的预处理，包括句子分割、语言检测、过滤格式错误的句子以及去重重复内容等。在处理过程中，文档边界得以保留。这最终得到了2TB的干净西班牙语语料库。进一步对语料库进行全局去重，得到了570GB的文本。

语料库的一些统计信息如下：

语料库	文档数量	标记数量	大小（GB）
BNE	201,080,084	135,733,450,668	570GB

训练过程

训练语料库使用了原始 RoBERTa 模型中使用的字节版本的字节对编码（BPE）进行分词，词汇表大小为50,262个标记。

roberta-large-bne 的预训练包括掩码语言模型训练，遵循了RoBERTa大模型的训练方法。训练总共持续了96小时，使用了32个计算节点，每个节点配备4个16GB VRAM的NVIDIA V100 GPU。

评估

当在下游任务上进行微调时，该模型取得了以下结果：

数据集	指标	RoBERTa-large
MLDoc	F1	0.9702
CoNLL-NERC	F1	0.8823
CAPITEL-NERC	F1	0.9051
PAWS-X	F1	0.9150
UD-POS	F1	0.9904
CAPITEL-POS	F1	0.9856
SQAC	F1	0.8202
STS	综合	0.8411
XNLI	准确率	0.8263

更多评估细节请访问我们的 GitHub仓库或论文。

附加信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需进一步信息，请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化与人工智能国务秘书处（SEDIA）所有（2022年）

许可信息

本作品根据 Apache许可证，版本2.0 进行许可。

资金支持

本工作由西班牙数字化与人工智能国务秘书处（SEDIA）在Plan-TL框架内提供资金支持。

引用信息

如果您使用此模型，请引用我们的论文：

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}