roberta-large-bne-sqac开源模型 - 基于西国图书馆语料优化西语问答任务

首页

Roberta Large Bne Sqac

由 PlanTL-GOB-ES 开发

这是一个针对西班牙语问答任务优化的RoBERTa大型模型，基于西班牙国家图书馆的大规模语料库训练

问答系统

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语问答 #高精度F1 #BNE预训练

下载量 966

发布时间 : 3/2/2022

模型简介

该模型专门用于西班牙语抽取式问答任务，基于roberta-large-bne模型微调而来

模型特点

大规模预训练

基于570GB经过清洗的西班牙语网络文本数据训练

问答优化

专门针对SQAC西班牙语问答数据集进行微调

高性能

在SQAC测试集上达到82.02的F1值，优于同类西班牙语模型

模型能力

西班牙语文本理解

抽取式问答

上下文理解

使用案例

问答系统

西班牙语FAQ系统

构建基于西班牙语的常见问题解答系统

能够准确从给定文本中抽取答案

教育应用

用于西班牙语学习应用的问答功能

帮助学生从学习材料中获取准确答案

🚀 西班牙RoBERTa-large模型，基于BNE微调用于西班牙问答语料库（SQAC）

本项目的模型是基于西班牙国家图书馆（BNE）的大规模语料库预训练的RoBERTa-large模型，并针对西班牙问答语料库（SQAC）进行了微调。该模型可用于抽取式问答任务，为西班牙语言的问答场景提供了有效的解决方案。

🚀 快速开始

以下是使用该模型进行问答的示例代码：

from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
  
qa_results = nlp(text, context)
print(qa_results)

✨ 主要特性

语言适配：专为西班牙语设计，基于大规模西班牙语语料库预训练，对西班牙语的理解和处理能力更强。
微调优化：针对西班牙问答语料库（SQAC）进行了微调，在问答任务上表现出色。
性能优越：在SQAC测试集上的F1分数达到了82.02，优于多个基线模型。

📦 安装指南

暂未提供具体安装步骤，可参考Hugging Face的相关文档进行安装。

💻 使用示例

基础用法

from transformers import pipeline
nlp = pipeline("question-answering", model="PlanTL-GOB-ES/roberta-large-bne-sqac")
text = "¿Dónde vivo?"
context = "Me llamo Wolfgang y vivo en Berlin"
  
qa_results = nlp(text, context)
print(qa_results)

📚 详细文档

模型描述

roberta-large-bne-sqac 是一个用于西班牙语的问答（QA）模型，它是在 roberta-large-bne 模型的基础上进行微调得到的。roberta-large-bne 是一个 RoBERTa 大型模型，使用了迄今为止已知的最大西班牙语语料库进行预训练，该语料库共有570GB的干净且去重的文本，这些文本是从西班牙国家图书馆（Biblioteca Nacional de España）在2009年至2019年期间进行的网络爬取中收集并处理得到的。

预期用途和限制

roberta-large-bne-sqac 模型可用于抽取式问答任务。但该模型受其训练数据集的限制，可能无法在所有用例中都表现良好。

限制和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上进行爬取技术收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果研究完成，此模型卡片将进行更新。

训练

训练数据

我们使用了名为 SQAC语料库的西班牙语问答数据集进行训练和评估。

训练过程

该模型以16的批量大小和1e-5的学习率进行了5个epoch的训练。然后，我们使用相应开发集上的下游任务指标选择了最佳检查点，并在测试集上进行了评估。

评估结果

我们在SQAC测试集上对 roberta-large-bne-sqac 模型与标准的多语言和单语言基线模型进行了评估：

模型	SQAC (F1)
roberta-large-bne-sqac	82.02
roberta-base-bne-sqac	79.23
BETO	79.23
mBERT	75.62
BERTIN	76.78
ELECTRA	73.83

更多详细信息，请查看官方 GitHub仓库中的微调与评估脚本。

附加信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需更多信息，请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化与人工智能国务秘书处（SEDIA）所有（2022）

许可信息

Apache许可证，版本2.0

资金支持

这项工作由西班牙数字化与人工智能国务秘书处（SEDIA）在Plan-TL框架内资助。

引用信息

如果您使用此模型，请引用我们的论文：

@article{,
   abstract = {We want to thank the National Library of Spain for such a large effort on the data gathering and the Future of Computing Center, a
Barcelona Supercomputing Center and IBM initiative (2020). This work was funded by the Spanish State Secretariat for Digitalization and Artificial
Intelligence (SEDIA) within the framework of the Plan-TL.},
   author = {Asier Gutiérrez Fandiño and Jordi Armengol Estapé and Marc Pàmies and Joan Llop Palao and Joaquin Silveira Ocampo and Casimiro Pio Carrino and Carme Armentano Oller and Carlos Rodriguez Penagos and Aitor Gonzalez Agirre and Marta Villegas},
   doi = {10.26342/2022-68-3},
   issn = {1135-5948},
   journal = {Procesamiento del Lenguaje Natural},
   keywords = {Artificial intelligence,Benchmarking,Data processing.,MarIA,Natural language processing,Spanish language modelling,Spanish language resources,Tractament del llenguatge natural (Informàtica),Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Llenguatge natural},
   publisher = {Sociedad Española para el Procesamiento del Lenguaje Natural},
   title = {MarIA: Spanish Language Models},
   volume = {68},
   url = {https://upcommons.upc.edu/handle/2117/367156#.YyMTB4X9A-0.mendeley},
   year = {2022},
}