roberta-base-ca-v2-cased-qa开源问答模型 - 加泰罗尼亚语问答好帮手

首页

Roberta Base Ca V2 Cased Qa

由 projecte-aina 开发

基于RoBERTa架构的加泰罗尼亚语问答模型，在加泰罗尼亚语问答任务上表现优异

问答系统

Transformers

其他开源协议:Apache-2.0 #加泰罗尼亚语问答 #高F1分数 #抽取式问答

下载量 208

发布时间 : 6/30/2022

模型简介

该模型是基于roberta-base-ca-v2微调的加泰罗尼亚语问答模型，专门用于抽取式问答任务。

模型特点

加泰罗尼亚语优化

专门针对加泰罗尼亚语进行训练和优化

高性能问答

在加泰罗尼亚语问答任务上达到89.5的F1分数

基于RoBERTa架构

采用强大的RoBERTa架构作为基础模型

模型能力

加泰罗尼亚语问答

文本理解

上下文提取

使用案例

教育

教育问答系统

构建加泰罗尼亚语教育问答系统

客户服务

加泰罗尼亚语客服机器人

用于处理加泰罗尼亚语客户的常见问题

🚀 加泰罗尼亚语问答模型roberta-base-ca-v2-cased-qa

本项目的roberta-base-ca-v2-cased-qa模型是针对加泰罗尼亚语的问答模型，它基于预训练模型微调而来，能有效处理加泰罗尼亚语的问答任务，为加泰罗尼亚语的自然语言处理提供了有力支持。

🚀 快速开始

以下是使用该模型的示例代码：

from transformers import pipeline

nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
  
qa_results = nlp(text, context)
print(qa_results)

✨ 主要特性

针对性微调：该模型是从 roberta-base-ca-v2 模型微调而来，专门针对加泰罗尼亚语的问答任务进行优化。
多数据集验证：在 CatalanQA 和 XQuAD-ca 等数据集上进行训练和评估，确保模型的有效性。

📦 安装指南

文档中未提及具体安装步骤，可参考 Hugging Face 官方文档进行模型的安装。

💻 使用示例

基础用法

from transformers import pipeline

nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
  
qa_results = nlp(text, context)
print(qa_results)

📚 详细文档

模型描述

roberta-base-ca-v2-cased-qa 是一个用于加泰罗尼亚语的问答（QA）模型，它基于 roberta-base-ca-v2 模型进行微调。而 roberta-base-ca-v2 是一个 RoBERTa 基础模型，它在一个从中等规模的公开语料库和网络爬虫收集的数据上进行了预训练（更多细节可查看 roberta-base-ca-v2 模型卡片）。

预期用途和限制

roberta-base-ca-v2-cased-qa 模型可用于抽取式问答任务。不过，该模型受其训练数据集的限制，可能无法在所有用例中都有良好的泛化能力。

局限性和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。但我们深知，由于语料库是通过在多个网络源上使用爬虫技术收集的，我们的模型可能存在偏差。我们计划在未来对这些领域进行研究，如果研究完成，此模型卡片将进行更新。

训练

训练数据

我们使用了名为 CatalanQA 的加泰罗尼亚语问答数据集进行训练和评估，并使用 XQuAD-ca 测试集进行评估。

训练过程

该模型以 16 的批量大小和 5e-5 的学习率训练了 5 个周期。然后，我们使用相应开发集中的下游任务指标选择了最佳检查点，并在测试集上进行了评估。

评估

变量和指标

该模型在微调时最大化了 F1 分数。

评估结果

我们在 CatalanQA 和 XQuAD-ca 测试集上，将 roberta-base-ca-v2-cased-qa 与标准的多语言和单语言基线模型进行了评估：

模型	CatalanQA (F1/EM)	XQuAD-Ca (F1/EM)
roberta-base-ca-v2-cased-qa	89.50/76.63	73.64/55.42
roberta-base-ca-cased-qa	89.17/77.14	69.20/51.47
mBERT	86.90/74.19	68.79/50.80
XLM-RoBERTa	88.17/75.93	72.55/54.16

更多详细信息，请查看官方 GitHub 仓库中的微调与评估脚本。

额外信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需更多信息，请发送电子邮件至 aina@bsc.es

版权

许可信息

Apache 许可证，版本 2.0

资金支持

这项工作由 [加泰罗尼亚政府副主席兼数字和领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架内资助。

引用信息

如果您在工作中使用了这些资源（数据集或模型），请引用我们的最新论文：

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}