🚀 加泰罗尼亚语问答模型roberta-base-ca-v2-cased-qa
本项目的roberta-base-ca-v2-cased-qa模型是针对加泰罗尼亚语的问答模型,它基于预训练模型微调而来,能有效处理加泰罗尼亚语的问答任务,为加泰罗尼亚语的自然语言处理提供了有力支持。
🚀 快速开始
以下是使用该模型的示例代码:
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
qa_results = nlp(text, context)
print(qa_results)
✨ 主要特性
📦 安装指南
文档中未提及具体安装步骤,可参考 Hugging Face 官方文档进行模型的安装。
💻 使用示例
基础用法
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Quan va començar el Super3?"
context = "El Super3 o Club Super3 és un univers infantil català creat a partir d'un programa emès per Televisió de Catalunya des del 1991. Està format per un canal de televisió, la revista Súpers!, la Festa dels Súpers i un club que té un milió i mig de socis."
qa_results = nlp(text, context)
print(qa_results)
📚 详细文档
模型描述
roberta-base-ca-v2-cased-qa 是一个用于加泰罗尼亚语的问答(QA)模型,它基于 roberta-base-ca-v2 模型进行微调。而 roberta-base-ca-v2 是一个 RoBERTa 基础模型,它在一个从中等规模的公开语料库和网络爬虫收集的数据上进行了预训练(更多细节可查看 roberta-base-ca-v2 模型卡片)。
预期用途和限制
roberta-base-ca-v2-cased-qa 模型可用于抽取式问答任务。不过,该模型受其训练数据集的限制,可能无法在所有用例中都有良好的泛化能力。
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。但我们深知,由于语料库是通过在多个网络源上使用爬虫技术收集的,我们的模型可能存在偏差。我们计划在未来对这些领域进行研究,如果研究完成,此模型卡片将进行更新。
训练
训练数据
我们使用了名为 CatalanQA 的加泰罗尼亚语问答数据集进行训练和评估,并使用 XQuAD-ca 测试集进行评估。
训练过程
该模型以 16 的批量大小和 5e-5 的学习率训练了 5 个周期。然后,我们使用相应开发集中的下游任务指标选择了最佳检查点,并在测试集上进行了评估。
评估
变量和指标
该模型在微调时最大化了 F1 分数。
评估结果
我们在 CatalanQA 和 XQuAD-ca 测试集上,将 roberta-base-ca-v2-cased-qa 与标准的多语言和单语言基线模型进行了评估:
模型 |
CatalanQA (F1/EM) |
XQuAD-Ca (F1/EM) |
roberta-base-ca-v2-cased-qa |
89.50/76.63 |
73.64/55.42 |
roberta-base-ca-cased-qa |
89.17/77.14 |
69.20/51.47 |
mBERT |
86.90/74.19 |
68.79/50.80 |
XLM-RoBERTa |
88.17/75.93 |
72.55/54.16 |
更多详细信息,请查看官方 GitHub 仓库 中的微调与评估脚本。
额外信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至 aina@bsc.es
版权
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache 许可证,版本 2.0
资金支持
这项工作由 [加泰罗尼亚政府副主席兼数字和领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 Projecte AINA 框架内资助。
引用信息
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型所产生的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。