🚀 加泰罗尼亚语BERTa(roberta-base-ca)针对文本蕴含任务微调模型
本模型是基于RoBERTa架构,针对加泰罗尼亚语的文本蕴含(Textual Entailment)任务进行微调的模型,能有效识别加泰罗尼亚语文本之间的蕴含关系。
🚀 快速开始
如何使用
以下是使用该模型的示例代码:
from transformers import pipeline
from pprint import pprint
nlp = pipeline("text-classification", model="projecte-aina/roberta-base-ca-cased-te")
example = "M'agrada el sol i la calor. </s></s> A la Garrotxa plou molt."
te_results = nlp(example)
pprint(te_results)
✨ 主要特性
- 针对性微调:从roberta-base-ca模型微调而来,专门用于加泰罗尼亚语的文本蕴含任务。
- 基于公开语料:预训练模型基于公开可用语料库和爬虫收集的中等规模语料进行训练。
📚 详细文档
模型描述
roberta-base-ca-cased-te 是一个用于加泰罗尼亚语的文本蕴含(TE)模型,它是从roberta-base-ca模型微调而来,而roberta-base-ca是一个基于 RoBERTa 架构的基础模型,在从公开可用语料库和爬虫收集的中等规模语料上进行了预训练。
预期用途和限制
- 预期用途:该模型可用于识别加泰罗尼亚语文本之间的蕴含关系。
- 限制:模型受其训练数据集的限制,可能无法在所有用例中都有良好的泛化能力。
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。然而,我们深知由于语料是通过在多个网络源上进行爬虫收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果完成研究,此模型卡片将进行更新。
训练
训练数据
我们使用了加泰罗尼亚语的文本蕴含数据集 TE-ca 进行训练和评估。
训练过程
模型以16的批量大小和5e-5的学习率进行了5个epoch的训练。然后,我们使用相应开发集上的下游任务指标选择了最佳检查点,并在测试集上进行了评估。
评估
变量和指标
该模型在微调过程中最大化了准确率。
评估结果
我们在TE-ca测试集上针对标准多语言和单语言基线对roberta-base-ca-cased-te进行了评估:
模型 |
TE-ca(准确率) |
BERTa |
79.12 |
mBERT |
74.78 |
XLM-RoBERTa |
75.44 |
更多详细信息,请查看官方 GitHub仓库 中的微调与评估脚本。
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至aina@bsc.es
版权
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache许可证,版本2.0
资金支持
这项工作由 [加泰罗尼亚政府副主席兼数字政策与领土部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 在 AINA项目 的框架内资助。
引用信息
如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)向其他方部署或提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型所产生的风险并在任何情况下遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果承担责任。
📄 许可证
本项目采用 Apache许可证,版本2.0 进行许可。