模型简介
模型特点
模型能力
使用案例
🚀 BERTa:基于RoBERTa的加泰罗尼亚语模型
BERTa是一个基于Transformer的加泰罗尼亚语掩码语言模型。它基于RoBERTa基础模型,在从公开可用语料库和网络爬虫收集的中等规模语料库上进行了训练。
🚀 快速开始
加载模型和分词器
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
model = AutoModelForMaskedLM.from_pretrained("PlanTL-GOB-ES/roberta-base-ca-cased")
填充掩码任务
以下是一个如何使用管道进行掩码语言建模任务的示例。
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/roberta-base-ca-cased')
>>> unmasker("Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.")
[
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.4177263379096985,
"token": 734,
"token_str": " Barcelona"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.10696165263652802,
"token": 3849,
"token_str": " Badalona"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.08135009557008743,
"token": 19349,
"token_str": " Collserola"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.07330769300460815,
"token": 4974,
"token_str": " Terrassa"
},
{
"sequence": " Situada a la costa de la mar Mediterrània, <mask> s'assenta en una plana formada "
"entre els deltes de les desembocadures dels rius Llobregat, al sud-oest, "
"i Besòs, al nord-est, i limitada pel sud-est per la línia de costa,"
"i pel nord-oest per la serralada de Collserola "
"(amb el cim del Tibidabo, 516,2 m, com a punt més alt) que segueix paral·lela "
"la línia de costa encaixant la ciutat en un perímetre molt definit.",
"score": 0.03317456692457199,
"token": 14333,
"token_str": " Gavà"
}
]
✨ 主要特性
- 基于RoBERTa架构,专为加泰罗尼亚语设计。
- 可直接用于掩码语言建模任务,如填充掩码。
- 适合在问答、文本分类或命名实体识别等非生成下游任务上进行微调。
📦 安装指南
文档未提及安装步骤,可参考Hugging Face Transformers库的安装方法。
📚 详细文档
预期用途和限制
该模型仅适用于掩码语言建模,以执行填充掩码任务(可尝试推理API或阅读下一部分)。不过,它旨在在问答、文本分类或命名实体识别等非生成下游任务上进行微调。
限制和偏差
文档未详细提及模型的限制和偏差。
训练
训练语料库和预处理
训练语料库由从网络爬虫和公共语料库收集的多个语料库组成。 公开可用的语料库包括:
- DOGC语料库的加泰罗尼亚语部分,这是加泰罗尼亚政府官方公报的一组文档。
- 加泰罗尼亚语开放字幕,这是一组翻译的电影字幕。
- OSCAR语料库加泰罗尼亚语部分的未打乱版本,这是从Common Crawl过滤的单语语料库集合。
- CaWac语料库,这是一个基于.cat顶级域名在2013年末构建的加泰罗尼亚语网络语料库(未去重版本)。
- 2020年8月18日下载的加泰罗尼亚语维基百科文章。
爬取的语料库包括: 6. 加泰罗尼亚语通用爬取语料库,通过爬取500个最受欢迎的.cat和.ad域名获得。 7. 加泰罗尼亚政府爬取语料库,通过爬取属于加泰罗尼亚政府的.gencat域名及其子域名获得。 8. ACN语料库,包含2015年3月至2020年10月来自加泰罗尼亚新闻社的220k条新闻。
为了获得高质量的训练语料库,每个语料库都经过了一系列操作的预处理,包括句子分割、语言检测、过滤格式错误的句子和去重重复内容。在这个过程中,文档边界被保留。最后,将语料库连接起来,并在语料库之间进行进一步的全局去重。最终的训练语料库约包含18亿个标记。
分词和预训练
训练语料库使用了原始RoBERTA模型中使用的字节对编码(BPE)的字节版本进行分词,词汇表大小为52,000个标记。
BERTa的预训练包括一个掩码语言模型训练,采用了与RoBERTa基础模型相同的方法和超参数。
训练使用16个16GB DDRAM的NVIDIA V100 GPU,总共持续了48小时。
评估
CLUB基准测试
BERTa模型在加泰罗尼亚语理解评估基准(CLUB)的下游任务上进行了微调,该基准是与模型一起创建的。 它包含以下任务及其相关数据集:
- 词性标注(POS):加泰罗尼亚语Ancora数据集,来自著名的Ancora语料库的通用依赖树库。
- 命名实体识别(NER):AnCora加泰罗尼亚语2.0.0,从原始Ancora版本中提取命名实体,过滤掉一些非常规的实体(如书籍标题),并将它们转录为标准的CONLL-IOB格式。
- 文本分类(TC):TeCla,由来自加泰罗尼亚新闻社(ACN)语料库的137k条新闻组成。
- 语义文本相似度(STS):加泰罗尼亚语语义文本相似度,由3000多个句子对组成,标注了它们之间的语义相似度,从加泰罗尼亚语文本语料库中抓取。
- 问答(QA):
以下是数据集的训练/开发/测试分割:
任务(数据集) | 总数 | 训练集 | 开发集 | 测试集 |
---|---|---|---|---|
NER(Ancora) | 13,581 | 10,628 | 1,427 | 1,526 |
POS(Ancora) | 16,678 | 13,123 | 1,709 | 1,846 |
STS | 3,073 | 2,073 | 500 | 500 |
TC(TeCla) | 137,775 | 110,203 | 13,786 | 13,786 |
QA(ViquiQuAD) | 14,239 | 11,255 | 1,492 | 1,429 |
下游任务的微调使用了HuggingFace的Transformers库。
结果
以下是BERTa模型在CLUB任务上的评估结果,与多语言mBERT、XLM-RoBERTa模型和加泰罗尼亚语WikiBERT-ca模型进行了比较:
任务 | NER(F1) | POS(F1) | STS(皮尔逊相关系数) | TC(准确率) | QA(ViquiQuAD)(F1/EM) | QA(XQuAD)(F1/EM) |
---|---|---|---|---|---|---|
BERTa | 88.13 | 98.97 | 79.73 | 74.16 | 86.97/72.29 | 68.89/48.87 |
mBERT | 86.38 | 98.82 | 76.34 | 70.56 | 86.97/72.22 | 67.15/46.51 |
XLM-RoBERTa | 87.66 | 98.89 | 75.40 | 71.68 | 85.50/70.47 | 67.10/46.42 |
WikiBERT-ca | 77.66 | 97.60 | 77.18 | 73.22 | 85.45/70.75 | 65.21/36.60 |
🔧 技术细节
- 模型架构:基于RoBERTA架构,针对加泰罗尼亚语进行优化。
- 训练数据:由多个公开语料库和爬取的语料库组成,经过预处理和去重。
- 分词方法:使用字节对编码(BPE),词汇表大小为52,000。
- 训练硬件:16个NVIDIA V100 GPU。
📄 许可证
本模型采用Apache许可证2.0版。
🔗 附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需进一步信息,请发送电子邮件至plantl-gob-es@bsc.es
版权
版权归西班牙数字化和人工智能国务秘书处(SEDIA)所有(2022年)
引用信息
如果您使用此模型,请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者(SEDIA - 数字化和人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。



