🚀 Albertina 100M PTBR
Albertina 100M PTBR 是一款面向巴西美式葡萄牙语的基础大语言模型。它属于BERT家族的编码器,基于Transformer神经架构,在DeBERTa模型的基础上开发,在该语言领域具有极具竞争力的性能。此模型免费分发,并遵循宽松的许可协议。
✨ 主要特性
- 先进架构:基于Transformer架构和DeBERTa模型开发,性能出色。
- 数据优质:在经过精心筛选的大量文档上进行训练,数据质量高。
- 许可宽松:遵循MIT许可协议,方便使用和传播。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='PORTULAN/albertina-ptbr-base')
>>> unmasker("A culinária brasileira é rica em sabores e [MASK], tornando-se um dos maiores patrimônios do país.")
[{'score': 0.9391396045684814, 'token': 14690, 'token_str': ' costumes', 'sequence': 'A culinária brasileira é rica em sabores e costumes, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.04568921774625778, 'token': 29829, 'token_str': ' cores', 'sequence': 'A culinária brasileira é rica em sabores e cores, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.004134135786443949, 'token': 6696, 'token_str': ' drinks', 'sequence': 'A culinária brasileira é rica em sabores e drinks, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0009097770671360195, 'token': 33455, 'token_str': ' nuances', 'sequence': 'A culinária brasileira é rica em sabores e nuances, tornando-se um dos maiores patrimônios do país.'},
{'score': 0.0008549498743377626, 'token': 606, 'token_str': ' comes', 'sequence': 'A culinária brasileira é rica em sabores e comes, tornando-se um dos maiores patrimônios do país.'}]
高级用法
>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
>>> from datasets import load_dataset
>>> model = AutoModelForSequenceClassification.from_pretrained("PORTULAN/albertina-ptbr-base", num_labels=2)
>>> tokenizer = AutoTokenizer.from_pretrained("PORTULAN/albertina-ptbr-base")
>>> dataset = load_dataset("PORTULAN/glue-ptpt", "rte")
>>> def tokenize_function(examples):
... return tokenizer(examples["sentence1"], examples["sentence2"], padding="max_length", truncation=True)
>>> tokenized_datasets = dataset.map(tokenize_function, batched=True)
>>> training_args = TrainingArguments(output_dir="albertina-ptpt-rte", evaluation_strategy="epoch")
>>> trainer = Trainer(
... model=model,
... args=training_args,
... train_dataset=tokenized_datasets["train"],
... eval_dataset=tokenized_datasets["validation"],
... )
>>> trainer.train()
📚 详细文档
模型描述
本模型卡片介绍的是 Albertina 100M PTBR,该模型拥有1亿个参数、12层结构,隐藏层大小为768。
Albertina-PT-BR base 遵循 MIT许可协议 进行分发。
DeBERTa 遵循 MIT许可协议。
训练数据
Albertina P100M PTBR 是在从 OSCAR 数据集中精心挑选的37亿个标记的文档上进行训练的。
OSCAR数据集包含了一百多种语言的文档,其中包括葡萄牙语,并且在相关文献中被广泛使用。它是对 Common Crawl 数据集进行筛选的结果,该数据集是从网络上爬取而来的,只保留了元数据表明允许爬取的页面,进行了去重处理,并去除了一些样板内容等。
由于OSCAR数据集没有区分葡萄牙语的不同变体,我们进行了额外的过滤,只保留元数据表明互联网国家代码顶级域为巴西的文档。我们使用的是2023年1月版本的OSCAR,它基于2022年11月/12月版本的Common Crawl。
预处理
我们使用 BLOOM预处理 管道对巴西葡萄牙语语料库进行了过滤。我们跳过了默认的停用词过滤,因为这会破坏句法结构,同时也跳过了语言识别过滤,因为语料库已经预先选择为葡萄牙语。
训练
作为代码库,我们采用了适用于英语的 DeBERTa V1 base。
为了训练 Albertina 100M PTBR,我们使用原始的DeBERTa分词器对数据集进行分词,截断序列长度为128个标记,并进行动态填充。
该模型在训练时使用了最大可用内存容量,批量大小为3072个样本(每个GPU 192个样本)。我们选择了1e - 5的学习率,并采用线性衰减和10000步的热身步骤。模型总共训练了150个训练周期,大约进行了180000步。
该模型在配备16个GPU、96个vCPU和1360GB内存的Google Cloud A2 VMs(a2 - megagpu - 16gb)上训练了一天。
评估
基础模型版本在下游任务上进行了评估,具体是对广泛使用的 GLUE基准测试 中部分任务所使用的英语数据集进行巴西葡萄牙语翻译后的数据集。
GLUE任务翻译
我们采用了 PLUE(葡萄牙语语言理解评估),这是一个通过将GLUE自动翻译成 巴西葡萄牙语 而获得的数据集。我们处理了PLUE中的四个任务,具体如下:
- 两个相似度任务:MRPC(用于检测两个句子是否互为释义)和STS - B(用于语义文本相似度)。
- 两个推理任务:RTE(用于识别文本蕴含关系)和WNLI(用于共指和自然语言推理)。
模型 |
RTE(准确率) |
WNLI(准确率) |
MRPC(F1值) |
STS - B(皮尔逊系数) |
Albertina 900M PTBR No - brWaC |
0.7798 |
0.5070 |
0.9167 |
0.8743 |
Albertina 900M PTBR |
0.7545 |
0.4601 |
0.9071 |
0.8910 |
Albertina 100M PTBR |
0.6462 |
0.5493 |
0.8779 |
0.8501 |
🔧 技术细节
文档未提供足够详细的技术实现细节,暂不提供。
📄 许可证
Albertina-PT-BR base 遵循 MIT许可协议 进行分发。DeBERTa 遵循 MIT许可协议。
📚 相关引用
当使用或引用此模型时,请使用以下规范引用:
@misc{albertina-pt-fostering,
title={Fostering the Ecosystem of Open Neural Encoders
for Portuguese with Albertina PT-* family},
author={Rodrigo Santos and João Rodrigues and Luís Gomes
and João Silva and António Branco
and Henrique Lopes Cardoso and Tomás Freitas Osório
and Bernardo Leite},
year={2024},
eprint={2403.01897},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🙏 致谢
本文所报告的研究部分得到了以下机构的支持:
- PORTULAN CLARIN — 语言科学与技术研究基础设施,由Lisboa 2020、Alentejo 2020和FCT — 科学技术基金会根据PINFRA/22117/2016资助。
- 研究项目ALBERTINA - 葡萄牙语基础编码器模型与人工智能,由FCT — 科学技术基金会根据CPCA - IAC/AV/478394/2022资助。
- 创新项目ACCELERAT.AI - 多语言智能客服中心,由IAPMEI,I.P. - 竞争力与创新局根据Plano de Recuperação e Resiliência的RE - C05 - i01.01 — 再工业化动员议程/联盟的C625734525 - 00462629资助。
- LIACC - 人工智能与计算机科学实验室,由FCT — 科学技术基金会根据FCT/UID/CEC/0027/2020资助。
模型家族