🚀 热尔瓦西奥 7B PTBR 解码器
热尔瓦西奥 7B PTBR 是一款面向葡萄牙语的全开源解码器。它基于 Transformer 架构,在 LLaMA-2 7B 模型基础上开发而来,可在消费级硬件上运行,适用于研究和商业用途。
🚀 快速开始
你可以直接使用以下代码通过因果语言建模管道来使用该模型:
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
✨ 主要特性
- 全开源:热尔瓦西奥 PT* 是面向葡萄牙语的全开源解码器。
- 多版本支持:有针对葡萄牙欧洲变体和巴西美洲变体的不同版本。
- 免费使用:所有版本均在开放许可证下免费分发,可用于研究和商业目的。
- 硬件友好:由于模型规模,可在消费级硬件上运行。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptbr-decoder')
>>> generator("A música brasileira é", max_new_tokens=10)
📚 详细文档
模型描述
本模型卡片针对热尔瓦西奥 7B PTBR,它有 70 亿个参数,隐藏层大小为 4096 个单元,中间层大小为 11008 个单元,32 个注意力头,32 个隐藏层,分词器使用 SentencePiece 实现的字节对编码(BPE)算法,词汇量为 32000。该模型根据 MIT 许可证 分发。
训练数据
热尔瓦西奥 7B PTBR 通过标准的监督微调进行训练。为了与英语主流基准保持一定的一致性,采用了 GLUE 和 SuperGLUE 集合中的任务和相应数据集。从 GLUE 中选取了 MRPC(释义检测)、RTE(文本蕴含识别)、STS - B(语义文本相似度)、WNLI(共指和自然语言推理);从 SuperGLUE 中选取了 BoolQ(是非问答)、CB(三标签推理)、COPA(推理)、MultiRC(问答)。这些数据集被机器翻译成巴西葡萄牙语,并结合 extraGLUE 数据集。此外,还为每个任务手动制作了指令模板,并收集到 extraGLUE - instruct 数据集中。同时,采用了数据增强技术,如从 MultiRC 生成答案、从 BoolQ 生成问题等。
训练细节
在微调过程中,应用了监督微调,以因果语言建模为训练目标,并采用了零输出技术。具体来说,在微调时整个提示都会被关注,但只有响应令牌会进行反向传播。超参数方面,模型以 2 * 10^-5 的学习率、0.1 的权重衰减进行训练,训练两个周期且无预热。为确保每步反向传播的令牌数量相同,采用 512 个令牌的输入序列,批量大小为 16,累积步数为 16。由于硬件限制,输入序列长度为 512(基础模型为 4096),每个示例单独占用完整的输入序列长度。
性能
测试时,预留了 GLUE 中的 MRPC(相似度)和 RTE(推理)、SuperGLUE 中的 COPA(推理/问答)作为代表三种主要任务类型的数据集,且这些数据集在训练时未使用。
模型 |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
热尔瓦西奥 7B PTBR |
0.7822 |
0.8321 |
0.2134 |
LLaMA - 2 (英语) |
0.0369 |
0.0516 |
0.4867 |
LLaMA - 2 Chat (英语) |
0.5432 |
0.3807 |
0.5493 |
此外,还使用了原本基于葡萄牙语文本开发的数据集进行测试,如 ASSIN2 RTE(蕴含)、ASSIN2 STS(相似度)、BLUEX(问答)、ENEM 2022(问答)和 FaQuAD(抽取式问答)。
模型 |
ENEM 2022 (准确率) |
BLUEX (准确率) |
RTE (F1) |
STS (皮尔逊系数) |
热尔瓦西奥 7B PTBR |
0.1977 |
0.2640 |
0.7469 |
0.2136 |
LLaMA - 2 (英语) |
0.2458 |
0.2903 |
0.0913 |
0.1034 |
LLaMA - 2 Chat (英语) |
0.2231 |
0.2959 |
0.5546 |
0.1750 |
与同维度的其他解码器相比,热尔瓦西奥在巴西葡萄牙语任务上表现出色或具有竞争力,并且是葡萄牙语欧洲变体 1.5B 维度的唯一编码器。更多评估数据可参考 相关出版物。
🔧 技术细节
训练目标和技术
应用监督微调,以因果语言建模为训练目标,采用零输出技术。微调时整个提示被关注,但仅响应令牌进行反向传播。
超参数设置
学习率为 2 * 10^-5,权重衰减为 0.1,训练两个周期无预热。输入序列 512 个令牌,批量大小 16,累积步数 16。
数据处理
因硬件限制,输入序列长度为 512(基础模型 4096),每个示例单独占用完整输入序列长度。
📄 许可证
该模型根据 MIT 许可证 分发。
引用信息
如需使用或引用此模型,请使用以下规范引用:
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}