🚀 热尔瓦西奥 7B PTPT
热尔瓦西奥 7B PTPT 是一款面向葡萄牙语的完全开源的解码器模型。它基于 Transformer 架构,在 LLaMA-2 7B 模型基础上开发,有针对葡萄牙欧洲变体和巴西变体的不同版本,且所有版本都在开放许可下免费分发,可在消费级硬件上运行。
🚀 快速开始
你可以使用以下代码直接调用该模型进行因果语言建模:
>>> from transformers import pipeline
>>> generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
>>> generator("A comida portuguesa é", max_new_tokens=10)
✨ 主要特性
- 完全开源:热尔瓦西奥 PT* 是面向葡萄牙语的完全开源解码器。
- 多版本适配:有针对葡萄牙欧洲变体和巴西变体的不同版本。
- 免费分发:所有版本都在开放许可下免费分发,可用于研究和商业目的。
- 硬件友好:由于模型规模,可在消费级硬件上运行。
📦 安装指南
文档未提供安装步骤,故跳过该章节。
💻 使用示例
基础用法
# 直接使用管道进行因果语言建模
from transformers import pipeline
generator = pipeline(model='PORTULAN/gervasio-7b-portuguese-ptpt-decoder')
generator("A comida portuguesa é", max_new_tokens=10)
📚 详细文档
模型描述
此模型卡针对热尔瓦西奥 7B PTPT,拥有 70 亿参数,隐藏层大小为 4096 个单元,中间层大小为 11008 个单元,32 个注意力头,32 个隐藏层,分词器使用 SentencePiece 实现的字节对编码(BPE)算法,词汇量为 32000。该模型根据 MIT 许可证 分发。
训练数据
热尔瓦西奥 7B PTPT 在标准监督微调下进行训练,为了与英语主流基准保持一定对齐,采用了 GLUE 和 SuperGLUE 集合中的任务和相应数据集。从 GLUE 中选取了 MRPC(释义检测)、RTE(文本蕴含识别)、STS - B(语义文本相似度)、WNLI(共指和自然语言推理)四个任务;从 SuperGLUE 中选取了 BoolQ(是/否问答)、CB(三标签推理)、COPA(推理)、MultiRC(问答)四个任务。这些数据集被机器翻译成欧洲葡萄牙语,并来自 extraGLUE 数据集。此外,还为每个任务手动制作了指令模板,收集到 extraGLUE - instruct 数据集中。同时,采用了数据增强技术来扩大和丰富数据集。
训练细节
在微调过程中,应用了带有因果语言建模训练目标的监督微调,并采用了归零技术。具体而言,在微调期间整个提示都会被关注,但只有响应令牌会进行反向传播。在超参数方面,模型以 2 * 10^-5 的学习率、0.1 的权重衰减进行训练,采用两周期无热身训练制度。为确保每一步反向传播的令牌数量相同,使用了 512 个令牌的输入序列,批量大小为 16,累积步数为 16。由于硬件限制,输入序列长度为 512(基础模型为 4096),因此每个示例单独占用完整的输入序列长度。
性能
在测试中,保留了来自 GLUE 的翻译数据集 MRPC(相似度)和 RTE(推理),以及来自 SuperGLUE 的 COPA(推理/问答),这些数据集在训练期间未被使用。具体性能指标如下:
模型 |
MRPC (F1) |
RTE (F1) |
COPA (F1) |
热尔瓦西奥 7B PTPT |
0.7273 |
0.8291 |
0.5459 |
LLaMA - 2 (英语) |
0.0328 |
0.0482 |
0.3844 |
LLaMA - 2 Chat (英语) |
0.5703 |
0.4697 |
0.4737 |
🔧 技术细节
热尔瓦西奥 7B PTPT 是 LLaMA 家族的解码器,基于 Transformer 神经架构,在 LLaMA - 2 7B 模型基础上开发。通过额外训练进一步改进,使用了专门为葡萄牙语准备的新指令数据集。
📄 许可证
热尔瓦西奥 7B PTPT 根据 MIT 许可证 分发。
引用信息
请在使用或引用此模型时使用以下规范引用:
@misc{gervasio,
title={Advancing Generative AI for Portuguese with
Open Decoder Gervásio PT-*},
author={Rodrigo Santos, João Silva, Luís Gomes,
João Rodrigues, António Branco},
year={2024},
eprint={2402.18766},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
致谢
本研究部分得到以下机构支持:
- PORTULAN CLARIN — 语言科学与技术研究基础设施,由 Lisboa 2020、Alentejo 2020 和 FCT — Fundação para a Ciência e Tecnologia 资助,资助编号 PINFRA/22117/2016。
- 研究项目 GPT - PT - 基于 Transformer 的葡萄牙语解码器,由 FCT — Fundação para a Ciência e Tecnologia 资助,资助编号 CPCA - IAC/AV/478395/2022。
- 创新项目 ACCELERAT.AI - 多语言智能客服中心,由 IAPMEI, I.P. - Agência para a Competitividade e Inovação 资助,资助编号 C625734525 - 00462629,属于 Plano de Recuperação e Resiliência 项目,招标编号 RE - C05 - i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização。