🚀 Poro 34B模型卡片
Poro是一个拥有340亿参数的仅解码器变压器模型,在芬兰语、英语和代码数据上进行了预训练。它在1万亿个标记上进行训练,是一个完全开源的模型,遵循Apache 2.0许可证。
Poro由来自Silo AI的SiloGen、图尔库大学的TurkuNLP团队以及高性能语言技术(HPLT)合作创建。训练在LUMI超级计算机上进行,使用了芬兰CSC - 科学信息技术中心慷慨提供的计算资源。
本项目是为非英语语言(尤其是像芬兰语这样的低资源语言)创建开源大语言模型的持续努力的一部分。通过结合英语和芬兰语训练数据,我们得到了一个性能优于以往仅针对芬兰语的模型,同时它还能流畅使用英语和代码,并具备英语和芬兰语之间的基本翻译能力。
Poro 34B只是我们模型家族的第一个模型。我们已经在着手开发下一批模型,这些模型将支持更多语言,并包含诸如快速注意力机制、旋转嵌入和分组查询注意力等特性。
“Poro”是什么意思呢? “Poro”在芬兰语中是“驯鹿”的意思! 🦌 这些动物原产于芬兰,在芬兰文化中具有重要的历史地位。
🚀 快速开始
模型概述
⚠️ 重要提示
除了作为早期研究版本发布外,Poro是一个基础模型,对于大多数用例而言,它需要进一步微调。
Poro是一个使用BLOOM架构的生成式预训练变压器模型,并利用ALiBi嵌入来支持推理时的上下文长度外推。
属性 |
详情 |
模型类型 |
基于BLOOM架构的生成式预训练变压器模型 |
训练数据 |
芬兰语、英语和代码的混合数据集,共1万亿标记 |
参数量 |
342亿 |
层数 |
54 |
头数 |
56 |
模型维度 |
7168 |
词表大小 |
128000 |
序列长度 |
2048 |
模型检查点
检查点以分支的形式在仓库中提供,大约每1000亿标记发布一次检查点。主分支将始终指向最新的检查点。以下是可用的检查点:
可以使用transformers
库从分支加载检查点,示例代码如下:
branch = "200B"
model = transformers.AutoModelForCausalLM.from_pretrained(
"LumiOpen/Poro-34B",
torch_dtype=torch.bfloat16,
revision=branch,
)
训练信息
Poro于2023年9月开始在LUMI超级计算机上进行训练,使用了512个AMD MI250X GPU。每个MI250X GPU有两个图形复合芯片(GCD),训练时的全局大小为1024。训练采用了激活检查点、微批次大小为1、梯度累积为16,以及TP = 2、PP = 4、DP = 128的3D并行策略。
训练使用了Megatron - Deepspeed框架的自定义分支,我们的代码可在此处获取。
训练超参数
超参数 |
值 |
注释 |
精度 |
bfloat16 |
|
优化器 |
AdamW |
|
学习率 |
1.5e - 4 |
100亿标记热身,余弦衰减至2e - 5 |
权重衰减 |
1e - 1 |
|
批次大小 |
2048 |
2048个样本x 2048个标记 = 4194304个标记 |
分词器
Poro使用了一个自定义的128K Bloom分词器,该分词器在与模型训练相同的英语、芬兰语和代码数据集上进行训练。
数据集
Poro在一个包含1万亿标记的英语、芬兰语和代码混合数据集上进行训练。
数据集 |
说明 |
百分比 |
轮数 |
标记数 |
SlimPajama |
不包括books3数据 |
54.16% |
1x |
5417亿 |
芬兰语 |
TurkuNLP芬兰语数据集 |
13.05% |
4x |
1315亿 |
Tatoeba |
英语/芬兰语句子对 |
0.81% |
1x |
80亿 |
Starcoder |
|
31.53% |
1.52x |
3154亿 |
Project Gutenberg |
来自Dolma数据集 |
0.46% |
1x |
45亿 |
芬兰语数据集由多个芬兰语资源组合而成:
评估结果
每个检查点的完整评估结果可在我们的Github仓库中查看。
伦理考量和局限性
⚠️ 重要提示
Poro是一个先进的语言模型,主要针对英语、芬兰语和代码进行优化,对其他语言没有有意义的熟练度。与大多数人工智能驱动的系统一样,Poro是基于其训练的大量数据的产物,这些数据可能反映了更广泛网络中的不完美、偏差和特性。Poro有时可能会产生被认为不准确、有偏见或有争议的输出。使用和开发Poro的用户和开发者应谨慎行事,并考虑进行额外的评估和定制,以确保模型的响应符合他们的特定需求和道德标准。
许可证
Poro遵循Apache 2.0许可证发布。
引用
@misc{luukkonen2024poro,
title={Poro 34B and the Blessing of Multilinguality},
author={Risto Luukkonen and Jonathan Burdge and Elaine Zosa and Aarne
Talman and Ville Komulainen and Väinö Hatanpää and Peter Sarlin and Sampo
Pyysalo},
year={2024},
eprint={2404.01856},
archivePrefix={arXiv},
primaryClass={cs.CL}
}