Poro-34B多语言大模型开源 - 免费处理芬兰语、英语及代码

首页

Poro 34B

由 LumiOpen 开发

Poro是一个340亿参数的多语言大模型，专注于芬兰语、英语和代码处理，采用Apache 2.0许可证开源。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #芬兰语优化 #多语言代码生成 #万亿标记训练

下载量 1,908

发布时间 : 10/19/2023

模型简介

基于芬兰语、英语和代码训练的生成式Transformer模型，支持英芬互译和代码生成，适用于多语言NLP任务。

模型特点

多语言混合训练

通过融合芬兰语与英语数据提升低资源语言性能，同时保留英语能力

超大规模训练

在LUMI超算上使用1万亿标记数据训练，覆盖文本与代码

研究友好设计

提供训练过程检查点，支持研究不同训练阶段的模型行为

模型能力

芬兰语文本生成

英语文本生成

代码生成与补全

基础英芬机器翻译

使用案例

自然语言处理

芬兰语内容生成

为芬兰语应用自动生成文本内容

跨语言信息处理

处理英芬混合文本的NLP任务

软件开发

代码辅助

基于上下文生成或补全代码片段

🚀 Poro 34B模型卡片

Poro是一个拥有340亿参数的仅解码器变压器模型，在芬兰语、英语和代码数据上进行了预训练。它在1万亿个标记上进行训练，是一个完全开源的模型，遵循Apache 2.0许可证。

Poro由来自Silo AI的SiloGen、图尔库大学的TurkuNLP团队以及高性能语言技术（HPLT）合作创建。训练在LUMI超级计算机上进行，使用了芬兰CSC - 科学信息技术中心慷慨提供的计算资源。

本项目是为非英语语言（尤其是像芬兰语这样的低资源语言）创建开源大语言模型的持续努力的一部分。通过结合英语和芬兰语训练数据，我们得到了一个性能优于以往仅针对芬兰语的模型，同时它还能流畅使用英语和代码，并具备英语和芬兰语之间的基本翻译能力。

Poro 34B只是我们模型家族的第一个模型。我们已经在着手开发下一批模型，这些模型将支持更多语言，并包含诸如快速注意力机制、旋转嵌入和分组查询注意力等特性。

“Poro”是什么意思呢？ “Poro”在芬兰语中是“驯鹿”的意思！ 🦌 这些动物原产于芬兰，在芬兰文化中具有重要的历史地位。

🚀 快速开始

模型概述

⚠️ 重要提示

除了作为早期研究版本发布外，Poro是一个基础模型，对于大多数用例而言，它需要进一步微调。

Poro是一个使用BLOOM架构的生成式预训练变压器模型，并利用ALiBi嵌入来支持推理时的上下文长度外推。

属性	详情
模型类型	基于BLOOM架构的生成式预训练变压器模型
训练数据	芬兰语、英语和代码的混合数据集，共1万亿标记
参数量	342亿
层数	54
头数	56
模型维度	7168
词表大小	128000
序列长度	2048

模型检查点

检查点以分支的形式在仓库中提供，大约每1000亿标记发布一次检查点。主分支将始终指向最新的检查点。以下是可用的检查点：

可以使用transformers库从分支加载检查点，示例代码如下：

branch = "200B"
model = transformers.AutoModelForCausalLM.from_pretrained(
    "LumiOpen/Poro-34B",
    torch_dtype=torch.bfloat16,
    revision=branch,
)

训练信息

Poro于2023年9月开始在LUMI超级计算机上进行训练，使用了512个AMD MI250X GPU。每个MI250X GPU有两个图形复合芯片（GCD），训练时的全局大小为1024。训练采用了激活检查点、微批次大小为1、梯度累积为16，以及TP = 2、PP = 4、DP = 128的3D并行策略。

训练使用了Megatron - Deepspeed框架的自定义分支，我们的代码可在此处获取。

训练超参数

超参数	值	注释
精度	bfloat16
优化器	AdamW
学习率	1.5e - 4	100亿标记热身，余弦衰减至2e - 5
权重衰减	1e - 1
批次大小	2048	2048个样本x 2048个标记 = 4194304个标记

分词器

Poro使用了一个自定义的128K Bloom分词器，该分词器在与模型训练相同的英语、芬兰语和代码数据集上进行训练。

数据集

Poro在一个包含1万亿标记的英语、芬兰语和代码混合数据集上进行训练。

数据集	说明	百分比	轮数	标记数
SlimPajama	不包括books3数据	54.16%	1x	5417亿
芬兰语	TurkuNLP芬兰语数据集	13.05%	4x	1315亿
Tatoeba	英语/芬兰语句子对	0.81%	1x	80亿
Starcoder		31.53%	1.52x	3154亿
Project Gutenberg	来自Dolma数据集	0.46%	1x	45亿

芬兰语数据集由多个芬兰语资源组合而成：

评估结果

每个检查点的完整评估结果可在我们的Github仓库中查看。

伦理考量和局限性

⚠️ 重要提示

Poro是一个先进的语言模型，主要针对英语、芬兰语和代码进行优化，对其他语言没有有意义的熟练度。与大多数人工智能驱动的系统一样，Poro是基于其训练的大量数据的产物，这些数据可能反映了更广泛网络中的不完美、偏差和特性。Poro有时可能会产生被认为不准确、有偏见或有争议的输出。使用和开发Poro的用户和开发者应谨慎行事，并考虑进行额外的评估和定制，以确保模型的响应符合他们的特定需求和道德标准。

许可证

Poro遵循Apache 2.0许可证发布。

引用

@misc{luukkonen2024poro,
      title={Poro 34B and the Blessing of Multilinguality}, 
      author={Risto Luukkonen and Jonathan Burdge and Elaine Zosa and Aarne
Talman and Ville Komulainen and Väinö Hatanpää and Peter Sarlin and Sampo
Pyysalo},
      year={2024},
      eprint={2404.01856},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}