🚀 Viking 33B
Viking 33B是一个拥有330亿参数的仅解码器变压器模型,在芬兰语、英语、瑞典语、丹麦语、挪威语、冰岛语和代码数据上进行了预训练。它正在2万亿个标记(截至本次发布为13000亿个)上进行训练。Viking 33B是一个完全开源的模型,遵循Apache 2.0许可协议发布。
Viking由图尔库大学的TurkuNLP小组、来自Silo AI的SiloGen以及高性能语言技术(HPLT)合作创建。训练是在LUMI超级计算机上进行的,使用了由芬兰科学信息技术中心CSC慷慨提供的计算资源。
该项目是为非英语尤其是像芬兰语这样的低资源语言创建开源大语言模型的持续努力的一部分。该模型能够流利使用芬兰语、英语和斯堪的纳维亚语言,并能在这些语言之间进行基本的翻译。它还能够理解和生成代码。
✨ 主要特性
- 多语言支持:支持芬兰语、英语、瑞典语、丹麦语、挪威语、冰岛语等多种语言,还能进行基本的语言翻译。
- 代码处理能力:能够理解和生成代码。
- 开源模型:完全开源,遵循Apache 2.0许可协议。
📚 详细文档
模型家族
Viking是LumiOpen发布的第二组模型,有3种参数规模可供选择:
模型概述
⚠️ 重要提示
Viking是一个基础模型,对于大多数用例,需要进一步微调。
Viking是一个生成式预训练变压器模型,采用类似LLaMA的GPT架构,并使用了旋转位置嵌入和闪存注意力机制。
属性 |
详情 |
参数量 |
330亿 |
层数 |
56 |
头数 |
56 |
模型维度 |
7168 |
词汇表大小 |
131072 |
序列长度 |
4096 |
训练
Viking 33B在LUMI超级计算机上进行训练,使用了1024个AMD MI250X GPU。每个MI250X GPU有两个图形复合芯片(GCD),在训练期间世界大小为2048,使用激活检查点、微批次大小为1、梯度累积为16,以及TP = 4、PP = 4、DP = 128的3D并行策略。
训练于2023年9月开始,使用了Megatron - Deepspeed框架的自定义分支。
训练超参数
超参数 |
值 |
注释 |
精度 |
bfloat16 |
|
优化器 |
AdamW |
|
学习率 |
3e - 4 |
1000亿标记热身,余弦衰减至3e - 5 |
权重衰减 |
1e - 1 |
|
批次大小 |
1024 |
1024个样本 x 4096个标记 = 4194304个标记 |
分词器
Viking使用一个自定义的128K Bloom分词器,该分词器在与模型训练相同的英语、芬兰语、瑞典语、丹麦语、挪威语、冰岛语和代码数据集上进行训练。
数据集
Viking正在一个包含2万亿标记的英语、芬兰语、瑞典语、丹麦语、挪威语、冰岛语和代码的混合数据集上进行训练。完整细节将很快公布。
评估结果
完整的评估结果将随最终模型一起发布。
训练检查点
训练检查点以分支的形式在仓库中提供。大约每1000亿标记发布一次检查点。主分支将始终指向最新的检查点。以下是可用的检查点:
使用transformers
库,你可以从分支加载检查点,示例代码如下:
💻 使用示例
基础用法
branch = "200B"
model = transformers.AutoModelForCausalLM.from_pretrained(
"LumiOpen/Viking-33B",
torch_dtype=torch.bfloat16,
revision=branch,
)
伦理考量与局限性
⚠️ 重要提示
Viking 33B是一个部分训练模型的发布版本,使用任何输出时都应格外小心。
Viking是一个先进的语言模型,主要针对英语、芬兰语、瑞典语、挪威语、丹麦语、冰岛语和代码进行了优化,对其他语言没有有意义的熟练度。与大多数人工智能驱动的系统一样,Viking是其训练的大量数据的产物,这些数据可能反映了更广泛网络的不完美、偏见和特性。Viking有时可能会产生被认为不准确、有偏见或有争议的输出。使用和开发Viking的用户和开发者应谨慎行事,并考虑进行额外的评估和定制,以确保模型的响应符合他们的特定需求和道德标准。
许可证
Viking遵循Apache 2.0许可协议发布。
引用信息
@misc {lumiopen_2025,
author = { Luukkonen, Risto and Burdge, Jonathan and Zosa, Elaine and Komulainen, Ville and Sarlin, Peter and Pyysalo, Sampo },
title = { Viking: A Family of Nordic LLMs },
year = 2025,
url = { https://huggingface.co/LumiOpen/Viking-33B },
doi = { 10.57967/hf/4885 },
publisher = { Hugging Face }
}