🚀 Viking 33B
Viking 33B是一個擁有330億參數的僅解碼器變壓器模型,在芬蘭語、英語、瑞典語、丹麥語、挪威語、冰島語和代碼數據上進行了預訓練。它正在2萬億個標記(截至本次發佈為13000億個)上進行訓練。Viking 33B是一個完全開源的模型,遵循Apache 2.0許可協議發佈。
Viking由圖爾庫大學的TurkuNLP小組、來自Silo AI的SiloGen以及高性能語言技術(HPLT)合作創建。訓練是在LUMI超級計算機上進行的,使用了由芬蘭科學信息技術中心CSC慷慨提供的計算資源。
該項目是為非英語尤其是像芬蘭語這樣的低資源語言創建開源大語言模型的持續努力的一部分。該模型能夠流利使用芬蘭語、英語和斯堪的納維亞語言,並能在這些語言之間進行基本的翻譯。它還能夠理解和生成代碼。
✨ 主要特性
- 多語言支持:支持芬蘭語、英語、瑞典語、丹麥語、挪威語、冰島語等多種語言,還能進行基本的語言翻譯。
- 代碼處理能力:能夠理解和生成代碼。
- 開源模型:完全開源,遵循Apache 2.0許可協議。
📚 詳細文檔
模型家族
Viking是LumiOpen發佈的第二組模型,有3種參數規模可供選擇:
模型概述
⚠️ 重要提示
Viking是一個基礎模型,對於大多數用例,需要進一步微調。
Viking是一個生成式預訓練變壓器模型,採用類似LLaMA的GPT架構,並使用了旋轉位置嵌入和閃存注意力機制。
屬性 |
詳情 |
參數量 |
330億 |
層數 |
56 |
頭數 |
56 |
模型維度 |
7168 |
詞彙表大小 |
131072 |
序列長度 |
4096 |
訓練
Viking 33B在LUMI超級計算機上進行訓練,使用了1024個AMD MI250X GPU。每個MI250X GPU有兩個圖形複合芯片(GCD),在訓練期間世界大小為2048,使用激活檢查點、微批次大小為1、梯度累積為16,以及TP = 4、PP = 4、DP = 128的3D並行策略。
訓練於2023年9月開始,使用了Megatron - Deepspeed框架的自定義分支。
訓練超參數
超參數 |
值 |
註釋 |
精度 |
bfloat16 |
|
優化器 |
AdamW |
|
學習率 |
3e - 4 |
1000億標記熱身,餘弦衰減至3e - 5 |
權重衰減 |
1e - 1 |
|
批次大小 |
1024 |
1024個樣本 x 4096個標記 = 4194304個標記 |
分詞器
Viking使用一個自定義的128K Bloom分詞器,該分詞器在與模型訓練相同的英語、芬蘭語、瑞典語、丹麥語、挪威語、冰島語和代碼數據集上進行訓練。
數據集
Viking正在一個包含2萬億標記的英語、芬蘭語、瑞典語、丹麥語、挪威語、冰島語和代碼的混合數據集上進行訓練。完整細節將很快公佈。
評估結果
完整的評估結果將隨最終模型一起發佈。
訓練檢查點
訓練檢查點以分支的形式在倉庫中提供。大約每1000億標記發佈一次檢查點。主分支將始終指向最新的檢查點。以下是可用的檢查點:
使用transformers
庫,你可以從分支加載檢查點,示例代碼如下:
💻 使用示例
基礎用法
branch = "200B"
model = transformers.AutoModelForCausalLM.from_pretrained(
"LumiOpen/Viking-33B",
torch_dtype=torch.bfloat16,
revision=branch,
)
倫理考量與侷限性
⚠️ 重要提示
Viking 33B是一個部分訓練模型的發佈版本,使用任何輸出時都應格外小心。
Viking是一個先進的語言模型,主要針對英語、芬蘭語、瑞典語、挪威語、丹麥語、冰島語和代碼進行了優化,對其他語言沒有有意義的熟練度。與大多數人工智能驅動的系統一樣,Viking是其訓練的大量數據的產物,這些數據可能反映了更廣泛網絡的不完美、偏見和特性。Viking有時可能會產生被認為不準確、有偏見或有爭議的輸出。使用和開發Viking的用戶和開發者應謹慎行事,並考慮進行額外的評估和定製,以確保模型的響應符合他們的特定需求和道德標準。
許可證
Viking遵循Apache 2.0許可協議發佈。
引用信息
@misc {lumiopen_2025,
author = { Luukkonen, Risto and Burdge, Jonathan and Zosa, Elaine and Komulainen, Ville and Sarlin, Peter and Pyysalo, Sampo },
title = { Viking: A Family of Nordic LLMs },
year = 2025,
url = { https://huggingface.co/LumiOpen/Viking-33B },
doi = { 10.57967/hf/4885 },
publisher = { Hugging Face }
}