🚀 Poro 34B模型卡片
Poro是一個擁有340億參數的僅解碼器變壓器模型,在芬蘭語、英語和代碼數據上進行了預訓練。它在1萬億個標記上進行訓練,是一個完全開源的模型,遵循Apache 2.0許可證。
Poro由來自Silo AI的SiloGen、圖爾庫大學的TurkuNLP團隊以及高性能語言技術(HPLT)合作創建。訓練在LUMI超級計算機上進行,使用了芬蘭CSC - 科學信息技術中心慷慨提供的計算資源。
本項目是為非英語語言(尤其是像芬蘭語這樣的低資源語言)創建開源大語言模型的持續努力的一部分。通過結合英語和芬蘭語訓練數據,我們得到了一個性能優於以往僅針對芬蘭語的模型,同時它還能流暢使用英語和代碼,並具備英語和芬蘭語之間的基本翻譯能力。
Poro 34B只是我們模型家族的第一個模型。我們已經在著手開發下一批模型,這些模型將支持更多語言,幷包含諸如快速注意力機制、旋轉嵌入和分組查詢注意力等特性。
“Poro”是什麼意思呢? “Poro”在芬蘭語中是“馴鹿”的意思! 🦌 這些動物原產於芬蘭,在芬蘭文化中具有重要的歷史地位。
🚀 快速開始
模型概述
⚠️ 重要提示
除了作為早期研究版本發佈外,Poro是一個基礎模型,對於大多數用例而言,它需要進一步微調。
Poro是一個使用BLOOM架構的生成式預訓練變壓器模型,並利用ALiBi嵌入來支持推理時的上下文長度外推。
屬性 |
詳情 |
模型類型 |
基於BLOOM架構的生成式預訓練變壓器模型 |
訓練數據 |
芬蘭語、英語和代碼的混合數據集,共1萬億標記 |
參數量 |
342億 |
層數 |
54 |
頭數 |
56 |
模型維度 |
7168 |
詞表大小 |
128000 |
序列長度 |
2048 |
模型檢查點
檢查點以分支的形式在倉庫中提供,大約每1000億標記發佈一次檢查點。主分支將始終指向最新的檢查點。以下是可用的檢查點:
可以使用transformers
庫從分支加載檢查點,示例代碼如下:
branch = "200B"
model = transformers.AutoModelForCausalLM.from_pretrained(
"LumiOpen/Poro-34B",
torch_dtype=torch.bfloat16,
revision=branch,
)
訓練信息
Poro於2023年9月開始在LUMI超級計算機上進行訓練,使用了512個AMD MI250X GPU。每個MI250X GPU有兩個圖形複合芯片(GCD),訓練時的全局大小為1024。訓練採用了激活檢查點、微批次大小為1、梯度累積為16,以及TP = 2、PP = 4、DP = 128的3D並行策略。
訓練使用了Megatron - Deepspeed框架的自定義分支,我們的代碼可在此處獲取。
訓練超參數
超參數 |
值 |
註釋 |
精度 |
bfloat16 |
|
優化器 |
AdamW |
|
學習率 |
1.5e - 4 |
100億標記熱身,餘弦衰減至2e - 5 |
權重衰減 |
1e - 1 |
|
批次大小 |
2048 |
2048個樣本x 2048個標記 = 4194304個標記 |
分詞器
Poro使用了一個自定義的128K Bloom分詞器,該分詞器在與模型訓練相同的英語、芬蘭語和代碼數據集上進行訓練。
數據集
Poro在一個包含1萬億標記的英語、芬蘭語和代碼混合數據集上進行訓練。
數據集 |
說明 |
百分比 |
輪數 |
標記數 |
SlimPajama |
不包括books3數據 |
54.16% |
1x |
5417億 |
芬蘭語 |
TurkuNLP芬蘭語數據集 |
13.05% |
4x |
1315億 |
Tatoeba |
英語/芬蘭語句子對 |
0.81% |
1x |
80億 |
Starcoder |
|
31.53% |
1.52x |
3154億 |
Project Gutenberg |
來自Dolma數據集 |
0.46% |
1x |
45億 |
芬蘭語數據集由多個芬蘭語資源組合而成:
評估結果
每個檢查點的完整評估結果可在我們的Github倉庫中查看。
倫理考量和侷限性
⚠️ 重要提示
Poro是一個先進的語言模型,主要針對英語、芬蘭語和代碼進行優化,對其他語言沒有有意義的熟練度。與大多數人工智能驅動的系統一樣,Poro是基於其訓練的大量數據的產物,這些數據可能反映了更廣泛網絡中的不完美、偏差和特性。Poro有時可能會產生被認為不準確、有偏見或有爭議的輸出。使用和開發Poro的用戶和開發者應謹慎行事,並考慮進行額外的評估和定製,以確保模型的響應符合他們的特定需求和道德標準。
許可證
Poro遵循Apache 2.0許可證發佈。
引用
@misc{luukkonen2024poro,
title={Poro 34B and the Blessing of Multilinguality},
author={Risto Luukkonen and Jonathan Burdge and Elaine Zosa and Aarne
Talman and Ville Komulainen and Väinö Hatanpää and Peter Sarlin and Sampo
Pyysalo},
year={2024},
eprint={2404.01856},
archivePrefix={arXiv},
primaryClass={cs.CL}
}