Poro-34B多語言大模型開源 - 免費處理芬蘭語、英語及代碼

首頁

Poro 34B

由LumiOpen開發

Poro是一個340億參數的多語言大模型，專注於芬蘭語、英語和代碼處理，採用Apache 2.0許可證開源。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #芬蘭語優化 #多語言代碼生成 #萬億標記訓練

下載量 1,908

發布時間 : 10/19/2023

模型概述

基於芬蘭語、英語和代碼訓練的生成式Transformer模型，支持英芬互譯和代碼生成，適用於多語言NLP任務。

模型特點

多語言混合訓練

通過融合芬蘭語與英語數據提升低資源語言性能，同時保留英語能力

超大規模訓練

在LUMI超算上使用1萬億標記數據訓練，覆蓋文本與代碼

研究友好設計

提供訓練過程檢查點，支持研究不同訓練階段的模型行為

模型能力

芬蘭語文本生成

英語文本生成

代碼生成與補全

基礎英芬機器翻譯

使用案例

自然語言處理

芬蘭語內容生成

為芬蘭語應用自動生成文本內容

跨語言信息處理

處理英芬混合文本的NLP任務

軟件開發

代碼輔助

基於上下文生成或補全代碼片段

🚀 Poro 34B模型卡片

Poro是一個擁有340億參數的僅解碼器變壓器模型，在芬蘭語、英語和代碼數據上進行了預訓練。它在1萬億個標記上進行訓練，是一個完全開源的模型，遵循Apache 2.0許可證。

Poro由來自Silo AI的SiloGen、圖爾庫大學的TurkuNLP團隊以及高性能語言技術（HPLT）合作創建。訓練在LUMI超級計算機上進行，使用了芬蘭CSC - 科學信息技術中心慷慨提供的計算資源。

本項目是為非英語語言（尤其是像芬蘭語這樣的低資源語言）創建開源大語言模型的持續努力的一部分。通過結合英語和芬蘭語訓練數據，我們得到了一個性能優於以往僅針對芬蘭語的模型，同時它還能流暢使用英語和代碼，並具備英語和芬蘭語之間的基本翻譯能力。

Poro 34B只是我們模型家族的第一個模型。我們已經在著手開發下一批模型，這些模型將支持更多語言，幷包含諸如快速注意力機制、旋轉嵌入和分組查詢注意力等特性。

“Poro”是什麼意思呢？ “Poro”在芬蘭語中是“馴鹿”的意思！ 🦌 這些動物原產於芬蘭，在芬蘭文化中具有重要的歷史地位。

🚀 快速開始

模型概述

⚠️ 重要提示

除了作為早期研究版本發佈外，Poro是一個基礎模型，對於大多數用例而言，它需要進一步微調。

Poro是一個使用BLOOM架構的生成式預訓練變壓器模型，並利用ALiBi嵌入來支持推理時的上下文長度外推。

屬性	詳情
模型類型	基於BLOOM架構的生成式預訓練變壓器模型
訓練數據	芬蘭語、英語和代碼的混合數據集，共1萬億標記
參數量	342億
層數	54
頭數	56
模型維度	7168
詞表大小	128000
序列長度	2048

模型檢查點

檢查點以分支的形式在倉庫中提供，大約每1000億標記發佈一次檢查點。主分支將始終指向最新的檢查點。以下是可用的檢查點：

可以使用transformers庫從分支加載檢查點，示例代碼如下：

branch = "200B"
model = transformers.AutoModelForCausalLM.from_pretrained(
    "LumiOpen/Poro-34B",
    torch_dtype=torch.bfloat16,
    revision=branch,
)

訓練信息

Poro於2023年9月開始在LUMI超級計算機上進行訓練，使用了512個AMD MI250X GPU。每個MI250X GPU有兩個圖形複合芯片（GCD），訓練時的全局大小為1024。訓練採用了激活檢查點、微批次大小為1、梯度累積為16，以及TP = 2、PP = 4、DP = 128的3D並行策略。

訓練使用了Megatron - Deepspeed框架的自定義分支，我們的代碼可在此處獲取。

訓練超參數

超參數	值	註釋
精度	bfloat16
優化器	AdamW
學習率	1.5e - 4	100億標記熱身，餘弦衰減至2e - 5
權重衰減	1e - 1
批次大小	2048	2048個樣本x 2048個標記 = 4194304個標記

分詞器

Poro使用了一個自定義的128K Bloom分詞器，該分詞器在與模型訓練相同的英語、芬蘭語和代碼數據集上進行訓練。

數據集

Poro在一個包含1萬億標記的英語、芬蘭語和代碼混合數據集上進行訓練。

數據集	說明	百分比	輪數	標記數
SlimPajama	不包括books3數據	54.16%	1x	5417億
芬蘭語	TurkuNLP芬蘭語數據集	13.05%	4x	1315億
Tatoeba	英語/芬蘭語句子對	0.81%	1x	80億
Starcoder		31.53%	1.52x	3154億
Project Gutenberg	來自Dolma數據集	0.46%	1x	45億

芬蘭語數據集由多個芬蘭語資源組合而成：

評估結果

每個檢查點的完整評估結果可在我們的Github倉庫中查看。

倫理考量和侷限性

⚠️ 重要提示

Poro是一個先進的語言模型，主要針對英語、芬蘭語和代碼進行優化，對其他語言沒有有意義的熟練度。與大多數人工智能驅動的系統一樣，Poro是基於其訓練的大量數據的產物，這些數據可能反映了更廣泛網絡中的不完美、偏差和特性。Poro有時可能會產生被認為不準確、有偏見或有爭議的輸出。使用和開發Poro的用戶和開發者應謹慎行事，並考慮進行額外的評估和定製，以確保模型的響應符合他們的特定需求和道德標準。

許可證

Poro遵循Apache 2.0許可證發佈。

引用

@misc{luukkonen2024poro,
      title={Poro 34B and the Blessing of Multilinguality}, 
      author={Risto Luukkonen and Jonathan Burdge and Elaine Zosa and Aarne
Talman and Ville Komulainen and Väinö Hatanpää and Peter Sarlin and Sampo
Pyysalo},
      year={2024},
      eprint={2404.01856},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}