🚀 Poro 2 8B 指令モデルカード
Poro 2 8B Instruct は、Poro 2 8B ベースモデルを監督微調整(SFT)と直接嗜好最適化(DPO)で微調整して作成された指示に従うチャットボットモデルです。このモデルは、フィンランド語と英語の対話型 AI アプリケーションや指示に従う用途に特化して設計されています。英語とフィンランド語の指示データの混合セットで訓練され、その後嗜好調整を行って回答品質を向上させています。
Poro 2 は、AMD Silo AI、トゥルク大学の TurkuNLP グループ、および 高性能言語技術(HPLT)が共同で作成しました。訓練は LUMI スーパーコンピュータ で行われ、フィンランドの CSC - 科学情報技術センターから提供された計算資源を利用しています。
このモデルは、持続的事前学習と指示調整によって、既存のモデルに新しい言語能力を効率的に追加し、元の言語とターゲット言語で強力な対話能力を維持する方法を示しています。
訓練とデータ生成プロセスの詳細については、持続的事前学習マニュアル を参照してください。
✨ 主な機能
Poro 2 モデルファミリー
Poro 2 モデルファミリーには 8B と 70B の 2 種類のモデルが含まれており、Poro 2 モデルは 3 つの異なるバージョンでリリースされています:ベースモデル、訓練後の SFT チェックポイント、および最終的な指示モデル(SFT モデルに 1 ラウンドの DPO を追加)。
「Poro」とは何を意味しますか? 「Poro」はフィンランド語でトナカイを意味します!🦌 これらの動物はフィンランド原産で、フィンランドの文化と歴史に重要な地位を占めています。
モデル概要
Poro 2 8B Instruct は Llama 3.1 8B アーキテクチャをベースに、指示に従う能力と対話型 AI アプリケーション向けに微調整されています。このモデルは英語とフィンランド語の対話をサポートしています。
属性 |
詳細 |
モデルパラメータ数 |
80.3 億 |
レイヤー数 |
32 |
ヘッド数 |
32 |
KV ヘッド数 |
8 |
モデル次元 |
4096 |
語彙サイズ |
128256 |
最大シーケンス長 |
8192 |
ベースモデル |
Llama-3.1-8B |
📚 ドキュメント
訓練プロセス
持続的事前学習
Poro 2 8B ベースモデルは、1650 億個のフィンランド語、英語、コード、数学データのトークンで持続的事前学習を行って作成されました。
監督微調整(SFT)
SFT 段階では、140 万個の英語とフィンランド語の指示に従う例を使用しました。これには以下が含まれます:
- Llama-3.3-70B-Instruct の回答を持つ英語とフィンランド語の Tulu 3 プロンプト
- Magpie 方法で生成された多輪対話
- OASST2 と Avoin Avustaja データセットで最も高い評価を受けた対話
- EuroParl からの翻訳サンプル
Poro 2 指示セット も公開しています。
直接嗜好最適化(DPO)
最終モデルは、HelpSteer3 データセットを使用して嗜好調整を行い、回答品質とアライメントを向上させました。
訓練後のハイパーパラメータ
SFT
ハイパーパラメータ |
値 |
訓練エポック数 |
2 |
グローバルバッチサイズ |
64 |
学習率 |
5e-6 |
学習率スケジューラ |
線形 |
ウォームアップ割合 |
0.03 |
最大シーケンス長 |
4096 |
DPO
ハイパーパラメータ |
値 |
訓練エポック数 |
3 |
グローバルバッチサイズ |
64 |
Beta |
0.01 |
学習率 |
5e-7 |
学習率スケジューラ |
余弦 |
ウォームアップ割合 |
0.1 |
最大長 |
4096 |
評価結果
Llama 3.1 8B Instruct と比較して、Poro 2 8B Instruct はフィンランド語の指示に従う能力が大幅に向上しており、英語でも強力な性能を維持しています。
フィンランド語の指示に従う能力
評価指標 |
Poro 2 8B Instruct |
Llama 3.1 8B Instruct |
I FEval フィンランド語 |
66.54 |
47.31 |
MTBench フィンランド語 |
6.75 |
4.10 |
AlpacaEval 2 フィンランド語 |
28.89 |
2.05 |
英語の指示に従う能力
評価指標 |
Poro 2 8B Instruct |
Llama 3.1 8B Instruct |
I FEval |
79.29 |
79.48 |
MTBench |
7.33 |
7.70 |
AlpacaEval 2 |
35.30 |
32.70 |
ペア比較(MTBench)
- フィンランド語:Llama 3.1 8B Instruct と比較して、勝率は 85%
- フィンランド語:Llama 3.3 70B Instruct と比較して、勝率は 51%
- 英語:Llama 3.1 8B Instruct と比較して、勝率は 49%
全体的に:英語の性能を維持しながら、フィンランド語の指示に従うベンチマークは平均約 24% 向上しています。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name = "LumiOpen/Poro-2-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [
{"role": "user", "content": "Kerro minulle Suomen historiasta."}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
)
outputs = model.generate(
inputs,
max_new_tokens=500,
temperature=0.7,
do_sample=True,
pad_token_id=tokenizer.eos_token_id
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
想定される用途
Poro 2 8B Instruct は以下の用途を想定しています:
- フィンランド語と英語の対話型 AI アプリケーション
- 質問応答と情報検索
- コンテンツ生成と創作的な文章作成
- 教育アプリケーション
- カスタマーサービスとサポートアプリケーション
- フィンランド語と英語の翻訳
倫理的な考慮事項と制限事項
Poro 2 8B Instruct は、英語とフィンランド語の指示に従う能力を最適化した高度な対話型 AI モデルです。ほとんどの AI 駆動のシステムと同様に、このモデルは訓練データに含まれる不完全性、バイアス、特性を反映する可能性があります。
主な制限事項:
- 英語とフィンランド語以外の言語の理解が限られている
- 時々、バイアスがある、不適切な、または事実誤りのある内容を生成する可能性がある
- 専門的または技術的な分野での性能に大きな差がある可能性がある
- コンテキストウィンドウが 8192 トークンに制限されている
- 最近の出来事を扱うのが難しい(知識の截止制限)
⚠️ 重要な注意事項
ユーザーは重要な事実陳述を独自に検証する必要があります。人間の監督なしで、このモデルを医療、法律、または財務上のアドバイスの提供に使用してはなりません。敏感なコンテキストでは、回答の適切性を確認する必要があります。
📄 ライセンス
Llama をベースに構築されています。
Poro 2 8B Instruct は Llama 3.3 コミュニティライセンスに基づいてリリースされています。使用前にライセンス条項を確認してください。
引用
@misc{poro2_2025,
title={Poro 2: Continued Pretraining for Language Acquisition},
author={Elaine Zosa and Jouni Louma and Kai Hakala and Antti Virtanen and Mika Koistinen and Risto Luukkonen and Akseli Reunamo and Sampo Pyysalo and Jonathan Burdge},
year={2025},
howpublished={LumiOpen}
}
謝辞
フィンランドの CSC - 科学情報技術センターが LUMI スーパーコンピュータへのアクセスを提供してくれたことに感謝します。この研究は高性能言語技術(HPLT)プロジェクトの支援を受けており、トゥルク大学の TurkuNLP と共同で行われています。このプロジェクトは欧州連合の「ホライゾン・ヨーロッパ」研究・イノベーションプログラムから助成を受けており、助成協定番号は 101070350 です。