モデル概要
モデル特徴
モデル能力
使用事例
🚀 Phi-4-reasoning
Phi-4-reasoningは、Phi-4から微調整された最先端のオープンウェイト推論モデルで、チェーンオブソートトレースのデータセットを用いた教師付き微調整と強化学習により訓練されています。数学、科学、コーディングなどの分野で優れた推論能力を持ち、様々なタスクで高い性能を発揮します。
🚀 クイックスタート
このセクションでは、Phi-4-reasoningモデルの概要、使用方法、注意事項などを紹介します。
⚠️ 重要提示
llama.cppで推論を有効にするには、
--jinja
を使用する必要があります。そうしないと、トークンが提供されません。
💡 使用アドバイス
すべてのバージョンのPhi-4(GGUF、4-bit、16-bit形式を含む)については、当社のコレクションを参照してください。
プロパティ | 詳細 |
---|---|
ベースモデル | microsoft/Phi-4-reasoning |
言語 | en |
ライブラリ名 | transformers |
パイプラインタグ | テキスト生成 |
タグ | nlp、unsloth、math、code、phi、phi4 |
- Google Colabノートブックを使用して、Phi-4 (14B)を無料で微調整する
- Phi-4のサポートとバグ修正に関するブログを読む
- 他のノートブックを見る
- 微調整したモデルをOllama、llama.cpp、またはHFに実行してエクスポートする
Unslothのサポート | 無料ノートブック | パフォーマンス | メモリ使用量 |
---|---|---|---|
Phi-4 (14B) | ▶️ Colabで開始 | 2倍高速 | 50%少ない |
Qwen3 (14B) | ▶️ Colabで開始 | 3倍高速 | 70%少ない |
GRPO with Phi-4 (14B) | ▶️ Colabで開始 | 3倍高速 | 80%少ない |
Llama-3.2 (3B) | ▶️ Colabで開始 | 2倍高速 | 80%少ない |
Llama-3.2 (11B vision) | ▶️ Colabで開始 | 2倍高速 | 60%少ない |
Qwen2.5 (7B) | ▶️ Colabで開始 | 2倍高速 | 60%少ない |
✨ 主な機能
モデルの概要
項目 | 詳細 |
---|---|
開発者 | Microsoft Research |
説明 | Phi-4-reasoningは、Phi-4から微調整された最先端のオープンウェイト推論モデルです。チェーンオブソートトレースのデータセットを用いた教師付き微調整と強化学習により訓練されています。教師付き微調整のデータセットには、合成プロンプトと公共ドメインのウェブサイトからの高品質なフィルタリングされたデータが含まれており、数学、科学、コーディングスキル、および安全性と責任あるAIのためのアライメントデータに焦点が当てられています。このアプローチの目標は、高品質で高度な推論に焦点を当てたデータで小規模で高性能なモデルを訓練することでした。 |
アーキテクチャ | ベースモデルは以前にリリースされたPhi-4と同じで、14Bのパラメータを持つ密なデコーダーのみのTransformerモデル |
入力 | テキスト、チャット形式のプロンプトに最適 |
コンテキスト長 | 32kトークン |
GPU | 32台のH100-80G |
訓練時間 | 2.5日 |
訓練データ | 16Bトークン、約8.3Bの一意のトークン |
出力 | 入力に対する生成テキスト。モデルの応答は2つのセクションに分かれており、推論のチェーンオブソートブロックとそれに続く要約ブロックです。 |
期間 | 2025年1月 - 2025年4月 |
ステータス | 2025年3月以前のオフラインデータセットで訓練された静的モデル |
リリース日 | 2025年4月30日 |
ライセンス | MIT |
想定される使用方法
項目 | 詳細 |
---|---|
主な使用事例 | このモデルは、言語モデルの研究を加速するために設計されており、生成AI機能の構成要素として使用されます。一般的なAIシステムやアプリケーション(主に英語)で、以下の条件を満たす場合に使用できます。 1. メモリ/コンピュートが制限された環境。 2. レイテンシーが重要なシナリオ。 3. 推論と論理。 |
想定外の使用事例 | このモデルは数学的推論のみを目的として設計およびテストされています。すべての下流の目的に対して特別に設計または評価されているわけではありません。開発者は、使用事例を選択する際に言語モデルの一般的な制限を考慮し、特定の下流の使用事例で使用する前に精度、安全性、および公正性を評価し、軽減策を講じる必要があります。特に高リスクのシナリオでは、開発者は適用される法律や規制(プライバシー、貿易コンプライアンス法など)を認識し、遵守する必要があります。使用事例を選択する際の詳細なガイダンスについては、以下の責任あるAIの考慮事項のセクションを参照してください。このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更として解釈されるべきではありません。 |
データの概要
訓練データセット
訓練データは、数学、科学、コーディングに関するQ&Aおよびチャット形式のデータの混合物です。チャットプロンプトは、フィルタリングされた高品質なウェブデータから取得され、必要に応じて合成データ生成パイプラインを通じて書き換えられ、処理されます。さらに、真実性と安全性を向上させるためのデータも含まれています。
ベンチマークデータセット
Phi-4-reasoningは、オープンソースのEureka評価スイートと独自の内部ベンチマークを使用して評価されています。具体的には、以下のタスクでモデルを評価しています。
推論タスク:
- AIME 2025、2024、2023、および2022: 数学オリンピックの問題。
- GPQA-Diamond: 複雑な大学院レベルの科学問題。
- OmniMath: 4000以上のオリンピックレベルの数学問題のコレクションで、人間によるアノテーションが付けられています。
- LiveCodeBench: 競技プログラミングコンテストから収集されたコード生成ベンチマーク。
- 3SAT (3-literal Satisfiability Problem) および TSP (Traveling Salesman Problem): アルゴリズミックな問題解決。
- BA Calendar: 計画。
- Maze and SpatialMap: 空間理解。
汎用ベンチマーク:
- Kitab: 情報検索。
- IFEval and ArenaHard: 命令の追従。
- PhiBench: 内部ベンチマーク。
- FlenQA: プロンプトの長さがモデルのパフォーマンスに与える影響。
- HumanEvalPlus: 機能的なコード生成。
- MMLU-Pro: 多タスク言語理解のための人気のある集約データセット。
安全性
アプローチ
Phi-4-reasoningは、教師付き微調整(SFT)を通じた堅牢な安全性の事後訓練アプローチを採用しています。このアプローチは、オープンソースと社内で生成された合成プロンプトの両方を利用し、Microsoftの厳格な安全性ガイドラインに準拠したLLM生成応答を使用しています。例えば、ユーザーの理解と明確性、セキュリティと倫理的ガイドライン、制限事項、免責事項と知識の範囲、複雑で敏感なトピックの取り扱い、安全性と礼儀正しい対話、ガイドラインの機密性とチェーンオブソートの機密性などです。
安全性評価とレッドチーミング
リリース前に、Phi-4-reasoningは多面的な評価アプローチに従っています。定量的評価は、複数のオープンソースの安全性ベンチマークと敵対的会話シミュレーションを利用した社内ツールで行われました。定性的な安全性評価では、Microsoftの独立したAIレッドチーム(AIRT)と協力して、平均的なユーザーシナリオと敵対的なユーザーシナリオの両方でPhi-4-reasoningがもたらす安全性リスクを評価しました。平均的なユーザーシナリオでは、AIRTは典型的な単ターンとマルチターンの対話をエミュレートして、潜在的な危険な行動を特定しました。敵対的なユーザーシナリオでは、モデルの安全性訓練を意図的に破壊するための幅広い手法がテストされました。これには、根拠のある情報、ジェイルブレイク、嫌悪や不公平、暴力、性的な内容、または自傷行為などの有害な内容、および保護された素材の著作権侵害が含まれます。さらに、少数グループを対象としたバイアスと毒性を測定するために設計されたToxigenベンチマークでモデルを評価しています。
安全性アライメントの詳細については、技術レポートを参照してください。
モデルの品質
代表的なベンチマークでのモデル品質の概要を示します。以下の表では、数値が高いほどパフォーマンスが良いことを示します。
モデル | AIME 24 | AIME 25 | OmniMath | GPQA-D | LiveCodeBench (8/1/24–2/1/25) |
---|---|---|---|---|---|
Phi-4-reasoning | 75.3 | 62.9 | 76.6 | 65.8 | 53.8 |
Phi-4-reasoning-plus | 81.3 | 78.0 | 81.9 | 68.9 | 53.1 |
OpenThinker2-32B | 58.0 | 58.0 | — | 64.1 | — |
QwQ 32B | 79.5 | 65.8 | — | 59.5 | 63.4 |
EXAONE-Deep-32B | 72.1 | 65.8 | — | 66.1 | 59.5 |
DeepSeek-R1-Distill-70B | 69.3 | 51.5 | 63.4 | 66.2 | 57.5 |
DeepSeek-R1 | 78.7 | 70.4 | 85.0 | 73.0 | 62.8 |
o1-mini | 63.6 | 54.8 | — | 60.0 | 53.8 |
o1 | 74.6 | 75.3 | 67.5 | 76.7 | 71.0 |
o3-mini | 88.0 | 78.0 | 74.6 | 77.7 | 69.5 |
Claude-3.7-Sonnet | 55.3 | 58.7 | 54.6 | 76.8 | — |
Gemini-2.5-Pro | 92.0 | 86.7 | 61.1 | 84.0 | 69.2 |
モデル | FlenQA [3K-token subset] | IFEval Strict | ArenaHard | HumanEvalPlus | MMLUPro | Kitab No Context - Precision With Context - Precision No Context - Recall With Context - Recall |
Toxigen Discriminative Toxic category Neutral category |
PhiBench 2.21 |
---|---|---|---|---|---|---|---|---|
Phi-4 | 82.0 | 62.3 | 68.1 | 83.5 | 71.5 | 19.3 88.5 8.2 68.1 |
72.6 90.0 |
58.2 |
Phi-4-reasoning | 97.7 | 83.4 | 73.3 | 92.9 | 74.3 | 23.2 91.5 4.9 74.8 |
86.7 84.7 |
70.6 |
Phi-4-reasoning-plus | 97.9 | 84.9 | 79.0 | 92.3 | 76.0 | 27.6 93.6 6.3 75.4 |
77.3 90.5 |
74.2 |
o3-mini | 96.8 | 91.5 | 81.9 | 94.0 | 79.4 | 37.9 94.0 4.2 76.1 |
85.4 88.7 |
78.0 |
GPT-4o | 90.8 | 81.8 | 75.6 | 88.0 | 73.0 | 53.7 84.7 20.3 69.2 |
87.6 85.1 |
72.4 |
全体的に、Phi-4-reasoningはわずか14Bのパラメータで、幅広い推論タスクで良好なパフォーマンスを発揮し、DeepSeek-R1蒸留70Bモデルなどの大幅に大きなオープンウェイトモデルを上回り、完全なDeepSeek R1モデルのパフォーマンスレベルに近づいています。また、アルゴリズミックな問題解決と計画のための複数の新しい推論ベンチマークでもモデルをテストしています。これらの新しいタスクは、訓練プロセスで意図的にこれらのスキルをターゲットにしていないため、モデルにとって公称上はドメイン外ですが、モデルはこれらのタスクに対して強い汎化能力を示しています。さらに、命令の追従や非推論タスクなどの標準的な汎用能力ベンチマークでのパフォーマンスを評価すると、事後訓練が特定のドメインの推論スキルに焦点を当てているにもかかわらず、新しいモデルはPhi-4から大幅に改善されていることがわかります。
📦 インストール
このセクションでは、Phi-4-reasoningモデルを使用するためのインストール方法や必要な依存関係について説明します。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-4-reasoning")
model = AutoModelForCausalLM.from_pretrained("microsoft/Phi-4-reasoning", device_map="auto", torch_dtype="auto")
messages = [
{"role": "system", "content": "You are Phi, a language model trained by Microsoft to help users. Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:"},
{"role": "user", "content": "What is the derivative of x^2?"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(
inputs.to(model.device),
max_new_tokens=4096,
temperature=0.8,
top_p=0.95,
do_sample=True,
)
print(tokenizer.decode(outputs[0]))
高度な使用法
vllm serve microsoft/Phi-4-reasoning --enable-reasoning --reasoning-parser deepseek_r1
Phi-4-reasoningは、Ollama、llama.cpp、およびPhi-4互換のすべてのフレームワークでもデフォルトでサポートされています。
📚 ドキュメント
推論パラメータ
temperature=0.8
、top_p=0.95
、およびdo_sample=True
を使用すると、推論がより良くなります。より複雑なクエリの場合は、最大トークン数を32kに設定して、より長いチェーンオブソート(CoT)を可能にします。
入力形式
訓練データの性質上、推論には常に以下のシステムプロンプトを使用したChatMLテンプレートを使用してください。
<|im_start|>system<|im_sep|>
Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} <\think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:<|im_end|>
<|im_start|>user<|im_sep|>
What is the derivative of x^2?<|im_end|>
<|im_start|>assistant<|im_sep|>
🔧 技術詳細
責任あるAIの考慮事項
他の言語モデルと同様に、Phi-4-reasoningは不公平、信頼性が低い、または不快な振る舞いをする可能性があります。注意すべき制限的な振る舞いには以下が含まれます。
-
サービスの品質:このモデルは主に英語のテキストで訓練されています。英語以外の言語ではパフォーマンスが低下します。訓練データにおける表現が少ない英語のバリエーションでは、標準的なアメリカ英語よりもパフォーマンスが低下する可能性があります。Phi-4-reasoningは多言語対応を目的としていません。
-
危害の表現とステレオタイプの拡大:これらのモデルは、特定の人々のグループを過大または過小に表現したり、一部のグループの表現を抹消したりする可能性があります。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。詳細については、ライセンスファイルを参照してください。



