Phi-4-reasoning-GGUFオープンソース推論モデル - 数学、科学、コーディング推論を無料で支援

ホーム

Phi 4 Reasoning GGUF

unslothによって開発

Phi-4-reasoningはPhi-4をファインチューニングした先進的な推論モデルで、教師付きファインチューニングと強化学習により、数学、科学、コーディングなどの分野で卓越した推論能力を発揮します。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #数学的推論 #科学問題の解決 #長文の推論

ダウンロード数 6,046

リリース時間 : 5/1/2025

モデル概要

Phi-4-reasoningは数学、科学、コーディングの推論に特化した言語モデルで、推論と論理に高い要求があるシナリオに適しています。

モデル特徴

先進的な推論能力

教師付きファインチューニングと強化学習により、数学、科学、コーディングなどの分野で卓越した推論能力を発揮します。

高い性能

複数の推論タスクと汎用能力のベンチマークテストで優れた成績を収め、多くのより大きなパラメータのオープンウェイトモデルを上回っています。

幅広い適用性

推論と論理に高い要求があるシナリオ、例えばメモリ/計算資源が制限された環境や低遅延シナリオなどに適しています。

安全な事後学習

強力な安全な事後学習方法を採用し、教師付きファインチューニング（SFT）によりモデルの安全性と倫理性を確保しています。

モデル能力

数学的推論

科学問題の解答

コード生成

複雑な問題の解決

論理的推論

使用事例

教育

数学オリンピック問題の解答

AIMEなどの数学オリンピック競技の複雑な問題を解決します。

AIME 2025で62.9%の正解率を達成

大学院レベルの科学問題の解答

GPQA-Diamondなどの複雑な大学院レベルの科学問題を解答します。

GPQA-Diamondで65.8%の正解率を達成

プログラミング

競技用コードの生成

競技レベルのコード解決策を生成します。

LiveCodeBenchで53.8%の正解率を達成

🚀 Phi-4-reasoning

Phi-4-reasoningは、Phi-4から微調整された最先端のオープンウェイト推論モデルで、チェーンオブソートトレースのデータセットを用いた教師付き微調整と強化学習により訓練されています。数学、科学、コーディングなどの分野で優れた推論能力を持ち、様々なタスクで高い性能を発揮します。

🚀 クイックスタート

このセクションでは、Phi-4-reasoningモデルの概要、使用方法、注意事項などを紹介します。

⚠️ 重要提示

llama.cppで推論を有効にするには、--jinjaを使用する必要があります。そうしないと、トークンが提供されません。

💡 使用アドバイス

すべてのバージョンのPhi-4（GGUF、4-bit、16-bit形式を含む）については、当社のコレクションを参照してください。

Phi-4推論を正しく実行する方法を学ぶ - ガイドを読む

Unsloth Dynamic 2.0は、卓越した精度を達成し、他の主要な量子化手法を上回ります。

プロパティ	詳細
ベースモデル	microsoft/Phi-4-reasoning
言語	en
ライブラリ名	transformers
パイプラインタグ	テキスト生成
タグ	nlp、unsloth、math、code、phi、phi4

Google Colabノートブックを使用して、Phi-4 (14B)を無料で微調整する
Phi-4のサポートとバグ修正に関するブログを読む
他のノートブックを見る
微調整したモデルをOllama、llama.cpp、またはHFに実行してエクスポートする

Unslothのサポート	無料ノートブック	パフォーマンス	メモリ使用量
Phi-4 (14B)	▶️ Colabで開始	2倍高速	50%少ない
Qwen3 (14B)	▶️ Colabで開始	3倍高速	70%少ない
GRPO with Phi-4 (14B)	▶️ Colabで開始	3倍高速	80%少ない
Llama-3.2 (3B)	▶️ Colabで開始	2倍高速	80%少ない
Llama-3.2 (11B vision)	▶️ Colabで開始	2倍高速	60%少ない
Qwen2.5 (7B)	▶️ Colabで開始	2倍高速	60%少ない

✨ 主な機能

モデルの概要

項目	詳細
開発者	Microsoft Research
説明	Phi-4-reasoningは、Phi-4から微調整された最先端のオープンウェイト推論モデルです。チェーンオブソートトレースのデータセットを用いた教師付き微調整と強化学習により訓練されています。教師付き微調整のデータセットには、合成プロンプトと公共ドメインのウェブサイトからの高品質なフィルタリングされたデータが含まれており、数学、科学、コーディングスキル、および安全性と責任あるAIのためのアライメントデータに焦点が当てられています。このアプローチの目標は、高品質で高度な推論に焦点を当てたデータで小規模で高性能なモデルを訓練することでした。
アーキテクチャ	ベースモデルは以前にリリースされたPhi-4と同じで、14Bのパラメータを持つ密なデコーダーのみのTransformerモデル
入力	テキスト、チャット形式のプロンプトに最適
コンテキスト長	32kトークン
GPU	32台のH100-80G
訓練時間	2.5日
訓練データ	16Bトークン、約8.3Bの一意のトークン
出力	入力に対する生成テキスト。モデルの応答は2つのセクションに分かれており、推論のチェーンオブソートブロックとそれに続く要約ブロックです。
期間	2025年1月 - 2025年4月
ステータス	2025年3月以前のオフラインデータセットで訓練された静的モデル
リリース日	2025年4月30日
ライセンス	MIT

想定される使用方法

項目	詳細
主な使用事例	このモデルは、言語モデルの研究を加速するために設計されており、生成AI機能の構成要素として使用されます。一般的なAIシステムやアプリケーション（主に英語）で、以下の条件を満たす場合に使用できます。 1. メモリ/コンピュートが制限された環境。 2. レイテンシーが重要なシナリオ。 3. 推論と論理。
想定外の使用事例	このモデルは数学的推論のみを目的として設計およびテストされています。すべての下流の目的に対して特別に設計または評価されているわけではありません。開発者は、使用事例を選択する際に言語モデルの一般的な制限を考慮し、特定の下流の使用事例で使用する前に精度、安全性、および公正性を評価し、軽減策を講じる必要があります。特に高リスクのシナリオでは、開発者は適用される法律や規制（プライバシー、貿易コンプライアンス法など）を認識し、遵守する必要があります。使用事例を選択する際の詳細なガイダンスについては、以下の責任あるAIの考慮事項のセクションを参照してください。このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更として解釈されるべきではありません。

項目

詳細

主な使用事例

このモデルは、言語モデルの研究を加速するために設計されており、生成AI機能の構成要素として使用されます。一般的なAIシステムやアプリケーション（主に英語）で、以下の条件を満たす場合に使用できます。

1. メモリ/コンピュートが制限された環境。
2. レイテンシーが重要なシナリオ。
3. 推論と論理。

想定外の使用事例

このモデルは数学的推論のみを目的として設計およびテストされています。すべての下流の目的に対して特別に設計または評価されているわけではありません。開発者は、使用事例を選択する際に言語モデルの一般的な制限を考慮し、特定の下流の使用事例で使用する前に精度、安全性、および公正性を評価し、軽減策を講じる必要があります。特に高リスクのシナリオでは、開発者は適用される法律や規制（プライバシー、貿易コンプライアンス法など）を認識し、遵守する必要があります。使用事例を選択する際の詳細なガイダンスについては、以下の責任あるAIの考慮事項のセクションを参照してください。このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更として解釈されるべきではありません。

データの概要

訓練データセット

訓練データは、数学、科学、コーディングに関するQ&Aおよびチャット形式のデータの混合物です。チャットプロンプトは、フィルタリングされた高品質なウェブデータから取得され、必要に応じて合成データ生成パイプラインを通じて書き換えられ、処理されます。さらに、真実性と安全性を向上させるためのデータも含まれています。

ベンチマークデータセット

Phi-4-reasoningは、オープンソースのEureka評価スイートと独自の内部ベンチマークを使用して評価されています。具体的には、以下のタスクでモデルを評価しています。

推論タスク:

AIME 2025、2024、2023、および2022: 数学オリンピックの問題。
GPQA-Diamond: 複雑な大学院レベルの科学問題。
OmniMath: 4000以上のオリンピックレベルの数学問題のコレクションで、人間によるアノテーションが付けられています。
LiveCodeBench: 競技プログラミングコンテストから収集されたコード生成ベンチマーク。
3SAT (3-literal Satisfiability Problem) および TSP (Traveling Salesman Problem): アルゴリズミックな問題解決。
BA Calendar: 計画。
Maze and SpatialMap: 空間理解。

汎用ベンチマーク:

Kitab: 情報検索。
IFEval and ArenaHard: 命令の追従。
PhiBench: 内部ベンチマーク。
FlenQA: プロンプトの長さがモデルのパフォーマンスに与える影響。
HumanEvalPlus: 機能的なコード生成。
MMLU-Pro: 多タスク言語理解のための人気のある集約データセット。

安全性

アプローチ

Phi-4-reasoningは、教師付き微調整（SFT）を通じた堅牢な安全性の事後訓練アプローチを採用しています。このアプローチは、オープンソースと社内で生成された合成プロンプトの両方を利用し、Microsoftの厳格な安全性ガイドラインに準拠したLLM生成応答を使用しています。例えば、ユーザーの理解と明確性、セキュリティと倫理的ガイドライン、制限事項、免責事項と知識の範囲、複雑で敏感なトピックの取り扱い、安全性と礼儀正しい対話、ガイドラインの機密性とチェーンオブソートの機密性などです。

安全性評価とレッドチーミング

リリース前に、Phi-4-reasoningは多面的な評価アプローチに従っています。定量的評価は、複数のオープンソースの安全性ベンチマークと敵対的会話シミュレーションを利用した社内ツールで行われました。定性的な安全性評価では、Microsoftの独立したAIレッドチーム（AIRT）と協力して、平均的なユーザーシナリオと敵対的なユーザーシナリオの両方でPhi-4-reasoningがもたらす安全性リスクを評価しました。平均的なユーザーシナリオでは、AIRTは典型的な単ターンとマルチターンの対話をエミュレートして、潜在的な危険な行動を特定しました。敵対的なユーザーシナリオでは、モデルの安全性訓練を意図的に破壊するための幅広い手法がテストされました。これには、根拠のある情報、ジェイルブレイク、嫌悪や不公平、暴力、性的な内容、または自傷行為などの有害な内容、および保護された素材の著作権侵害が含まれます。さらに、少数グループを対象としたバイアスと毒性を測定するために設計されたToxigenベンチマークでモデルを評価しています。

安全性アライメントの詳細については、技術レポートを参照してください。

モデルの品質

代表的なベンチマークでのモデル品質の概要を示します。以下の表では、数値が高いほどパフォーマンスが良いことを示します。

モデル	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

モデル	FlenQA [3K-token subset]	IFEval Strict	ArenaHard	HumanEvalPlus	MMLUPro	Kitab No Context - Precision With Context - Precision No Context - Recall With Context - Recall	Toxigen Discriminative Toxic category Neutral category	PhiBench 2.21
Phi-4	82.0	62.3	68.1	83.5	71.5	19.3 88.5 8.2 68.1	72.6 90.0	58.2
Phi-4-reasoning	97.7	83.4	73.3	92.9	74.3	23.2 91.5 4.9 74.8	86.7 84.7	70.6
Phi-4-reasoning-plus	97.9	84.9	79.0	92.3	76.0	27.6 93.6 6.3 75.4	77.3 90.5	74.2
o3-mini	96.8	91.5	81.9	94.0	79.4	37.9 94.0 4.2 76.1	85.4 88.7	78.0
GPT-4o	90.8	81.8	75.6	88.0	73.0	53.7 84.7 20.3 69.2	87.6 85.1	72.4

全体的に、Phi-4-reasoningはわずか14Bのパラメータで、幅広い推論タスクで良好なパフォーマンスを発揮し、DeepSeek-R1蒸留70Bモデルなどの大幅に大きなオープンウェイトモデルを上回り、完全なDeepSeek R1モデルのパフォーマンスレベルに近づいています。また、アルゴリズミックな問題解決と計画のための複数の新しい推論ベンチマークでもモデルをテストしています。これらの新しいタスクは、訓練プロセスで意図的にこれらのスキルをターゲットにしていないため、モデルにとって公称上はドメイン外ですが、モデルはこれらのタスクに対して強い汎化能力を示しています。さらに、命令の追従や非推論タスクなどの標準的な汎用能力ベンチマークでのパフォーマンスを評価すると、事後訓練が特定のドメインの推論スキルに焦点を当てているにもかかわらず、新しいモデルはPhi-4から大幅に改善されていることがわかります。

📦 インストール

このセクションでは、Phi-4-reasoningモデルを使用するためのインストール方法や必要な依存関係について説明します。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-4-reasoning")
model = AutoModelForCausalLM.from_pretrained("microsoft/Phi-4-reasoning", device_map="auto", torch_dtype="auto")

messages = [
    {"role": "system", "content": "You are Phi, a language model trained by Microsoft to help users. Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:"},
    {"role": "user", "content": "What is the derivative of x^2?"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(
    inputs.to(model.device),
    max_new_tokens=4096,
    temperature=0.8,
    top_p=0.95,
    do_sample=True,
)
print(tokenizer.decode(outputs[0]))

高度な使用法

vllm serve microsoft/Phi-4-reasoning --enable-reasoning --reasoning-parser deepseek_r1

Phi-4-reasoningは、Ollama、llama.cpp、およびPhi-4互換のすべてのフレームワークでもデフォルトでサポートされています。

📚 ドキュメント

推論パラメータ

temperature=0.8、top_p=0.95、およびdo_sample=Trueを使用すると、推論がより良くなります。より複雑なクエリの場合は、最大トークン数を32kに設定して、より長いチェーンオブソート（CoT）を可能にします。

入力形式

訓練データの性質上、推論には常に以下のシステムプロンプトを使用したChatMLテンプレートを使用してください。

<|im_start|>system<|im_sep|>
Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} <\think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:<|im_end|>
<|im_start|>user<|im_sep|>
What is the derivative of x^2?<|im_end|>
<|im_start|>assistant<|im_sep|>

🔧 技術詳細

責任あるAIの考慮事項

他の言語モデルと同様に、Phi-4-reasoningは不公平、信頼性が低い、または不快な振る舞いをする可能性があります。注意すべき制限的な振る舞いには以下が含まれます。

サービスの品質：このモデルは主に英語のテキストで訓練されています。英語以外の言語ではパフォーマンスが低下します。訓練データにおける表現が少ない英語のバリエーションでは、標準的なアメリカ英語よりもパフォーマンスが低下する可能性があります。Phi-4-reasoningは多言語対応を目的としていません。
危害の表現とステレオタイプの拡大：これらのモデルは、特定の人々のグループを過大または過小に表現したり、一部のグループの表現を抹消したりする可能性があります。