モデル概要
モデル特徴
モデル能力
使用事例
base_model:
- microsoft/Phi-4-mini-reasoning language:
- en library_name: transformers license: mit license_link: https://huggingface.co/microsoft/Phi-4-mini-reasoning/resolve/main/LICENSE pipeline_tag: text-generation tags:
- nlp
- unsloth
- math
- code
- phi
- phi4 widget:
- messages:
- role: user content: 3x^2+4x+5=1を解く方法は?
Phi-4のGGUF、4ビット、16ビット形式を含む全てのバージョンは当社のコレクションをご覧ください。
Phi-4の推論を正しく実行する方法 - ガイドを読む。
Unsloth Dynamic 2.0は優れた精度を達成し、他の主要な量子化手法を凌駕します。
UnslothでPhi-4を実行&ファインチューニング!
- 無料のGoogle ColabノートブックでPhi-4 (14B)をファインチューニング!
- Phi-4サポートとバグ修正に関するブログを読む: unsloth.ai/blog/phi4
- その他のノートブックはドキュメントで確認
- ファインチューニングしたモデルをOllama、llama.cppまたはHFにエクスポートして実行
Unslothサポート | 無料ノートブック | パフォーマンス | メモリ使用量 |
---|---|---|---|
Phi-4 (14B) | ‚ñ∂Ô∏è Colabで開始 | 2倍高速 | 50%削減 |
Qwen3 (14B) | ‚ñ∂Ô∏è Colabで開始 | 3倍高速 | 70%削減 |
GRPO with Phi-4 (14B) | ‚ñ∂Ô∏è Colabで開始 | 3倍高速 | 80%削減 |
Llama-3.2 (3B) | ‚ñ∂Ô∏è Colabで開始 | 2倍高速 | 80%削減 |
Llama-3.2 (11B vision) | ‚ñ∂Ô∏è Colabで開始 | 2倍高速 | 60%削減 |
Qwen2.5 (7B) | ‚ñ∂Ô∏è Colabで開始 | 2倍高速 | 60%削減 |
Phi-4-mini-reasoning
Phi-4-mini-reasoningは、高品質で推論に特化した合成データに基づいて構築された軽量オープンモデルで、より高度な数学的推論能力のためにさらにファインチューニングされています。 このモデルはPhi-4モデルファミリーに属し、128Kトークンのコンテキスト長をサポートします。
üì∞ Phi-4-mini-reasoningブログ、開発者向け記事
üìñ Phi-4-mini-reasoning技術レポート
üë©‚Äçüç≥ Phiクックブック
üè° Phiポータル
üñ•Ô∏è Azureで試す
üéâPhi-4モデル: [Phi-4-reasoning] | [multimodal-instruct | onnx]; [mini-instruct | onnx]
使用目的
主な使用ケース
Phi-4-mini-reasoningは、メモリ/計算リソースが制約された環境やレイテンシが重要なシナリオにおいて、多段階でロジックが複雑な数学的問題解決タスク向けに設計されています。 使用ケースには、形式的証明生成、記号計算、高度な文章題、および深い分析的思考を必要とする幅広い数学的推論シナリオが含まれます。 これらのモデルは、ステップ間でコンテキストを維持し、構造化されたロジックを適用し、正確で信頼性の高いソリューションを提供することに優れています。
使用ケースの考慮事項
このモデルは数学的推論専用に設計およびテストされています。すべての下流用途向けに特別に設計または評価されているわけではありません。 開発者は、言語モデルの一般的な制限、および言語間のパフォーマンスの違いを考慮し、特定の下流使用ケースで使用する前に、正確性、安全性、公平性を評価して軽減する必要があります。 特に高リスクシナリオでは、適用可能な法律や規制(プライバシー、貿易コンプライアンス法など)を認識し、遵守する必要があります。
このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更と解釈したり、見なしたりしてはなりません。
リリースノート
このPhi-4-mini-reasoningのリリースは、ユーザーフィードバックとコンパクトな推論モデルに対する市場の需要に対応しています。 これは、計算やレイテンシが制約された環境で高品質な段階的な問題解決を提供するために最適化された、コンパクトなトランスフォーマーベースの言語モデルです。 モデルは、より能力の高いモデル(はるかに大きく、賢く、正確で、指示に従う能力に優れている)から生成された合成数学データでファインチューニングされており、推論性能が向上しています。 Phi-4-mini-reasoningは推論能力と効率性のバランスを取っており、教育アプリケーション、組み込みチュートリアル、エッジまたはモバイルシステムでの軽量な展開に適している可能性があります。 Phi-4-mini-reasoningで重大な問題が特定された場合は、MSRC Researcher Portalまたはsecure@microsoft.comを通じて速やかに報告してください。
モデル品質
能力を理解するために、3.8BパラメータのPhi-4-mini-reasoningモデルを、さまざまな推論ベンチマークで一連のモデルと比較しました。 モデル品質の概要は以下の通りです:
モデル | AIME | MATH-500 | GPQA Diamond |
---|---|---|---|
o1-mini* | 63.6 | 90.0 | 60.0 |
DeepSeek-R1-Distill-Qwen-7B | 53.3 | 91.4 | 49.5 |
DeepSeek-R1-Distill-Llama-8B | 43.3 | 86.9 | 47.3 |
Bespoke-Stratos-7B* | 20.0 | 82.0 | 37.8 |
OpenThinker-7B* | 31.3 | 83.0 | 42.4 |
Llama-3.2-3B-Instruct | 6.7 | 44.4 | 25.3 |
Phi-4-Mini (ベースモデル, 3.8B) | 10.0 | 71.8 | 36.9 |
Phi-4-mini-reasoning (3.8B) | 57.5 | 94.6 | 52.0 |
全体として、3.8Bパラメータのみのモデルは、はるかに大きなモデルと同レベルの多言語理解能力と推論能力を達成しています。 ただし、特定のタスクではそのサイズによって根本的に制限されています。モデルにはあまり多くの事実知識を格納する容量がないため、ユーザーは事実の不正確さを経験する可能性があります。ただし、特にRAG設定でモデルを使用する場合、検索エンジンでPhi-4を拡張することで、この弱点を解決できる可能性があります。
使用方法
トークナイザー
Phi-4-mini-reasoningは最大200064
トークンの語彙サイズをサポートします。トークナイザーファイルには、下流のファインチューニングに使用できるプレースホルダートークンが既に提供されていますが、モデルの語彙サイズまで拡張することもできます。
入力形式
トレーニングデータの性質上、Phi-4-mini-instructモデルは特定の形式を使用したプロンプトに最適です。 以下に2つの主要な形式を示します:
チャット形式
この形式は一般的な会話や指示に使用されます:
<|system|>あなたの名前はPhi、Microsoftが開発したAI数学エキスパートです。<|end|><|user|>3*x^2+4*x+5=1を解く方法は?<|end|><|assistant|>
transformersでの推論
Phi-4-mini-reasoningはtransformers
の4.51.3
バージョンに統合されています。現在のtransformers
バージョンはpip list | grep transformers
で確認できます。
Python 3.8および3.10が最適に動作します。
必要なパッケージのリスト:
flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0
Phi-4-mini-reasoningはAzure AI Studioでも利用可能です
例
Phi-4-mini-instructモデルのチェックポイントを取得した後、ユーザーはこのサンプルコードを使用して推論できます。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [{
"role": "user",
"content": "3*x^2+4*x+5=1を解く方法は?"
}]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
)
outputs = model.generate(
**inputs.to(model.device),
max_new_tokens=32768,
temperature=0.8,
top_p=0.95,
do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
トレーニング
モデル
- アーキテクチャ: Phi-4-mini-reasoningはPhi-4-Miniと同じアーキテクチャを共有し、3.8Bパラメータを持つ密なデコーダー専用トランスフォーマーモデルです。Phi-3.5-Miniと比較して、Phi-4-Miniの主な変更点は200K語彙、グループ化クエリ注意、および入力と出力の埋め込みの共有です。
- 入力: テキスト。チャット形式を使用したプロンプトに最適です。
- コンテキスト長: 128Kトークン
- GPU: 128 H100-80G
- トレーニング時間: 2日間
- トレーニングデータ: 150Bトークン
- 出力: 生成されたテキスト
- 日付: 2024年2月にトレーニング
- ステータス: これは公開データのカットオフ日が2025年2月のオフラインデータセットでトレーニングされた静的モデルです。
- サポート言語: 英語
- リリース日: 2025年4月
トレーニングデータセット
Phi-4-mini-reasoningのトレーニングデータは、より強力で高度な推論モデルであるDeepseek-R1によって生成された合成数学コンテンツのみで構成されています。 目的は、このモデルから知識を蒸留することです。この合成データセットには、難易度の異なる100万以上の多様な数学問題(中学校から博士レベルまで)が含まれています。 合成データセットの各問題に対して、8つの異なる解決策(ロールアウト)がサンプリングされ、正しいと確認されたもののみが保持され、約300億トークンの数学コンテンツが得られました。 データセットは3つの主要コンポーネントを統合しています:
- 高品質で公開されている数学問題の厳選された選択と、ベースPhi-4-Miniモデルのトレーニングに使用されたSFT(教師ありファインチューニング)データの一部;
- Deepseek-R1モデルによって生成された広範な合成数学データのコレクションで、高品質な教師ありファインチューニングとモデル蒸留のために特別に設計されています;
- Phi-4-mini-reasoningの推論能力を強化するために、より効果的な推論軌道を学習することを目的とした、正解と不正解のバランスの取れたセットで構成された選好データ
ソフトウェア
ハードウェア
デフォルトでは、Phi-4-mini-reasoningモデルはフラッシュアテンションを使用しますが、これには特定のタイプのGPUハードウェアが必要です。以下のGPUタイプでテスト済みです:
- NVIDIA A100
- NVIDIA H100
以下のGPUでモデルを実行する場合:
- NVIDIA V100または以前の世代のGPU:attn_implementation="eager"を指定してAutoModelForCausalLM.from_pretrained()を呼び出してください
安全性評価とレッドチーミング
Phi-4モデルファミリーは、堅牢な安全性ポストトレーニングアプローチを採用しています。このアプローチは、オープンソースと社内生成の両方のさまざまなデータセットを活用しています。安全性アライメントに採用された全体的な技術は、SFT、DPO(直接選好最適化)、およびRLHF(人間のフィードバックからの強化学習)アプローチの組み合わせで、有用性と無害性に焦点を当てた公開データセットや、複数の安全性カテゴリを対象としたさまざまな質問と回答を含む、人間がラベル付けした合成英語データセットを利用しています。
Phi-4-Mini-Reasoningは、Microsoftの責任あるAI原則に従って開発されました。モデルの応答における潜在的な安全リスクは、Azure AI Foundryのリスクと安全性評価フレームワークを使用して評価され、有害なコンテンツ、直接のジェイルブレイク、およびモデルの接地性に焦点が当てられました。Phi-4-Mini-Reasoningモデルカードには、このモデルを使用する際に開発者が認識すべき安全性と責任あるAIに関する考慮事項に関する追加情報が含まれています。
責任あるAIの考慮事項
他の言語モデルと同様に、Phiモデルファミリーは不公平、信頼性が低い、または攻撃的な方法で動作する可能性があります。認識すべき制限行動には以下が含まれます:
- サービスの品質:Phiモデルは主に英語テキストといくつかの追加の多言語テキストでトレーニングされています。英語以外の言語ではパフォーマンスが低下し、非英語間でパフォーマンスの差が生じます。トレーニングデータで表現が少ない英語のバリエーションは、標準的なアメリカ英語よりもパフォーマンスが低下する可能性があります。
- 多言語パフォーマンスと安全性のギャップ:言語モデルをさまざまな言語でより広く利用できるようにすることは重要ですが、Phi 4モデルは依然として多言語リリースに共通する課題を示しています。LLMの展開と同様に、開発者は言語的および文化的な文脈に対するパフォーマンスや安全性のギャップをテストし、追加のファインチューニングと適切な保護策でモデルをカスタマイズする方が有利な立場にあります。
- 危害の表現とステレオタイプの永続化:これらのモデルは、人々のグループを過剰または過少に表現したり、一部のグループの表現を消去したり、軽蔑的または否定的なステレオタイプを強化したりする可能性があります。安全性ポストトレーニングにもかかわらず、異なるグループの表現レベル、文化的文脈、またはトレーニングデータにおける否定的なステレオタイプの例の普及が現実世界のパターンや社会的バイアスを反映しているため、これらの制限が依然として存在する可能性があります。
- 不適切または攻撃的なコンテンツ:これらのモデルは、他のタイプの不適切または攻撃的なコンテンツを生成する可能性があり、追加の軽減策なしに敏感な文脈に展開するには不適切な場合があります。
- 情報の信頼性:言語モデルは無意味なコンテンツを生成したり、合理的に聞こえるが不正確または時代遅れのコンテンツを作成したりする可能性があります。
- 選挙情報の信頼性:モデルは選挙関連のクエリに応答する際に欠陥率が高く、選挙に関連する誤ったまたは非権威的な情報が提示される可能性があります。この分野のモデルのパフォーマンスを向上させるために取り組んでいます。ユーザーは地域の選挙当局で選挙に関連する情報を確認する必要があります。
- コードの限定的な範囲:Phi 4トレーニングデータの大部分はPythonベースで、"typing, math, random, collections, datetime, itertools"などの一般的なパッケージを使用しています。モデルが他のパッケージを利用するPythonスクリプトや他の言語のスクリプトを生成する場合、すべてのAPI使用を手動で確認することを強くお勧めします。
- 長い会話:Phi 4モデルは、他のモデルと同様に、英語と非英語の両方で非常に長いチャットセッションにおいて、繰り返し、役に立たない、または一貫性のない応答を生成する場合があります。開発者は、会話のドリフトの可能性を考慮して、会話のターンを制限するなどの適切な軽減策を適用することをお勧めします。
開発者は、特定の使用ケースと言語的、文化的な文脈に関連するリスクをマッピング、測定、軽減する責任あるAIのベストプラクティスを適用する必要があります。Phi 4モデルファミリーは汎用モデルです。開発者がこれらのモデルを特定の使用ケースに展開する計画を立てる際には、使用ケース向けにモデルをファインチューニングし、言語固有の保護策を備えたより広範なAIシステムの一部としてモデルを活用することをお勧めします。考慮すべき重要な領域には以下が含まれます:
- 配分:法的地位や資源または生活機会(例:住宅、雇用、信用など)の配分に影響を与える可能性のあるシナリオでは、さらなる評価と追加のバイアス除去技術なしではモデルが適切でない場合があります。
- 高リスクシナリオ:開発者は、不公平、信頼性が低い、または攻撃的な出力が非常にコストがかかるまたは危害につながる可能性のある高リスクシナリオでモデルを使用する適切性を評価する必要があります。これには、正確性と信頼性が重要な敏感または専門的な分野(例:法的または健康に関するアドバイス)でのアドバイスの提供が含まれます。展開文脈に応じて、アプリケーションレベルで追加の保護策を実装する必要があります。
- 誤情報:モデルは不正確な情報を生成する可能性があります。開発者は透明性のベストプラクティスに従い、エンドユーザーがAIシステムと対話していることを通知する必要があります。アプリケーションレベルでは、フィードバックメカニズムとパイプラインを構築し、Retrieval Augmented Generation(RAG)として知られる使用ケース固有の文脈情報で応答を接地することができます。
- 有害なコンテンツの生成:開発者は、文脈に応じて出力を評価し、使用ケースに適した利用可能な安全性分類器またはカスタムソリューションを使用する必要があります。
- 悪用:詐欺、スパム、またはマルウェアの作成などの他の形態の悪用が可能であり、開発者はアプリケーションが適用可能な法律や規制に違反しないことを確認する必要があります。
ライセンス
このモデルはMITライセンスの下でライセンスされています。
商標
このプロジェクトには、プロジェクト、製品、またはサービスの商標またはロゴが含まれている場合があります。Microsoftの商標またはロゴの許可された使用は、Microsoftの商標&ブランドガイドラインに従う必要があります。このプロジェクトの修正版でのMicrosoftの商標またはロゴの使用は、混乱を引き起こしたり、Microsoftの後援を暗示したりしてはなりません。第三者の商標またはロゴの使用は、それらの第三者のポリシーに従う必要があります。
付録A:ベンチマーク方法論
ここでは方法論について簡単に説明します - 特に、プロンプトの最適化についてどのように考えているかについてです。理想的な世界では、異なるモデルを比較する際に常に公平な比較ができるように、ベンチマークのプロンプトを変更することはありません。実際、これが私たちのデフォルトのアプローチであり、これまでに実行したほとんどのモデルで当てはまります。すべてのベンチマークで、max sequence length(32768)、同じ温度など、同じ生成設定を使用して公平な比較を考慮します。 ベンチマークデータセット モデルは、最も強力な推論モデルが競い合う3つの人気のある数学ベンチマークで評価されます。具体的には:
- Math-500:このベンチマークは、モデルの複雑な数学的推論と問題解決能力をテストするために設計された500の難しい数学問題で構成されています。
- AIME 2024:American Invitational Mathematics Examination(AIME)は、高度な数学的スキルと論理的推論を評価することを目的とした一連の難しい問題を特徴とする、高く評価されている数学コンテストです。
- GPQA Diamond:Graduate-Level Google-Proof Q&A(GPQA)Diamondベンチマークは、単純な計算からより複雑な問題解決タスクまで、幅広い数学的質問を理解し解決するモデルの能力を評価することに焦点を当てています。



