モデル概要
モデル特徴
モデル能力
使用事例
base_model:
- microsoft/Phi-4-mini-reasoning language:
- en library_name: transformers license: mit license_link: https://huggingface.co/microsoft/Phi-4-mini-instruct-reasoning/resolve/main/LICENSE pipeline_tag: text-generation tags:
- nlp
- unsloth
- math
- code widget:
- messages:
- role: user content: 3x^2+4x+5=1の解き方は?
モデル概要
Phi-4-mini-reasoningは、高品質な推論に特化した合成データに基づいて構築された軽量オープンモデルで、より高度な数学的推論能力のためにさらにファインチューニングされています。 このモデルはPhi-4モデルファミリーに属し、128Kトークンのコンテキスト長をサポートします。
üì∞ Phi-4-mini-reasoningブログ、および開発者向け記事
üìñ Phi-4-mini-reasoning技術レポート
üë©‚Äçüç≥ Phiクックブック
üè° Phiポータル
üñ•Ô∏è Azureで試す
üéâPhi-4モデル: [Phi-4-reasoning] | [multimodal-instruct | onnx]; [mini-instruct | onnx]
使用目的
主な使用ケース
Phi-4-mini-reasoningは、メモリ/計算リソースが制約された環境やレイテンシが重要なシナリオにおける、多段階のロジック集約型の数学的問題解決タスク向けに設計されています。 使用ケースには、形式的な証明生成、記号的計算、高度な文章題、および幅広い数学的推論シナリオが含まれます。 これらのモデルは、ステップ間でコンテキストを維持し、構造化されたロジックを適用し、深い分析的思考を必要とする領域で正確で信頼性の高いソリューションを提供することに優れています。
使用ケースの考慮事項
このモデルは数学的推論のみを目的として設計およびテストされています。すべての下流用途向けに特別に設計または評価されているわけではありません。 開発者は、特定の下流使用ケースで使用する前に、言語モデルの一般的な制限、言語間のパフォーマンスの違いを考慮し、特に高リスクシナリオでは正確性、安全性、公平性を評価・軽減する必要があります。 開発者は、自らの使用ケースに関連する適用可能な法律や規制(プライバシー、貿易コンプライアンス法などに限定されません)を認識し、遵守する必要があります。
このモデルカードに含まれる内容は、モデルがリリースされているライセンスに対する制限または変更と解釈またはみなされるべきではありません。
リリースノート
このPhi-4-mini-reasoningのリリースは、ユーザーフィードバックとコンパクトな推論モデルに対する市場の需要に対応しています。 これは、計算リソースやレイテンシが制約される環境で高品質な段階的な問題解決を提供するために最適化された、コンパクトなトランスフォーマーベースの言語モデルです。 モデルは、より能力の高いモデル(はるかに大きく、賢く、正確で、指示に従う能力に優れている)から生成された合成数学データでファインチューニングされており、推論性能が向上しています。 Phi-4-mini-reasoningは推論能力と効率性のバランスを取っており、教育アプリケーション、組み込み型チュートリアル、エッジまたはモバイルシステムでの軽量な展開に適している可能性があります。 Phi-4-mini-reasoningで重大な問題が確認された場合は、MSRC Researcher Portalまたはsecure@microsoft.comを通じて速やかに報告してください。
モデル品質
能力を理解するために、3.8BパラメータのPhi-4-mini-reasoningモデルを、さまざまな推論ベンチマークで一連のモデルと比較しました。 モデル品質の概要は以下の通りです:
モデル | AIME | MATH-500 | GPQA Diamond |
---|---|---|---|
o1-mini* | 63.6 | 90.0 | 60.0 |
DeepSeek-R1-Distill-Qwen-7B | 53.3 | 91.4 | 49.5 |
DeepSeek-R1-Distill-Llama-8B | 43.3 | 86.9 | 47.3 |
Bespoke-Stratos-7B* | 20.0 | 82.0 | 37.8 |
OpenThinker-7B* | 31.3 | 83.0 | 42.4 |
Llama-3.2-3B-Instruct | 6.7 | 44.4 | 25.3 |
Phi-4-Mini (ベースモデル, 3.8B) | 10.0 | 71.8 | 36.9 |
Phi-4-mini-reasoning (3.8B) | 57.5 | 94.6 | 52.0 |
全体として、3.8Bパラメータのみのこのモデルは、はるかに大きなモデルと同レベルの多言語理解能力と推論能力を達成しています。 ただし、特定のタスクについてはそのサイズによって根本的に制限されています。このモデルは、あまりにも多くの事実知識を保存する能力を持っていないため、ユーザーは事実の不正確さを経験する可能性があります。しかし、特にRAG設定でモデルを使用する場合、検索エンジンでPhi-4を拡張することによってそのような弱点を解決できる可能性があります。
使用方法
トークナイザー
Phi-4-mini-reasoningは、最大200064
トークンの語彙サイズをサポートしています。トークナイザーファイルには、下流のファインチューニングに使用できるプレースホルダートークンが既に提供されていますが、モデルの語彙サイズまで拡張することもできます。
入力形式
トレーニングデータの性質上、Phi-4-mini-instructモデルは特定の形式を使用するプロンプトに最適です。 以下に2つの主要な形式を示します:
チャット形式
この形式は一般的な会話や指示に使用されます:
<|system|>あなたの名前はPhi、Microsoftが開発したAI数学エキスパートです。<|end|><|user|>3*x^2+4*x+5=1の解き方は?<|end|><|assistant|>
transformersでの推論
Phi-4-mini-reasoningはtransformers
の4.51.3
バージョンに統合されています。現在のtransformers
バージョンはpip list | grep transformers
で確認できます。
Python 3.8および3.10が最適に動作します。
必要なパッケージのリスト:
flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0
Phi-4-mini-reasoningはAzure AI Studioでも利用可能です
例
Phi-4-mini-instructモデルのチェックポイントを取得した後、ユーザーはこのサンプルコードを推論に使用できます。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [{
"role": "user",
"content": "3*x^2+4*x+5=1の解き方は?"
}]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
)
outputs = model.generate(
**inputs.to(model.device),
max_new_tokens=32768,
temperature=0.8,
top_p=0.95,
do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
トレーニング
モデル
- アーキテクチャ: Phi-4-mini-reasoningはPhi-4-Miniと同じアーキテクチャを共有しており、3.8Bパラメータの密なデコーダー専用トランスフォーマーモデルです。Phi-3.5-Miniと比較した場合、Phi-4-Miniの主な変更点は200Kの語彙、グループ化クエリ注意、および共有された入力と出力の埋め込みです。
- 入力: テキスト。チャット形式を使用するプロンプトに最適です。
- コンテキスト長: 128Kトークン
- GPU: 128 H100-80G
- トレーニング時間: 2日間
- トレーニングデータ: 150Bトークン
- 出力: 生成されたテキスト
- トレーニング日: 2024年2月
- ステータス: これは公開データのカットオフ日が2025年2月であるオフラインデータセットでトレーニングされた静的モデルです。
- サポート言語: 英語
- リリース日: 2025年4月
トレーニングデータセット
Phi-4-mini-reasoningのトレーニングデータは、より強力で高度な推論モデルであるDeepseek-R1によって生成された合成数学コンテンツのみで構成されています。 目的はこのモデルから知識を蒸留することです。この合成データセットには、難易度の異なる(中学校から博士レベルまで)100万以上の多様な数学問題が含まれています。 合成データセットの各問題に対して、8つの異なるソリューション(ロールアウト)がサンプリングされ、正しいと確認されたもののみが保持され、約300億トークンの数学コンテンツが得られました。 データセットは3つの主要なコンポーネントを統合しています:
- 高品質で公開されている数学問題の厳選された選択と、ベースPhi-4-Miniモデルのトレーニングに使用されたSFT(教師ありファインチューニング)データの一部;
- Deepseek-R1モデルによって生成された、高品質な教師ありファインチューニングとモデル蒸留のために特別に設計された広範な合成数学データのコレクション;
- Phi-4-mini-reasoningの推論能力を強化するために、より効果的な推論軌道を学習することを目的として構築された、正解と不正解のバランスの取れたセット
ソフトウェア
ハードウェア
デフォルトでは、Phi-4-mini-reasoningモデルはフラッシュアテンションを使用しており、実行には特定のタイプのGPUハードウェアが必要です。以下のGPUタイプでテスト済みです:
- NVIDIA A100
- NVIDIA H100
以下のGPUでモデルを実行したい場合:
- NVIDIA V100または以前の世代のGPU:AutoModelForCausalLM.from_pretrained()をattn_implementation="eager"で呼び出してください
安全性評価とレッドチーミング
Phi-4モデルファミリーは、堅牢な安全性ポストトレーニングアプローチを採用しています。このアプローチは、オープンソースと社内生成の両方のさまざまなデータセットを活用しています。安全性アラインメントに使用される全体的な技術は、SFT、DPO(直接選好最適化)、およびRLHF(人間のフィードバックからの強化学習)アプローチの組み合わせであり、有用性と無害性に焦点を当てた公開データセット、および複数の安全性カテゴリを対象としたさまざまな質問と回答を含む、人間がラベル付けした合成英語データセットを利用しています。
Phi-4-Mini-Reasoningは、Microsoftの責任あるAI原則に従って開発されました。モデルの応答における潜在的な安全リスクは、Azure AI Foundryのリスクと安全性評価フレームワークを使用して評価され、有害なコンテンツ、直接的なジェイルブレイク、およびモデルの接地性に焦点が当てられました。Phi-4-Mini-Reasoningモデルカードには、このモデルを使用する際に開発者が認識すべき安全性と責任あるAIに関する考慮事項に関する追加情報が含まれています。
責任あるAIの考慮事項
他の言語モデルと同様に、Phiモデルファミリーは不公平、信頼性が低い、または攻撃的な方法で動作する可能性があります。認識すべき制限的な動作には以下が含まれます:
- サービスの品質:Phiモデルは主に英語テキストといくつかの追加の多言語テキストでトレーニングされています。英語以外の言語ではパフォーマンスが低下し、非英語間でパフォーマンスの差が生じます。トレーニングデータでの表現が少ない英語のバリエーションは、標準的なアメリカ英語よりもパフォーマンスが低下する可能性があります。
- 多言語パフォーマンスと安全性のギャップ:言語モデルをさまざまな言語でより広く利用可能にすることは重要ですが、Phi 4モデルは依然として多言語リリースに共通する課題を示しています。LLMの展開と同様に、開発者は自らの言語的・文化的コンテキストに対するパフォーマンスや安全性のギャップをテストし、追加のファインチューニングと適切な保護策でモデルをカスタマイズする方が良い立場にあります。
- 危害の表現とステレオタイプの永続化:これらのモデルは、人々のグループを過剰または過少に表現したり、一部のグループの表現を消去したり、軽蔑的または否定的なステレオタイプを強化したりする可能性があります。安全性ポストトレーニングにもかかわらず、異なるグループの表現レベル、文化的コンテキスト、またはトレーニングデータにおける否定的なステレオタイプの例の普及が現実世界のパターンや社会的バイアスを反映しているため、これらの制限が依然として存在する可能性があります。
- 不適切または攻撃的なコンテンツ:これらのモデルは他のタイプの不適切または攻撃的なコンテンツを生成する可能性があり、追加の軽減策なしに敏感なコンテキストに展開するには不適切かもしれません。
- 情報の信頼性:言語モデルは無意味なコンテンツを生成したり、合理的に聞こえるが不正確または時代遅れのコンテンツを作成したりする可能性があります。
- 選挙情報の信頼性:モデルは選挙に関連するクエリに応答する際に欠陥率が高く、誤ったまたは非公式の選挙関連情報が提示される可能性があります。この分野でのモデルのパフォーマンスを改善するために取り組んでいます。ユーザーは地域の選挙当局で選挙に関連する情報を確認する必要があります。
- コードの限定的な範囲:Phi 4のトレーニングデータの大部分はPythonに基づいており、"typing, math, random, collections, datetime, itertools"などの一般的なパッケージを使用しています。モデルが他のパッケージを利用するPythonスクリプトや他の言語のスクリプトを生成する場合、すべてのAPI使用を手動で確認することを強くお勧めします。
- 長い会話:Phi 4モデルは他のモデルと同様に、非常に長いチャットセッションで繰り返し的、役に立たない、または一貫性のない応答を生成する場合があります。開発者は、会話のドリフトの可能性を考慮して、会話のターンを制限するなどの適切な軽減策を適用することをお勧めします。
開発者は、責任あるAIのベストプラクティスを適用し、特定の使用ケースと言語的・文化的コンテキストに関連するリスクをマッピング、測定、軽減する必要があります。Phi 4モデルファミリーは汎用モデルです。開発者がこれらのモデルを特定の使用ケースに展開する計画を立てる際には、使用ケース向けにモデルをファインチューニングし、言語固有の保護策を備えたより広範なAIシステムの一部としてモデルを活用することをお勧めします。考慮すべき重要な領域には以下が含まれます:
- 割り当て:法的地位や資源または生活機会(例:住宅、雇用、信用など)の割り当てに影響を与える可能性のあるシナリオでは、モデルは追加の評価とバイアス除去技術なしでは適切ではない可能性があります。
- 高リスクシナリオ:開発者は、不公平、信頼性が低い、または攻撃的な出力が非常にコストがかかるまたは危害につながる可能性のある高リスクシナリオでのモデルの使用の適切性を評価する必要があります。これには、正確性と信頼性が重要な敏感または専門的な領域(例:法的または健康に関するアドバイス)でのアドバイスの提供が含まれます。展開コンテキストに応じて、アプリケーションレベルで追加の保護策を実装する必要があります。
- 誤情報:モデルは不正確な情報を生成する可能性があります。開発者は透明性のベストプラクティスに従い、エンドユーザーがAIシステムと対話していることを通知する必要があります。アプリケーションレベルでは、開発者はフィードバックメカニズムとパイプラインを構築し、使用ケース固有のコンテキスト情報で応答を接地させることができます。この技術はRetrieval Augmented Generation(RAG)として知られています。
- 有害なコンテンツの生成:開発者はコンテキストに応じて出力を評価し、利用可能な安全性分類器または使用ケースに適したカスタムソリューションを使用する必要があります。
- 誤用:詐欺、スパム、またはマルウェアの作成などの他の形態の誤用が可能であり、開発者は自らのアプリケーションが適用可能な法律や規制に違反しないことを確認する必要があります。
ライセンス
このモデルはMITライセンスの下でライセンスされています。
商標
このプロジェクトには、プロジェクト、製品、またはサービスの商標またはロゴが含まれている場合があります。Microsoftの商標またはロゴの許可された使用は、Microsoftの商標およびブランドガイドラインに従う必要があります。このプロジェクトの変更版でのMicrosoftの商標またはロゴの使用は、混乱を招いたりMicrosoftの後援を暗示したりしてはなりません。第三者の商標またはロゴの使用は、それらの第三者のポリシーに従う必要があります。
付録A:ベンチマーク方法論
ここでは方法論について簡単に説明します - 特に、プロンプトの最適化についてどのように考えているかについてです。理想的な世界では、異なるモデルを比較する際に常にリンゴ同士の比較ができるように、ベンチマークでプロンプトを変更することはありません。実際、これが私たちのデフォルトのアプローチであり、これまでに実行したモデルの大部分が該当します。すべてのベンチマークで、max sequence length(32768)、同じ温度など、同じ生成設定を使用して公平な比較を行います。 ベンチマークデータセット 最も強力な推論モデルが競い合っている3つの人気のある数学ベンチマークでモデルを評価します。具体的には:
- Math-500:このベンチマークは、モデルの複雑な数学的推論と問題解決能力をテストするために設計された500の挑戦的な数学問題で構成されています。
- AIME 2024:American Invitational Mathematics Examination(AIME)は、高度な数学スキルと論理的推論を評価することを目的とした一連の難しい問題を特徴とする、高く評価されている数学コンペティションです。
- GPQA Diamond:Graduate-Level Google-Proof Q&A(GPQA)Diamondベンチマークは、モデルが幅広い数学的質問を理解し解決する能力を評価することに焦点を当てており、単純な計算からより複雑な問題解決タスクまで含まれます。



