モデル概要
モデル特徴
モデル能力
使用事例
license: mit license_link: https://huggingface.co/microsoft/Phi-4-reasoning-plus/resolve/main/LICENSE language:
- en base_model:
- microsoft/phi-4 pipeline_tag: text-generation tags:
- phi
- nlp
- math
- code
- chat
- conversational
- reasoning inference: parameters: temperature: 0 widget:
- messages:
- role: user content: x^2の微分は何ですか? library_name: transformers
Phi-4-reasoning-plus モデルカード
モデル概要
開発元 | Microsoft Research |
説明 | Phi-4-reasoning-plusは、Phi-4をベースに、連鎖思考トレースのデータセットを用いた教師ありファインチューニングと強化学習によってファインチューニングされた最先端のオープンウェイト推論モデルです。教師ありファインチューニングデータセットには、数学、科学、コーディングスキルに焦点を当てた合成プロンプトと公開ドメインのウェブサイトからの高品質なフィルタリング済みデータのブレンド、および安全性と責任あるAIのためのアライメントデータが含まれています。このアプローチの目的は、高品質で高度な推論に焦点を当てたデータで訓練された小型で有能なモデルを確保することでした。Phi-4-reasoning-plusはさらに強化学習で訓練されており、より高い精度を持ちますが、平均して50%以上のトークンを生成するため、レイテンシが高くなっています。 |
アーキテクチャ | 以前にリリースされたPhi-4と同じベースモデル、140億パラメータ、密なデコーダーのみのトランスフォーマーモデル |
入力 | テキスト、チャット形式のプロンプトに最適 |
コンテキスト長 | 32kトークン |
GPU | 32 H100-80G |
訓練時間 | 2.5日 |
訓練データ | 160億トークン、約83億ユニークトークン |
出力 | 入力に対する応答として生成されたテキスト。モデルの応答は2つのセクション、すなわち、連鎖思考ブロックと要約ブロックで構成されます |
期間 | 2025年1月 – 2025年4月 |
ステータス | 2025年3月以前の公開データのカットオフ日付を持つオフラインデータセットで訓練された静的モデル |
リリース日 | 2025年4月30日 |
ライセンス | MIT |
意図された使用法
主な使用例 | このモデルは、言語モデルの研究を加速するために設計されており、生成AIを動力とする機能の構築ブロックとして使用されます。以下の要件を持つ一般的な目的のAIシステムやアプリケーション(主に英語)に使用されます: 1. メモリ/計算が制約された環境。 2. レイテンシが制約されるシナリオ。 3. 推論と論理。 |
範囲外の使用例 | このモデルは数学推論専用に設計およびテストされています。私たちのモデルは、すべての下流用途に対して特別に設計または評価されているわけではありません。開発者は、特定の下流用途を選択する際に言語モデルの一般的な制限を考慮し、正確性、安全性、公平性について評価および緩和する必要があります。特に高リスクのシナリオでは、適用可能な法律や規制(プライバシー、貿易コンプライアンス法など)を認識し、遵守する必要があります。このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更と解釈または見なされるべきではありません。 |
使用方法
[!重要]
モデルの能力を最大限に活用するには、推論時にtemperature=0.8
、top_k=50
、top_p=0.95
、およびdo_sample=True
を使用する必要があります。より複雑なクエリの場合、max_new_tokens=32768
を設定して、より長い連鎖思考(CoT)を可能にします。
Phi-4-reasoning-plusは、推論集約型タスクで強力なパフォーマンスを示しています。私たちの実験では、最大トークン数を64kに拡張し、より長いシーケンスを有望な結果で処理し、拡張された入力にわたって一貫性と論理的一貫性を維持しました。これは、深い多段階の推論または広範なコンテキストを必要とするタスクに探求するための魅力的なオプションとなります。
入力形式
訓練データの性質上、推論には常に以下のシステムプロンプトを含むChatMLテンプレートを使用してください:
<|im_start|>system<|im_sep|>
あなたはPhiです、Microsoftによって訓練された言語モデルで、ユーザーを助けるために設計されています。アシスタントとしてのあなたの役割は、最終的な正確で正確な解決策を提供する前に、体系的な思考プロセスを通じて質問を徹底的に探求することです。これには、分析、要約、探求、再評価、反省、バックトレース、および反復の包括的なサイクルに従事して、よく考えられた思考プロセスを開発する必要があります。応答を2つの主要なセクション、すなわち思考と解決策に構造化してください。思考セクションでは、推論プロセスをステップごとに詳細に説明してください。各ステップには、質問の分析、関連する発見の要約、新しいアイデアのブレインストーミング、現在のステップの正確性の検証、エラーの洗練、および前のステップの再訪などの詳細な考慮事項を含めてください。解決策セクションでは、思考セクションからのさまざまな試み、探求、および反省に基づいて、あなたが正しいと考える最終的な解決策を体系的に提示してください。解決策セクションは、論理的で正確かつ簡潔で、結論に達するために必要なステップを詳細に説明する必要があります。さて、上記のガイドラインを通じて次の質問を解決してみてください:<|im_end|>
<|im_start|>user<|im_sep|>
x^2の微分は何ですか?<|im_end|>
<|im_start|>assistant<|im_sep|>
transformers
を使用して
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-4-reasoning-plus")
model = AutoModelForCausalLM.from_pretrained("microsoft/Phi-4-reasoning-plus", device_map="auto", torch_dtype="auto")
messages = [
{"role": "system", "content": "あなたはPhiです、Microsoftによって訓練された言語モデルで、ユーザーを助けるために設計されています。アシスタントとしてのあなたの役割は、最終的な正確で正確な解決策を提供する前に、体系的な思考プロセスを通じて質問を徹底的に探求することです。これには、分析、要約、探求、再評価、反省、バックトレース、および反復の包括的なサイクルに従事して、よく考えられた思考プロセスを開発する必要があります。応答を2つの主要なセクション、すなわち思考と解決策に構造化してください。思考セクションでは、推論プロセスをステップごとに詳細に説明してください。各ステップには、質問の分析、関連する発見の要約、新しいアイデアのブレインストーミング、現在のステップの正確性の検証、エラーの洗練、および前のステップの再訪などの詳細な考慮事項を含めてください。解決策セクションでは、思考セクションからのさまざまな試み、探求、および反省に基づいて、あなたが正しいと考える最終的な解決策を体系的に提示してください。解決策セクションは、論理的で正確かつ簡潔で、結論に達するために必要なステップを詳細に説明する必要があります。さて、上記のガイドラインを通じて次の質問を解決してみてください:"},
{"role": "user", "content": "x^2の微分は何ですか?"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(
inputs.to(model.device),
max_new_tokens=4096,
temperature=0.8,
top_k=50,
top_p=0.95,
do_sample=True,
)
print(tokenizer.decode(outputs[0]))
vllm
を使用して
vllm serve microsoft/Phi-4-reasoning-plus --enable-reasoning --reasoning-parser deepseek_r1
Phi-4-reasoning-plusは、Ollama、llama.cpp、およびPhi-4互換のフレームワークでもすぐに使用できます。
データ概要
訓練データセット
私たちの訓練データは、数学、科学、コーディングにおけるQ&A、チャット形式のデータの混合物です。チャットプロンプトは、フィルタリングされた高品質のウェブデータからソースされ、オプションで書き直され、合成データ生成パイプラインを通じて処理されます。さらに、真実性と安全性を向上させるためのデータを含めます。
ベンチマークデータセット
私たちは、オープンソースのEureka評価スイートと独自の内部ベンチマークを使用してPhi-4-reasoning-plusの能力を理解するために評価しました。具体的には、以下のタスクでモデルを評価します:
推論タスク:
-
AIME 2025, 2024, 2023, および 2022: 数学オリンピックの問題。
-
GPQA-Diamond: 複雑な大学院レベルの科学問題。
-
OmniMath: 人間の注釈付きの4000以上のオリンピックレベルの数学問題のコレクション。
-
LiveCodeBench: 競技プログラミングコンテストから収集されたコード生成ベンチマーク。
-
3SAT(3-リテラル充足可能性問題)および TSP(巡回セールスマン問題): アルゴリズム的問題解決。
-
BA Calendar: 計画。
-
MazeおよびSpatialMap: 空間理解。
一般的なベンチマーク:
-
Kitab: 情報検索。
-
IFEvalおよびArenaHard: 指示の追跡。
-
PhiBench: 内部ベンチマーク。
-
FlenQA: プロンプトの長さがモデルのパフォーマンスに与える影響。
-
HumanEvalPlus: 機能的なコード生成。
-
MMLU-Pro: 多タスク言語理解のための人気のある集約データセット。
安全性
アプローチ
Phi-4-reasoning-plusは、教師ありファインチューニング(SFT)による堅牢な安全性ポストトレーニングアプローチを採用しています。このアプローチは、オープンソースと社内生成の合成プロンプトの両方を活用し、Microsoftの安全性ガイドラインに厳密に準拠したLLM生成応答を使用します。例えば、ユーザー理解と明確さ、セキュリティと倫理ガイドライン、制限、免責事項と知識範囲、複雑で敏感なトピックの処理、安全性と尊重ある関与、ガイドラインの機密性と連鎖思考の機密性などです。
安全性評価とレッドチーミング
リリース前に、Phi-4-reasoning-plusは多面的な評価アプローチに従いました。定量的評価は、複数のオープンソースの安全性ベンチマークと、敵対的会話シミュレーションを利用する社内ツールで実施されました。定性的な安全性評価のために、Microsoftの独立したAIレッドチーム(AIRT)と協力して、平均的および敵対的なユーザーシナリオでPhi-4-reasoning-plusがもたらす安全性リスクを評価しました。平均的なユーザーシナリオでは、AIRTは典型的な単一ターンおよび複数ターンの相互作用を模倣して、潜在的に危険な行動を特定しました。敵対的なユーザーシナリオでは、モデルの安全性訓練を意図的に破るための広範な技術をテストしました。これには、根拠性、ジェイルブレイク、憎悪や不公平などの有害なコンテンツ、暴力、性的コンテンツ、自傷行為、および保護された資料の著作権侵害が含まれます。さらに、マイノリティグループを対象としたバイアスと毒性を測定するために設計されたベンチマークToxigenでモデルを評価しました。
安全性アライメントの詳細については、テクニカルレポートを参照してください。
モデル品質
代表的なベンチマークにおけるモデル品質の高レベルの概要。以下の表では、数字が高いほどパフォーマンスが良いことを示します:
AIME 24 | AIME 25 | OmniMath | GPQA-D | LiveCodeBench (8/1/24–2/1/25) | |
---|---|---|---|---|---|
Phi-4-reasoning | 75.3 | 62.9 | 76.6 | 65.8 | 53.8 |
Phi-4-reasoning-plus | 81.3 | 78.0 | 81.9 | 68.9 | 53.1 |
OpenThinker2-32B | 58.0 | 58.0 | — | 64.1 | — |
QwQ 32B | 79.5 | 65.8 | — | 59.5 | 63.4 |
EXAONE-Deep-32B | 72.1 | 65.8 | — | 66.1 | 59.5 |
DeepSeek-R1-Distill-70B | 69.3 | 51.5 | 63.4 | 66.2 | 57.5 |
DeepSeek-R1 | 78.7 | 70.4 | 85.0 | 73.0 | 62.8 |
o1-mini | 63.6 | 54.8 | — | 60.0 | 53.8 |
o1 | 74.6 | 75.3 | 67.5 | 76.7 | 71.0 |
o3-mini | 88.0 | 78.0 | 74.6 | 77.7 | 69.5 |
Claude-3.7-Sonnet | 55.3 | 58.7 | 54.6 | 76.8 | — |
Gemini-2.5-Pro | 92.0 | 86.7 | 61.1 | 84.0 | 69.2 |
Phi-4 | Phi-4-reasoning | Phi-4-reasoning-plus | o3-mini | GPT-4o | |
---|---|---|---|---|---|
FlenQA [3K-token subset] | 82.0 | 97.7 | 97.9 | 96.8 | 90.8 |
IFEval Strict | 62.3 | 83.4 | 84.9 | 91.5 | 81.8 |
ArenaHard | 68.1 | 73.3 | 79.0 | 81.9 | 75.6 |
HumanEvalPlus | 83.5 | 92.9 | 92.3 | 94.0 | 88.0 |
MMLUPro | 71.5 | 74.3 | 76.0 | 79.4 | 73.0 |
Kitab コンテキストなし - 精度 コンテキストあり - 精度 コンテキストなし - 再現率 コンテキストあり - 再現率 |
19.3 88.5 8.2 68.1 |
23.2 91.5 4.9 74.8 |
27.6 93.6 6.3 75.4 |
37.9 94.0 4.2 76.1 |
53.7 84.7 20.3 69.2 |
Toxigen Discriminative 有害カテゴリ 中立カテゴリ |
72.6 90.0 |
86.7 84.7 |
77.3 90.5 |
85.4 88.7 |
87.6 85.1 |
PhiBench 2.21 | 58.2 | 70.6 | 74.2 | 78.0 | 72.4 |
全体として、Phi-4-reasoningとPhi-4-reasoning-plusは、140億パラメータのみで、DeepSeek-R1蒸留70Bモデルなどの大幅に大きなオープンウェイトモデルを上回り、完全なDeepSeek R1モデルのパフォーマンスレベルに近づいています。また、3SAT、TSP、BA-Calendarなどのアルゴリズム的問題解決と計画のための複数の新しい推論ベンチマークでモデルをテストしました。これらの新しいタスクは、訓練プロセスがこれらのスキルを意図的にターゲットにしていなかったため、名目上はモデルの範囲外ですが、モデルはこれらのタスクに対して強い一般化を示しています。さらに、指示の追跡や非推論タスクなどの標準的な一般的な能力ベンチマークに対するパフォーマンスを評価すると、ポストトレーニングが特定のドメインの推論スキルに焦点を当てていたにもかかわらず、新しいモデルがPhi-4から大幅に改善されていることがわかります。
責任あるAIの考慮事項
他の言語モデルと同様に、Phi-4-reasoning-plusは不公平、信頼性が低い、または攻撃的な方法で動作する可能性があります。認識すべき制限行動には以下が含まれます:
-
サービスの品質: モデルは主に英語のテキストで訓練されています。英語以外の言語ではパフォーマンスが低下します。訓練データで表現が少ない英語のバリエーションは、標準的なアメリカ英語よりもパフォーマンスが低下する可能性があります。Phi-4-reasoning-plusは多言語使用をサポートすることを意図していません。
-
危害の表現とステレオタイプの永続化: これらのモデルは、人々のグループを過剰または過少に表現したり、一部のグループの表現を消去したり、軽蔑的または否定的なステレオタイプを強化したりする可能性があります。安全性ポストトレーニングにもかかわらず、これらの制限は、異なるグループの表現レベルや、現実世界のパターンや社会的バイアスを反映した訓練データ中の否定的なステレオタイプの例の普及のために、依然として存在する可能性があります。
-
不適切または攻撃的なコンテンツ: これらのモデルは、他の種類の不適切または攻撃的なコンテンツを生成する可能性があり、追加の緩和策なしに敏感なコンテキストに展開するには不適切かもしれません。
-
情報の信頼性: 言語モデルは、意味のないコンテンツを生成したり、合理的に聞こえるが不正確または時代遅れのコンテンツを作成したりする可能性があります。
-
選挙情報の信頼性: モデルは、選挙に関する重要なクエリに応答する際に欠陥率が高く、誤ったまたは非権威的な選挙に関する情報が提示される可能性があります。この分野のモデルのパフォーマンスを改善するために取り組んでいます。ユーザーは、地域の選挙当局で選挙に関する情報を確認する必要があります。
-
コードの限定的な範囲: Phi-4-reasoning-plusの訓練データの大部分はPythonに基づいており、
typing
、math
、random
、collections
、datetime
、itertools
などの一般的なパッケージを使用しています。モデルが他のパッケージを利用するPythonスクリプトや他の言語のスクリプトを生成する場合、すべてのAPI使用を手動で確認することを強くお勧めします。
開発者は、責任あるAIのベストプラクティスを適用し、特定の使用ケースが関連する法律や規制(プライバシー、貿易など)に準拠していることを確認する責任があります。Azure AI Content Safetyのような高度なガードレールを持つ安全性サービスを使用することを強くお勧めします。考慮すべき重要な領域には以下が含まれます:
-
割り当て: モデルは、法的地位や資源や生活の機会(例:住宅、雇用、信用など)の割り当てに影響を与える可能性のあるシナリオには、さらなる評価と追加のバイアス除去技術なしには適していないかもしれません。
-
高リスクシナリオ: 開発者は、不公平、信頼性が低い、または攻撃的な出力が非常にコストがかかるまたは危害を引き起こす可能性のある高リスクシナリオでモデルを使用する適切性を評価する必要があります。これには、正確性と信頼性が重要な敏感または専門的なドメイン(例:法律または健康に関するアドバイス)でのアドバイスの提供が含まれます。展開コンテキストに応じて、アプリケーションレベルで追加の安全対策を実装する必要があります。
-
誤情報: モデルは不正確な情報を生成する可能性があります。開発者は、透明性のベストプラクティスに従い、エンドユーザーがAIシステムと対話していることを通知する必要があります。アプリケーションレベルでは、開発者はフィードバックメカニズムとパイプラインを構築して、使用ケース固有の文脈情報に応答を基づかせることができます。これは、Retrieval Augmented Generation(RAG)として知られる技術です。
-
有害なコンテンツの生成: 開発者は、コンテキストに応じて出力を評価し、使用ケースに適した利用可能な安全性分類器またはカスタムソリューションを使用する必要があります。
-
誤用: 詐欺、スパム、またはマルウェアの作成などの他の形態の誤用が可能であり、開発者はアプリケーションが適用可能な法律や規制に違反しないことを確認する必要があります。



