Phi 4 Reasoning

microsoftによって開発

Phi-4推論はPhi-4を基に、教師あり微調整の思考連鎖軌跡データセットと強化学習で訓練された最先端のオープンウェイト推論モデルで、数学、科学、プログラミングスキルに特化しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #数学推論 #長文脈処理 #コード生成

ダウンロード数 11.31k

リリース時間 : 4/9/2025

モデル概要

Phi-4推論は数学推論、科学、プログラミングに特化した言語モデルで、高品質で高度な推論データを用いて訓練されており、メモリ/計算リソースが限られた環境や遅延に敏感なシナリオに適しています。

モデル特徴

高品質推論データ訓練

教師あり微調整の思考連鎖軌跡データセットと強化学習で訓練され、数学、科学、プログラミングスキルに焦点を当てています。

長文脈サポート

32kトークンの文脈長をサポートし、複雑なクエリや長文の推論処理に適しています。

安全性アライメント

教師あり微調整により強力な安全性ポストトレーニング手法を採用し、モデルの応答が安全性と倫理基準に準拠することを保証します。

モデル能力

数学推論

科学的質問応答

コード生成

チャット対話

論理的推論

使用事例

教育

数学問題解答

AIME競技問題などのオリンピック級数学問題を解答します。

AIME 2024で75.3点を達成

プログラミング

コード生成

プログラミング競技問題を解決する機能的なコードを生成します。

LiveCodeBenchで53.8点を達成

研究

科学的質問応答

GPQA-Diamondデータセットなどの大学院レベルの科学的質問に解答します。

GPQA-Dで65.8点を達成

license: mit license_link: https://huggingface.co/microsoft/Phi-4-reasoning/resolve/main/LICENSE language:

en base_model:
microsoft/phi-4 pipeline_tag: text-generation tags:
phi
nlp
math
code
chat
conversational
reasoning inference: parameters: temperature: 0 widget:
messages:
- role: user content: x^2の微分は何ですか？ library_name: transformers

Phi-4-reasoning モデルカード

Phi-4-reasoning テクニカルレポート

モデル概要


開発者	Microsoft Research
説明	Phi-4-reasoningは、Phi-4を教師ありファインチューニングと強化学習を用いてチェーン・オブ・ソート（思考の連鎖）トレースのデータセットでファインチューニングした、最先端のオープンウェイト推論モデルです。教師ありファインチューニングデータセットには、数学、科学、コーディングスキルに焦点を当てた公開ドメインのウェブサイトからの高品質なフィルタリング済みデータと、安全性と責任あるAIのためのアライメントデータが含まれています。このアプローチの目的は、高品質で高度な推論に焦点を当てたデータで訓練された小型で有能なモデルを確保することでした。
アーキテクチャ	以前にリリースされたPhi-4と同じベースモデル、140億パラメータ、密なデコーダのみのTransformerモデル
入力	テキスト、チャット形式のプロンプトに最適
コンテキスト長	32kトークン
GPU	32 H100-80G
訓練時間	2.5日
訓練データ	160億トークン、約83億ユニークトークン
出力	入力に対する生成テキスト。モデルの応答は2つのセクションで構成され、思考の連鎖ブロックと要約ブロックが続きます。
期間	2025年1月 – 2025年4月
ステータス	2025年3月以前の公開データをカットオフとしたオフラインデータセットで訓練された静的モデル
リリース日	2025年4月30日
ライセンス	MIT

意図された使用法


主な使用ケース	このモデルは、言語モデルの研究を加速するために設計されており、生成AIを活用した機能の構築ブロックとして使用されます。以下のような一般的な目的のAIシステムやアプリケーション（主に英語）に使用されます： 1. メモリ/計算リソースが制約された環境。 2. レイテンシが制約されるシナリオ。 3. 推論と論理。
対象外の使用ケース	このモデルは数学推論専用に設計およびテストされています。私たちのモデルは、すべての下流用途に対して特別に設計または評価されているわけではありません。開発者は、特定の下流用途を選択する際に言語モデルの一般的な制限を考慮し、正確性、安全性、公平性を評価して緩和する必要があります。特に高リスクのシナリオでは、適用可能な法律や規制（プライバシー、貿易コンプライアンス法など）を認識し、遵守する必要があります。モデルが英語に焦点を当てていることも考慮してください。責任あるAIの考慮事項セクションを参照して、使用ケースを選択する際のさらなるガイダンスを得てください。このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更と解釈またはみなされるべきではありません。

主な使用ケース

このモデルは、言語モデルの研究を加速するために設計されており、生成AIを活用した機能の構築ブロックとして使用されます。以下のような一般的な目的のAIシステムやアプリケーション（主に英語）に使用されます：

1. メモリ/計算リソースが制約された環境。
2. レイテンシが制約されるシナリオ。
3. 推論と論理。

対象外の使用ケース

このモデルは数学推論専用に設計およびテストされています。私たちのモデルは、すべての下流用途に対して特別に設計または評価されているわけではありません。開発者は、特定の下流用途を選択する際に言語モデルの一般的な制限を考慮し、正確性、安全性、公平性を評価して緩和する必要があります。特に高リスクのシナリオでは、適用可能な法律や規制（プライバシー、貿易コンプライアンス法など）を認識し、遵守する必要があります。モデルが英語に焦点を当てていることも考慮してください。責任あるAIの考慮事項セクションを参照して、使用ケースを選択する際のさらなるガイダンスを得てください。このモデルカードに含まれる内容は、モデルがリリースされたライセンスの制限または変更と解釈またはみなされるべきではありません。

使用方法

[!重要]
モデルの能力を最大限に活用するには、推論時にtemperature=0.8、top_k=50、top_p=0.95、do_sample=Trueを使用する必要があります。より複雑なクエリの場合、max_new_tokens=32768を設定して、より長いチェーン・オブ・ソート（CoT）を可能にしてください。

入力形式

訓練データの性質上、推論時には常に以下のシステムプロンプトを含むChatMLテンプレートを使用してください：

<|im_start|>system<|im_sep|>
あなたはPhiです。Microsoftによって訓練された言語モデルで、ユーザーを助けるために設計されています。アシスタントとしての役割は、最終的な正確な解決策を提供する前に、体系的な思考プロセスを通じて質問を徹底的に探求することです。これには、分析、要約、探求、再評価、反省、バックトレース、反復を含む包括的なサイクルに従事し、よく考えられた思考プロセスを開発する必要があります。応答を2つの主要なセクション、つまり思考セクションと解決策セクションに構造化してください。指定された形式を使用します：<think> {思考セクション} </think> {解決策セクション}。思考セクションでは、ステップごとに推論プロセスを詳細に記述してください。各ステップには、質問の分析、関連する発見の要約、新しいアイデアのブレインストーミング、現在のステップの正確性の検証、エラーの修正、以前のステップの再訪などの詳細な考慮事項を含めてください。解決策セクションでは、思考セクションからのさまざまな試み、探求、反省に基づいて、正しいと判断した最終的な解決策を体系的に提示してください。解決策セクションは論理的で正確かつ簡潔で、結論に達するために必要なステップを詳細に記述する必要があります。では、上記のガイドラインに従って次の質問を解決してみてください：<|im_end|>
<|im_start|>user<|im_sep|>
x^2の微分は何ですか？<|im_end|>
<|im_start|>assistant<|im_sep|>

`transformers`を使用する場合

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-4-reasoning")
model = AutoModelForCausalLM.from_pretrained("microsoft/Phi-4-reasoning", device_map="auto", torch_dtype="auto")

messages = [
    {"role": "system", "content": "あなたはPhiです。Microsoftによって訓練された言語モデルで、ユーザーを助けるために設計されています。アシスタントとしての役割は、最終的な正確な解決策を提供する前に、体系的な思考プロセスを通じて質問を徹底的に探求することです。これには、分析、要約、探求、再評価、反省、バックトレース、反復を含む包括的なサイクルに従事し、よく考えられた思考プロセスを開発する必要があります。応答を2つの主要なセクション、つまり思考セクションと解決策セクションに構造化してください。指定された形式を使用します：<think> {思考セクション} </think> {解決策セクション}。思考セクションでは、ステップごとに推論プロセスを詳細に記述してください。各ステップには、質問の分析、関連する発見の要約、新しいアイデアのブレインストーミング、現在のステップの正確性の検証、エラーの修正、以前のステップの再訪などの詳細な考慮事項を含めてください。解決策セクションでは、思考セクションからのさまざまな試み、探求、反省に基づいて、正しいと判断した最終的な解決策を体系的に提示してください。解決策セクションは論理的で正確かつ簡潔で、結論に達するために必要なステップを詳細に記述する必要があります。では、上記のガイドラインに従って次の質問を解決してみてください："},
    {"role": "user", "content": "x^2の微分は何ですか？"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(
    inputs.to(model.device),
    max_new_tokens=4096,
    temperature=0.8,
    top_k=50,
    top_p=0.95,
    do_sample=True,
)
print(tokenizer.decode(outputs[0]))

`vllm`を使用する場合

vllm serve microsoft/Phi-4-reasoning --enable-reasoning --reasoning-parser deepseek_r1

Phi-4-reasoningは、Ollama、llama.cpp、およびPhi-4互換のフレームワークでもすぐに使用できます。

データ概要

訓練データセット

私たちの訓練データは、数学、科学、コーディングにおけるQ&A、チャット形式のデータの混合物です。チャットプロンプトは、フィルタリングされた高品質なウェブデータから取得され、必要に応じて書き直され、合成データ生成パイプラインを通じて処理されます。さらに、真実性と安全性を向上させるためのデータも含まれています。

ベンチマークデータセット

Phi-4-reasoningを評価するために、オープンソースのEureka評価スイートと独自の内部ベンチマークを使用してモデルの能力を理解しました。具体的には、以下のタスクでモデルを評価しました：

推論タスク：

AIME 2025、2024、2023、2022: 数学オリンピックの問題。
GPQA-Diamond: 複雑な大学院レベルの科学問題。
OmniMath: 人間の注釈付きの4000以上のオリンピックレベルの数学問題のコレクション。
LiveCodeBench: 競技プログラミングコンテストから収集されたコード生成ベンチマーク。
3SAT（3-リテラル充足可能性問題）およびTSP（巡回セールスマン問題）: アルゴリズム的問題解決。
BA Calendar: 計画。
MazeおよびSpatialMap: 空間理解。

一般的なベンチマーク：

Kitab: 情報検索。
IFEvalおよびArenaHard: 指示の遵守。
PhiBench: 内部ベンチマーク。
FlenQA: プロンプトの長さがモデルの性能に与える影響。
HumanEvalPlus: 機能的なコード生成。
MMLU-Pro: マルチタスク言語理解のための人気のある集約データセット。

安全性

アプローチ

Phi-4-reasoningは、教師ありファインチューニング（SFT）による堅牢な安全性ポストトレーニングアプローチを採用しています。このアプローチは、オープンソースと社内生成の合成プロンプトの両方を活用し、Microsoftの厳格な安全性ガイドラインに準拠したLLM生成応答を使用しています。例えば、ユーザー理解と明確性、セキュリティと倫理ガイドライン、制限、免責事項と知識範囲、複雑で敏感なトピックの扱い、安全性と尊重ある関与、ガイドラインの機密性と思考の連鎖の機密性などです。

安全性評価とレッドチーミング

リリース前に、Phi-4-reasoningは多面的な評価アプローチに従いました。定量的評価は、複数のオープンソースの安全性ベンチマークと、敵対的な会話シミュレーションを利用する社内ツールで実施されました。定性的な安全性評価のために、Microsoftの独立したAIレッドチーム（AIRT）と協力して、平均的なユーザーシナリオと敵対的なユーザーシナリオの両方でPhi-4-reasoningがもたらす安全性リスクを評価しました。平均的なユーザーシナリオでは、AIRTは典型的な単一ターンおよび複数ターンの相互作用を模倣して、潜在的に危険な行動を特定しました。敵対的なユーザーシナリオでは、モデルの安全性訓練を意図的に回避するためのさまざまな技術をテストしました。これには、グラウンデッドネス、ジェイルブレイク、憎悪や不公平などの有害なコンテンツ、暴力、性的コンテンツ、自傷行為、保護された資料の著作権侵害が含まれます。さらに、マイノリティグループを対象としたバイアスと毒性を測定するように設計されたベンチマークであるToxigenでモデルを評価しました。

安全性アラインメントの詳細については、テクニカルレポートを参照してください。

モデル品質

代表的なベンチマークにおけるモデル品質の概要です。以下の表では、数値が高いほど性能が良いことを示しています：

	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

	Phi-4	Phi-4-reasoning	Phi-4-reasoning-plus	o3-mini	GPT-4o
FlenQA [3K-tokenサブセット]	82.0	97.7	97.9	96.8	90.8
IFEval Strict	62.3	83.4	84.9	91.5	81.8
ArenaHard	68.1	73.3	79.0	81.9	75.6
HumanEvalPlus	83.5	92.9	92.3	94.0	88.0
MMLUPro	71.5	74.3	76.0	79.4	73.0
Kitab コンテキストなし - 精度コンテキストあり - 精度コンテキストなし - 再現率コンテキストあり - 再現率	19.3 88.5 8.2 68.1	23.2 91.5 4.9 74.8	27.6 93.6 6.3 75.4	37.9 94.0 4.2 76.1	53.7 84.7 20.3 69.2
Toxigen Discriminative 有毒カテゴリ中立カテゴリ	72.6 90.0	86.7 84.7	77.3 90.5	85.4 88.7	87.6 85.1
PhiBench 2.21	58.2	70.6	74.2	78.0	72.4

全体として、Phi-4-reasoningは140億パラメータのみで、DeepSeek-R1蒸留70Bモデルなどの大幅に大きなオープンウェイトモデルを上回り、完全なDeepSeek R1モデルの性能レベルに近づいています。また、3SAT、TSP、BA-Calendarなどのアルゴリズム的問題解決と計画のための新しい推論ベンチマークでもモデルをテストしました。これらの新しいタスクは、訓練プロセスがこれらのスキルを意図的にターゲットにしていないため、名目上はドメイン外ですが、モデルはこれらのタスクに対して強い汎化性能を示しています。さらに、指示の遵守や非推論タスクなどの標準的な一般的な能力ベンチマークに対する性能を評価すると、ポストトレーニングが特定のドメインの推論スキルに焦点を当てているにもかかわらず、新しいモデルがPhi-4から大幅に改善されていることがわかります。

責任あるAIの考慮事項

他の言語モデルと同様に、Phi-4-reasoningは不公平、信頼性が低い、または攻撃的な方法で動作する可能性があります。注意すべき制限的な動作には以下が含まれます：

サービスの品質: モデルは主に英語のテキストで訓練されています。英語以外の言語では性能が低下します。訓練データでの表現が少ない英語のバラエティは、標準的なアメリカ英語よりも性能が低下する可能性があります。Phi-4-reasoningは多言語使用をサポートすることを意図していません。
危害の表現とステレオタイプの永続化: これらのモデルは、人々のグループを過剰または過少に表現したり、一部のグループの表現を消去したり、軽蔑的または否定的なステレオタイプを強化したりする可能性があります。安全性ポストトレーニングにもかかわらず、これらの制限は、異なるグループの表現レベルや、現実世界のパターンや社会的バイアスを反映した訓練データにおける否定的なステレオタイプの例の普及のために、依然として存在する可能性があります。
不適切または攻撃的なコンテンツ: これらのモデルは、他の種類の不適切または攻撃的なコンテンツを生成する可能性があり、追加の緩和策なしに敏感なコンテキストで展開するには不適切かもしれません。
情報の信頼性: 言語モデルは、無意味なコンテンツを生成したり、合理的に聞こえるが不正確または時代遅れの内容を作成したりする可能性があります。
選挙情報の信頼性: モデルは、選挙に関連するクエリに応答する際に欠陥率が高く、誤ったまたは非権威的な選挙関連情報が提示される可能性があります。この分野でのモデルの性能を改善するために取り組んでいます。ユーザーは、選挙に関連する情報を地域の選挙当局で確認する必要があります。
コードの限定的な範囲: Phi-4-reasoningの訓練データの大部分はPythonに基づいており、typing、math、random、collections、datetime、itertoolsなどの一般的なパッケージを使用しています。モデルが他のパッケージを使用するPythonスクリプトや他の言語のスクリプトを生成する場合、すべてのAPI使用を手動で確認することを強く推奨します。

開発者は、責任あるAIのベストプラクティスを適用し、特定の使用ケースが関連する法律や規制（プライバシー、貿易など）に準拠していることを確認する責任があります。Azure AI Content Safetyなどの高度なガードレールを備えた安全性サービスを使用することを強くお勧めします。重要な考慮事項には以下が含まれます：

割り当て: モデルは、法的地位や資源や生活機会（住宅、雇用、信用など）の割り当てに影響を与える可能性のあるシナリオには、さらなる評価と追加のバイアス除去技術なしでは適していない可能性があります。
高リスクシナリオ: 開発者は、不公平、信頼性が低い、または攻撃的な出力が非常にコストがかかるか危害を引き起こす可能性のある高リスクシナリオでのモデルの適合性を評価する必要があります。これには、正確性と信頼性が重要な敏感または専門的なドメイン（法律や健康アドバイスなど）でのアドバイスの提供が含まれます。展開コンテキストに応じて、アプリケーションレベルで追加の保護対策を実装する必要があります。
誤情報: モデルは不正確な情報を生成する可能性があります。開発者は、透明性のベストプラクティスに従い、エンドユーザーがAIシステムと対話していることを通知する必要があります。アプリケーションレベルでは、開発者はフィードバックメカニズムとパイプラインを構築して、Retrieval Augmented Generation（RAG）として知られる技術を使用して、使用ケース固有の文脈情報に応答を基づかせることができます。
有害なコンテンツの生成: 開発者は、コンテキストに応じて出力を評価し、使用ケースに適した利用可能な安全性分類器またはカスタムソリューションを使用する必要があります。
悪用: 詐欺、スパム、マルウェアの作成などの他の形態の悪用が可能であり、開発者は、アプリケーションが適用可能な法律や規制に違反しないことを確認する必要があります。