Phi 4 Reasoning Plus

unslothによって開発

Phi-4推論強化版はマイクロソフトリサーチが開発した140億パラメータのオープンソース推論モデルで、教師あり微調整と強化学習による最適化を経ており、数学、科学、プログラミング分野の高度な推論能力に特化しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #数学推論強化 #長文脈推論 #コード生成最適化

ダウンロード数 189

リリース時間 : 5/1/2025

モデル概要

Phi-4を基にした強化版推論モデルで、高品質データセットと強化学習によるトレーニングを通じ、数学推論、コード生成、科学問題解決において優れた性能を発揮し、32kの文脈長をサポートします。

モデル特徴

強化された推論能力

思考連鎖追跡データセットと強化学習による最適化で、複雑な推論タスクの精度を大幅に向上

長文脈処理

32kトークンの文脈長をサポートし、深い多段階推論タスクを処理可能

効率的なアーキテクチャ

わずか140億パラメータの小型モデルで、より大規模なモデルに近い性能を実現

安全整合

厳格な安全後処理手法により、責任あるAIガイドラインへの準拠を確保

モデル能力

数学問題解決

科学推論

コード生成

アルゴリズム問題解決

論理推論

マルチターン対話

使用事例

教育

数学オリンピック指導

AIMEなどの数学競技会の複雑な問題を解決

AIME 2025テストで78%の正答率を達成

研究

科学問題分析

大学院レベルの科学問題に解答

GPQA-Diamondベンチマークで68.9%の正答率

ソフトウェア開発

競技レベルのコード生成

プログラミング競技の問題を解決

LiveCodeBenchベンチマークで53.1%の正答率

license: mit license_link: https://huggingface.co/microsoft/Phi-4-reasoning-plus/resolve/main/LICENSE language:

en base_model:
microsoft/Phi-4-reasoning-plus pipeline_tag: text-generation tags:
phi
unsloth
nlp
math
code
chat
conversational
reasoning inference: parameters: temperature: 0 widget:
messages:
- role: user content: x^2の微分は何ですか？ library_name: transformers

Phi-4-reasoning-plus モデルカード

Phi-4-reasoning テクニカルレポート

モデル概要


開発者	Microsoft Research
説明	Phi-4-reasoning-plusは、Phi-4をベースに、連鎖思考トレースのデータセットを用いた教師ありファインチューニングと強化学習によってファインチューニングされた、最先端のオープンウェイト推論モデルです。教師ありファインチューニングのデータセットには、数学、科学、コーディングスキルに焦点を当てた合成プロンプトと公開ドメインのウェブサイトからフィルタリングされた高品質なデータのブレンド、および安全性と責任あるAIのためのアライメントデータが含まれています。このアプローチの目的は、高品質で高度な推論に焦点を当てたデータで訓練された小型で有能なモデルを確保することでした。Phi-4-reasoning-plusはさらに強化学習で訓練されており、より高い精度を持ちますが、平均して50%以上のトークンを生成するため、レイテンシが高くなります。
アーキテクチャ	以前にリリースされたPhi-4と同じベースモデル、14Bパラメータ、密なデコーダのみのTransformerモデル
入力	テキスト、チャット形式のプロンプトに最適
コンテキスト長	32kトークン
GPU	32 H100-80G
訓練時間	2.5日
訓練データ	16Bトークン、約8.3Bのユニークトークン
出力	入力に対する応答として生成されたテキスト。モデルの応答は、連鎖思考ブロックと要約ブロックの2つのセクションで構成されます
期間	2025年1月 – 2025年4月
ステータス	2025年3月以前の公開データのカットオフ日付を持つオフラインデータセットで訓練された静的モデル
リリース日	2025年4月30日
ライセンス	MIT

意図された使用法


主な使用ケース	私たちのモデルは、言語モデルの研究を加速するために設計されており、生成AIを活用した機能の構築ブロックとして使用されます。以下のような一般的な目的のAIシステムやアプリケーション（主に英語）に使用されます： 1. メモリ/計算が制約された環境。 2. レイテンシが制約されるシナリオ。 3. 推論とロジック。
範囲外の使用ケース	このモデルは数学推論のみを目的として設計およびテストされています。私たちのモデルは、すべての下流用途を対象として特別に設計または評価されていません。開発者は、特定の下流用途を選択する際に言語モデルの一般的な制限を考慮し、精度、安全性、公平性について評価および緩和する必要があります。特に高リスクのシナリオでは、適用可能な法律や規制（プライバシー、貿易コンプライアンス法など）を認識し、遵守する必要があります。モデルが英語に焦点を当てていることも考慮してください。責任あるAIの考慮事項セクションを参照して、使用ケースを選択する際のさらなるガイダンスを得てください。このモデルカードに含まれる内容は、モデルがリリースされるライセンスの制限または変更として解釈またはみなされるべきではありません。

主な使用ケース

私たちのモデルは、言語モデルの研究を加速するために設計されており、生成AIを活用した機能の構築ブロックとして使用されます。以下のような一般的な目的のAIシステムやアプリケーション（主に英語）に使用されます：

1. メモリ/計算が制約された環境。
2. レイテンシが制約されるシナリオ。
3. 推論とロジック。

範囲外の使用ケース

このモデルは数学推論のみを目的として設計およびテストされています。私たちのモデルは、すべての下流用途を対象として特別に設計または評価されていません。開発者は、特定の下流用途を選択する際に言語モデルの一般的な制限を考慮し、精度、安全性、公平性について評価および緩和する必要があります。特に高リスクのシナリオでは、適用可能な法律や規制（プライバシー、貿易コンプライアンス法など）を認識し、遵守する必要があります。モデルが英語に焦点を当てていることも考慮してください。責任あるAIの考慮事項セクションを参照して、使用ケースを選択する際のさらなるガイダンスを得てください。このモデルカードに含まれる内容は、モデルがリリースされるライセンスの制限または変更として解釈またはみなされるべきではありません。

データ概要

訓練データセット

私たちの訓練データは、数学、科学、コーディングにおけるQ&A、チャット形式のデータの混合物です。チャットプロンプトは、フィルタリングされた高品質なウェブデータからソースされ、必要に応じて書き直され、合成データ生成パイプラインを通じて処理されます。さらに、真実性と安全性を向上させるためのデータを含めています。

ベンチマークデータセット

Phi-4-reasoning-plusを評価するために、オープンソースのEureka評価スイートと私たち自身の内部ベンチマークを使用して、モデルの能力を理解しました。具体的には、以下のタスクでモデルを評価しました：

推論タスク：

AIME 2025, 2024, 2023, 2022: 数学オリンピックの問題。
GPQA-Diamond: 複雑な大学院レベルの科学問題。
OmniMath: 人間の注釈付きの4000以上のオリンピックレベルの数学問題のコレクション。
LiveCodeBench: 競技プログラミングコンテストから収集されたコード生成ベンチマーク。
3SAT (3-リテラル充足可能性問題) と TSP (巡回セールスマン問題): アルゴリズム問題解決。
BA Calendar: 計画。
Maze と SpatialMap: 空間理解。

一般的なベンチマーク：

Kitab: 情報検索。
IFEval と ArenaHard: 指示追従。
PhiBench: 内部ベンチマーク。
FlenQA: プロンプト長がモデル性能に与える影響。
HumanEvalPlus: 機能的なコード生成。
MMLU-Pro: 多タスク言語理解のための人気のある集約データセット。

安全性

アプローチ

Phi-4-reasoning-plusは、教師ありファインチューニング（SFT）による堅牢な安全性ポストトレーニングアプローチを採用しています。このアプローチは、オープンソースと社内生成の合成プロンプトの両方を活用し、Microsoftの厳格な安全性ガイドラインに準拠したLLM生成応答を使用しています。例えば、ユーザー理解と明確さ、セキュリティと倫理ガイドライン、制限、免責事項と知識範囲、複雑で敏感なトピックの扱い、安全性と尊重ある関与、ガイドラインの機密性と連鎖思考の機密性などです。

安全性評価とレッドチーミング

リリース前に、Phi-4-reasoning-plusは多面的な評価アプローチを採用しました。定量的評価は、複数のオープンソース安全性ベンチマークと敵対的会話シミュレーションを利用する社内ツールで実施されました。定性的安全性評価では、Microsoftの独立したAIレッドチーム（AIRT）と協力して、平均的および敵対的なユーザーシナリオでPhi-4-reasoning-plusがもたらす安全性リスクを評価しました。平均的なユーザーシナリオでは、AIRTは典型的な単一ターンおよび複数ターンの相互作用を模倣して潜在的に危険な行動を特定しました。敵対的なユーザーシナリオでは、モデルの安全性訓練を意図的に回避するための幅広い技術をテストしました。これには、根拠性、ジェイルブレイク、憎悪や不公平、暴力、性的コンテンツ、自傷行為などの有害コンテンツ、保護された資料の著作権侵害などが含まれます。さらに、マイノリティグループを対象としたバイアスと毒性を測定するように設計されたベンチマークであるToxigenでモデルを評価しました。

安全性アラインメントの詳細については、テクニカルレポートを参照してください。

モデル品質

代表的なベンチマークにおけるモデル品質の概要です。以下の表では、高い数値がより良い性能を示します：

	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

	Phi-4	Phi-4-reasoning	Phi-4-reasoning-plus	o3-mini	GPT-4o
FlenQA [3K-token subset]	82.0	97.7	97.9	96.8	90.8
IFEval Strict	62.3	83.4	84.9	91.5	81.8
ArenaHard	68.1	73.3	79.0	81.9	75.6
HumanEvalPlus	83.5	92.9	92.3	94.0	88.0
MMLUPro	71.5	74.3	76.0	79.4	73.0
Kitab No Context - Precision With Context - Precision No Context - Recall With Context - Recall	19.3 88.5 8.2 68.1	23.2 91.5 4.9 74.8	27.6 93.6 6.3 75.4	37.9 94.0 4.2 76.1	53.7 84.7 20.3 69.2
Toxigen Discriminative Toxic category Neutral category	72.6 90.0	86.7 84.7	77.3 90.5	85.4 88.7	87.6 85.1
PhiBench 2.21	58.2	70.6	74.2	78.0	72.4

全体として、Phi-4-reasoningとPhi-4-reasoning-plusは、14Bパラメータのみで、広範な推論タスクで優れた性能を発揮し、DeepSeek-R1蒸留70Bモデルなどの大幅に大きなオープンウェイトモデルを上回り、完全なDeepSeek R1モデルの性能レベルに近づいています。また、3SAT、TSP、BA-Calendarなどのアルゴリズム問題解決と計画のための新しい推論ベンチマークでモデルをテストしました。これらの新しいタスクは、訓練プロセスがこれらのスキルを意図的に対象としていなかったため、名目上はモデルのドメイン外ですが、モデルはこれらのタスクに対して強い汎化能力を示しています。さらに、指示追従や非推論タスクなどの標準的な一般能力ベンチマークに対する性能を評価すると、特定のドメインでの推論スキルに焦点を当てたポストトレーニングにもかかわらず、新しいモデルがPhi-4から大幅に改善されていることがわかります。

使用方法

推論パラメータ

推論は、temperature=0.8、top_p=0.95、do_sample=Trueでより良くなります。より複雑なクエリの場合、最大トークン数を32kに設定して、より長い連鎖思考（CoT）を可能にします。

Phi-4-reasoning-plusは、推論集約型タスクで強い性能を示しています。私たちの実験では、最大トークン数を64kに拡張し、長いシーケンスを有望な結果で処理し、拡張された入力に対して一貫性と論理的一貫性を維持しました。これは、深い多段階の推論または広範なコンテキストを必要とするタスクを探索するための魅力的なオプションとなります。

入力形式

訓練データの性質上、推論には常に以下のシステムプロンプトを含むChatMLテンプレートを使用してください：

<|im_start|>system<|im_sep|>
アシスタントとしてのあなたの役割は、最終的な正確な解決策を提供する前に、体系的思考プロセスを通じて質問を徹底的に探求することです。これには、分析、要約、探求、再評価、反省、バックトレース、反復を含む包括的なサイクルに従事して、よく考えられた思考プロセスを開発する必要があります。応答を2つの主要セクション、すなわち思考セクションと解決策セクションに構造化してください。指定された形式を使用してください：<think> {思考セクション} </think> {解決策セクション}。思考セクションでは、ステップごとに推論プロセスを詳細に説明してください。各ステップには、質問の分析、関連する発見の要約、新しいアイデアのブレインストーミング、現在のステップの正確性の検証、エラーの洗練、以前のステップの再訪などの詳細な考慮事項を含めてください。解決策セクションでは、思考セクションからのさまざまな試み、探求、反省に基づいて、あなたが正しいと考える最終的な解決策を体系的に提示してください。解決策セクションは、論理的で正確かつ簡潔であり、結論に達するために必要なステップを詳細に説明する必要があります。さて、上記のガイドラインに従って次の質問を解決してみてください：<|im_end|>
<|im_start|>user<|im_sep|>
x^2の微分は何ですか？<|im_end|>
<|im_start|>assistant<|im_sep|>

`transformers`を使用する場合

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-4-reasoning-plus")
model = AutoModelForCausalLM.from_pretrained("microsoft/Phi-4-reasoning-plus", device_map="auto", torch_dtype="auto")

messages = [
    {"role": "system", "content": "あなたはPhiです、Microsoftによって訓練された言語モデルで、ユーザーを助けるために設計されています。アシスタントとしてのあなたの役割は、最終的な正確な解決策を提供する前に、体系的思考プロセスを通じて質問を徹底的に探求することです。これには、分析、要約、探求、再評価、反省、バックトレース、反復を含む包括的なサイクルに従事して、よく考えられた思考プロセスを開発する必要があります。応答を2つの主要セクション、すなわち思考セクションと解決策セクションに構造化してください。指定された形式を使用してください：<think> {思考セクション} </think> {解決策セクション}。思考セクションでは、ステップごとに推論プロセスを詳細に説明してください。各ステップには、質問の分析、関連する発見の要約、新しいアイデアのブレインストーミング、現在のステップの正確性の検証、エラーの洗練、以前のステップの再訪などの詳細な考慮事項を含めてください。解決策セクションでは、思考セクションからのさまざまな試み、探求、反省に基づいて、あなたが正しいと考える最終的な解決策を体系的に提示してください。解決策セクションは、論理的で正確かつ簡潔であり、結論に達するために必要なステップを詳細に説明する必要があります。さて、上記のガイドラインに従って次の質問を解決してみてください："},
    {"role": "user", "content": "x^2の微分は何ですか？"},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(
    inputs.to(model.device),
    max_new_tokens=4096,
    temperature=0.8,
    top_p=0.95,
    do_sample=True,
)
print(tokenizer.decode(outputs[0]))

`vllm`を使用する場合

vllm serve microsoft/Phi-4-reasoning-plus --enable-reasoning --reasoning-parser deepseek_r1

Phi-4-reasoning-plusは、Ollama、llama.cpp、およびPhi-4互換のフレームワークでもすぐに使用できます。

責任あるAIの考慮事項

他の言語モデルと同様に、Phi-4-reasoning-plusは不公平、信頼性が低い、または攻撃的な方法で動作する可能性があります。注意すべき制限行動には以下が含まれます：

サービスの品質: モデルは主に英語のテキストで訓練されています。英語以外の言語は性能が低下します。訓練データで表現が少ない英語のバリエーションは、標準的なアメリカ英語よりも性能が低下する可能性があります。Phi-4-reasoning-plusは多言語使用をサポートすることを意図していません。
危害の表現とステレオタイプの永続化: これらのモデルは、人々のグループを過剰または過少に表現したり、一部のグループの表現を消去したり、軽蔑的または否定的なステレオタイプを強化したりする可能性があります。安全性ポストトレーニングにもかかわらず、これらの制限は、異なるグループの表現レベルや訓練データにおける否定的なステレオタイプの例の普及が現実世界のパターンや社会的バイアスを反映しているため、依然として存在する可能性があります。
不適切または攻撃的なコンテンツ: これらのモデルは、他の種類の不適切または攻撃的なコンテンツを生成する可能性があり、追加の緩和策なしに敏感なコンテキストに展開するには不適切かもしれません。
情報の信頼性: 言語モデルは、無意味なコンテンツを生成したり、合理的に聞こえるが不正確または時代遅れの内容を作成したりする可能性があります。
選挙情報の信頼性: モデルは、選挙に関連するクエリに応答する際に欠陥率が高く、誤ったまたは非公式の選挙関連情報が提示される可能性があります。この分野でのモデルの性能を向上させるために取り組んでいます。ユーザーは、選挙に関連する情報を地域の選挙当局で確認する必要があります。
コードの限定的な範囲: Phi-4-reasoning-plusの訓練データの大部分はPythonに基づいており、typing、math、random、collections、datetime、itertoolsなどの一般的なパッケージを使用しています。モデルが他のパッケージを利用するPythonスクリプトや他の言語のスクリプトを生成する場合、すべてのAPI使用を手動で確認することを強くお勧めします。

開発者は、責任あるAIのベストプラクティスを適用し、特定の使用ケースが関連する法律や規制（プライバシー、貿易など）に準拠していることを確認する責任があります。Azure AI Content Safetyなどの高度なガードレールを持つ安全性サービスを使用することを強くお勧めします。考慮すべき重要な領域には以下が含まれます：

割り当て: モデルは、法的地位や資源や生活機会の割り当て（例：住宅、雇用、信用など）に影響を与える可能性のあるシナリオには、さらなる評価と追加のバイアス除去技術なしには適していない可能性があります。
高リスクシナリオ: 開発者は、不公平、信頼性が低い、または攻撃的な出力が非常にコストがかかるまたは危害を引き起こす可能性のある高リスクシナリオでモデルを使用する適切性を評価する必要があります。これには、正確性と信頼性が重要な敏感または専門的なドメイン（例：法律または健康アドバイス）でのアドバイスの提供が含まれます。展開コンテキストに応じて、アプリケーションレベルで追加の保護策を実装する必要があります。
誤情報: モデルは不正確な情報を生成する可能性があります。開発者は、透明性のベストプラクティスに従い、エンドユーザーがAIシステムと対話していることを知らせる必要があります。アプリケーションレベルでは、開発者はフィードバックメカニズムとパイプラインを構築して、使用ケース固有の文脈情報に応答を基づかせることができます。これは、Retrieval Augmented Generation（RAG）として知られる技術です。
有害コンテンツの生成: 開発者は、コンテキストに応じて出力を評価し、使用ケースに適した利用可能な安全性分類器またはカスタムソリューションを使用する必要があります。
誤用: 詐欺、スパム、マルウェア作成などの他の形態の誤用が可能であり、開発者は、アプリケーションが適用可能な法律や規制に違反しないことを確認する必要があります。