模型概述
模型特點
模型能力
使用案例
🚀 Phi-4-mini-reasoning
Phi-4-mini-reasoning 是一個輕量級的開源模型,基於合成數據構建,專注於高質量、富含推理的數據,並針對更高級的數學推理能力進行了進一步微調。該模型支持 128K 令牌上下文長度,適用於內存/計算受限環境和低延遲場景下的多步驟、邏輯密集型數學問題解決任務。
🚀 快速開始
模型集成與環境要求
Phi-4-mini-reasoning 已集成到 transformers
的 4.51.3
版本中。可以使用 pip list | grep transformers
驗證當前 transformers
版本。Python 3.8 和 3.10 是最佳選擇。所需的軟件包列表如下:
flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0
推理示例
以下是使用 transformers
進行推理的 Python 代碼示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [{
"role": "user",
"content": "How to solve 3*x^2+4*x+5=1?"
}]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt",
)
outputs = model.generate(
**inputs.to(model.device),
max_new_tokens=32768,
temperature=0.8,
top_p=0.95,
do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])
print(outputs[0])
✨ 主要特性
- 專注數學推理:專為多步驟、邏輯密集型數學問題解決任務設計,適用於內存/計算受限環境和低延遲場景。
- 支持長上下文:支持 128K 令牌上下文長度,能夠在長文本中保持上下文理解。
- 高性能表現:在多種推理基準測試中,與大型模型相比,具有相似的多語言理解和推理能力。
- 輕量級設計:參數僅 3.8B,平衡了推理能力和效率,適用於教育應用、嵌入式輔導以及邊緣或移動系統的輕量級部署。
📦 安裝指南
依賴安裝
確保安裝了以下依賴項:
flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0
可以使用以下命令安裝:
pip install flash_attn==2.7.4.post1 torch==2.5.1 transformers==4.51.3 accelerate==1.3.0
💻 使用示例
基礎用法
輸入格式 - 聊天格式
該格式用於一般對話和指令:
<|system|>Your name is Phi, an AI math expert developed by Microsoft.<|end|><|user|>How to solve 3*x^2+4*x+5=1?<|end|><|assistant|>
高級用法
在實際應用中,可以根據需要調整推理參數,如 max_new_tokens
、temperature
和 top_p
等,以獲得不同的輸出效果。
📚 詳細文檔
預期用途
主要用例
Phi-4-mini-reasoning 旨在解決內存/計算受限環境和低延遲場景下的多步驟、邏輯密集型數學問題。具體用例包括形式證明生成、符號計算、高級應用題以及各種數學推理場景。
用例考慮
該模型僅針對數學推理進行設計和測試,並非適用於所有下游用途。開發者在選擇用例時,應考慮語言模型的常見侷限性以及不同語言之間的性能差異,並在特定下游用例中使用之前,評估和緩解準確性、安全性和公平性問題,特別是在高風險場景中。
發佈說明
本次發佈的 Phi-4-mini-reasoning 是一個基於變壓器的緊湊型語言模型,針對數學推理進行了優化。該模型通過使用更強大模型生成的合成數學數據進行微調,提高了推理性能。
模型質量
通過與一組模型在各種推理基準測試中的比較,3.8B 參數的 Phi-4-mini-reasoning 模型在多語言理解和推理能力方面達到了與大型模型相似的水平。具體比較結果如下:
模型 | AIME | MATH-500 | GPQA Diamond |
---|---|---|---|
o1-mini* | 63.6 | 90.0 | 60.0 |
DeepSeek-R1-Distill-Qwen-7B | 53.3 | 91.4 | 49.5 |
DeepSeek-R1-Distill-Llama-8B | 43.3 | 86.9 | 47.3 |
Bespoke-Stratos-7B* | 20.0 | 82.0 | 37.8 |
OpenThinker-7B* | 31.3 | 83.0 | 42.4 |
Llama-3.2-3B-Instruct | 6.7 | 44.4 | 25.3 |
Phi-4-Mini (基礎模型, 3.8B) | 10.0 | 71.8 | 36.9 |
Phi-4-mini-reasoning (3.8B) | 57.5 | 94.6 | 52.0 |
訓練
模型信息
- 架構:與 Phi-4-Mini 共享相同架構,是一個 3.8B 參數的密集型僅解碼器變壓器模型。
- 輸入:文本,最適合使用聊天格式的提示。
- 上下文長度:128K 令牌
- GPU:128 個 H100-80G
- 訓練時間:2 天
- 訓練數據:150B 令牌
- 輸出:生成的文本
- 訓練日期:2024 年 2 月
- 狀態:這是一個基於離線數據集訓練的靜態模型,公開可用數據的截止日期為 2025 年 2 月。
- 支持語言:英語
- 發佈日期:2025 年 4 月
訓練數據集
訓練數據僅由更強大、更先進的推理模型 Deepseek-R1 生成的合成數學內容組成。該合成數據集包含超過一百萬個不同難度級別的數學問題(從中學生到博士級別)。
軟件與硬件要求
軟件
硬件
默認情況下,Phi-4-mini-reasoning 模型使用閃存注意力機制,需要特定類型的 GPU 硬件才能運行。已測試的 GPU 類型包括:
- NVIDIA A100
- NVIDIA H100
如果要在 NVIDIA V100 或更早一代的 GPU 上運行模型,可以在調用 AutoModelForCausalLM.from_pretrained()
時使用 attn_implementation="eager"
。
安全評估與紅隊測試
Phi-4 系列模型採用了強大的安全後訓練方法,結合了 SFT、DPO 和 RLHF 等技術,利用人類標記和合成的英語數據集進行安全對齊。
負責任的 AI 考慮
與其他語言模型一樣,Phi 系列模型可能存在不公平、不可靠或冒犯性的行為。開發者在使用時應考慮以下問題:
- 服務質量:模型主要在英語文本和一些多語言文本上進行訓練,非英語語言的性能可能較差,且不同英語變體之間也可能存在性能差異。
- 多語言性能和安全差距:儘管努力使語言模型在不同語言中更廣泛可用,但 Phi 4 模型在多語言發佈中仍面臨一些挑戰。
- 傷害表示和刻板印象延續:模型可能過度或不足地代表某些人群,強化負面刻板印象。
- 不適當或冒犯性內容:模型可能產生不適當或冒犯性內容,在敏感場景中部署時需要額外的緩解措施。
- 信息可靠性:語言模型可能生成無意義或不準確的內容。
- 選舉信息可靠性:模型在回答選舉關鍵查詢時可能存在較高的錯誤率,用戶應核實相關信息。
- 代碼範圍有限:模型的訓練數據主要基於 Python 和常見包,生成的腳本可能需要手動驗證。
- 長對話問題:在長對話中,模型可能生成重複、無用或不一致的回覆。
🔧 技術細節
分詞器
Phi-4-mini-reasoning 支持最大 200064
個令牌的詞彙量。分詞器文件 已經提供了可用於下游微調的佔位符令牌,也可以根據模型的詞彙量進行擴展。
輸入格式
由於訓練數據的性質,Phi-4-mini-instruct 模型最適合使用特定格式的提示。主要格式包括聊天格式,用於一般對話和指令。
推理與 transformers
Phi-4-mini-reasoning 已集成到 transformers
的 4.51.3
版本中。可以使用 Python 3.8 或 3.10 進行最佳推理。
基準測試方法
在基準測試中,我們儘量保持提示不變,以確保不同模型之間的公平比較。同時,使用相同的生成配置,如最大序列長度(32768)和溫度,進行公平評估。具體評估使用了三個流行的數學基準測試:Math-500、AIME 2024 和 GPQA Diamond。
📄 許可證
該模型遵循 MIT 許可證。
商標說明
本項目可能包含項目、產品或服務的商標或標誌。使用 Microsoft 商標或標誌需遵循 Microsoft 的商標和品牌指南。在修改版本的項目中使用 Microsoft 商標或標誌不得造成混淆或暗示 Microsoft 的贊助。任何第三方商標或標誌的使用需遵循第三方的政策。
查看集合
查看 我們的集合,獲取包括 GGUF、4 位和 16 位格式在內的所有版本的 Phi-4。
學習指南
學習如何正確運行 Phi-4 推理 - 閱讀我們的指南。
Unsloth Dynamic 2.0
Unsloth Dynamic 2.0 實現了卓越的準確性,優於其他領先的量化方法。
社區鏈接
免費微調
- 免費使用我們的 Google Colab 筆記本 對 Phi-4 (14B) 進行微調。
- 閱讀我們關於 Phi-4 支持和錯誤修復的博客:unsloth.ai/blog/phi4
- 在 文檔 中查看我們的其他筆記本。
- 運行並將微調後的模型導出到 Ollama、llama.cpp 或 HF。
性能對比
Unsloth 支持的模型 | 免費筆記本 | 性能 | 內存使用 |
---|---|---|---|
Phi-4 (14B) | 👉 在 Colab 上開始 | 快 2 倍 | 減少 50% |
Qwen3 (14B) | 👉 在 Colab 上開始 | 快 3 倍 | 減少 70% |
GRPO with Phi-4 (14B) | 👉 在 Colab 上開始 | 快 3 倍 | 減少 80% |
Llama-3.2 (3B) | 👉 在 Colab 上開始 | 快 2 倍 | 減少 80% |
Llama-3.2 (11B 視覺) | 👉 在 Colab 上開始 | 快 2 倍 | 減少 60% |
Qwen2.5 (7B) | 👉 在 Colab 上開始 | 快 2 倍 | 減少 60% |
相關鏈接
Phi-4 模型系列
- [Phi-4-reasoning]
- [multimodal-instruct | onnx]
- [mini-instruct | onnx]



