Phi-4-mini-reasoning開源模型 - 輕量級設計免費助力數學推理增強

首頁

Phi 4 Mini Reasoning GGUF

由unsloth開發

Phi-4-mini-reasoning是一個基於合成數據的輕量級開放模型，專注於高質量、密集推理數據，並進一步微調以增強數學推理能力。

大型語言模型支持多種語言開源協議:MIT #數學推理 #輕量級模型 #多步邏輯推理

下載量 21.71k

發布時間 : 5/1/2025

模型概述

該模型屬於Phi-4模型家族，支持128K令牌上下文長度，專為在內存/計算受限環境和延遲受限場景下進行多步驟、邏輯密集的數學問題解決任務而設計。

模型特點

輕量級數學推理

專為數學推理優化，在計算或延遲受限環境中提供高質量、逐步的問題解決方案。

長上下文支持

支持128K令牌的上下文長度，適合處理複雜的多步驟推理任務。

高效推理

3.8B參數的緊湊模型在推理能力和效率之間取得平衡，適合邊緣或移動系統部署。

合成數據訓練

使用來自更強大模型的合成數學數據進行微調，提高了推理性能。

模型能力

數學問題解決

形式化證明生成

符號計算

高級文字問題解答

多步驟邏輯推理

使用案例

教育

數學輔導

作為嵌入式輔導系統，幫助學生解決複雜的數學問題。

提供逐步的問題解決方案

邊緣計算

移動設備數學應用

在移動設備上部署輕量級數學推理助手。

低延遲的數學問題解答

🚀 Phi-4-mini-reasoning

Phi-4-mini-reasoning 是一個輕量級的開源模型，基於合成數據構建，專注於高質量、富含推理的數據，並針對更高級的數學推理能力進行了進一步微調。該模型支持 128K 令牌上下文長度，適用於內存/計算受限環境和低延遲場景下的多步驟、邏輯密集型數學問題解決任務。

🚀 快速開始

模型集成與環境要求

Phi-4-mini-reasoning 已集成到 transformers 的 4.51.3 版本中。可以使用 pip list | grep transformers 驗證當前 transformers 版本。Python 3.8 和 3.10 是最佳選擇。所需的軟件包列表如下：

flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0

推理示例

以下是使用 transformers 進行推理的 Python 代碼示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)

model_id = "microsoft/Phi-4-mini-reasoning"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{
    "role": "user",
    "content": "How to solve 3*x^2+4*x+5=1?"
}]   
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt",
)

outputs = model.generate(
    **inputs.to(model.device),
    max_new_tokens=32768,
    temperature=0.8,
    top_p=0.95,
    do_sample=True,
)
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])

print(outputs[0])

✨ 主要特性

專注數學推理：專為多步驟、邏輯密集型數學問題解決任務設計，適用於內存/計算受限環境和低延遲場景。
支持長上下文：支持 128K 令牌上下文長度，能夠在長文本中保持上下文理解。
高性能表現：在多種推理基準測試中，與大型模型相比，具有相似的多語言理解和推理能力。
輕量級設計：參數僅 3.8B，平衡了推理能力和效率，適用於教育應用、嵌入式輔導以及邊緣或移動系統的輕量級部署。

📦 安裝指南

依賴安裝

確保安裝了以下依賴項：

flash_attn==2.7.4.post1
torch==2.5.1
transformers==4.51.3
accelerate==1.3.0

可以使用以下命令安裝：

pip install flash_attn==2.7.4.post1 torch==2.5.1 transformers==4.51.3 accelerate==1.3.0

💻 使用示例

基礎用法

輸入格式 - 聊天格式

該格式用於一般對話和指令：

<|system|>Your name is Phi, an AI math expert developed by Microsoft.<|end|><|user|>How to solve 3*x^2+4*x+5=1?<|end|><|assistant|>

高級用法

在實際應用中，可以根據需要調整推理參數，如 max_new_tokens、temperature 和 top_p 等，以獲得不同的輸出效果。

📚 詳細文檔

預期用途

主要用例

Phi-4-mini-reasoning 旨在解決內存/計算受限環境和低延遲場景下的多步驟、邏輯密集型數學問題。具體用例包括形式證明生成、符號計算、高級應用題以及各種數學推理場景。

用例考慮

該模型僅針對數學推理進行設計和測試，並非適用於所有下游用途。開發者在選擇用例時，應考慮語言模型的常見侷限性以及不同語言之間的性能差異，並在特定下游用例中使用之前，評估和緩解準確性、安全性和公平性問題，特別是在高風險場景中。

發佈說明

本次發佈的 Phi-4-mini-reasoning 是一個基於變壓器的緊湊型語言模型，針對數學推理進行了優化。該模型通過使用更強大模型生成的合成數學數據進行微調，提高了推理性能。

模型質量

通過與一組模型在各種推理基準測試中的比較，3.8B 參數的 Phi-4-mini-reasoning 模型在多語言理解和推理能力方面達到了與大型模型相似的水平。具體比較結果如下：

模型	AIME	MATH-500	GPQA Diamond
o1-mini*	63.6	90.0	60.0
DeepSeek-R1-Distill-Qwen-7B	53.3	91.4	49.5
DeepSeek-R1-Distill-Llama-8B	43.3	86.9	47.3
Bespoke-Stratos-7B*	20.0	82.0	37.8
OpenThinker-7B*	31.3	83.0	42.4
Llama-3.2-3B-Instruct	6.7	44.4	25.3
Phi-4-Mini (基礎模型, 3.8B)	10.0	71.8	36.9
Phi-4-mini-reasoning (3.8B)	57.5	94.6	52.0

訓練

模型信息

架構：與 Phi-4-Mini 共享相同架構，是一個 3.8B 參數的密集型僅解碼器變壓器模型。
輸入：文本，最適合使用聊天格式的提示。
上下文長度：128K 令牌
GPU：128 個 H100-80G
訓練時間：2 天
訓練數據：150B 令牌
輸出：生成的文本
訓練日期：2024 年 2 月
狀態：這是一個基於離線數據集訓練的靜態模型，公開可用數據的截止日期為 2025 年 2 月。
支持語言：英語
發佈日期：2025 年 4 月

訓練數據集

訓練數據僅由更強大、更先進的推理模型 Deepseek-R1 生成的合成數學內容組成。該合成數據集包含超過一百萬個不同難度級別的數學問題（從中學生到博士級別）。

軟件與硬件要求

軟件

硬件

默認情況下，Phi-4-mini-reasoning 模型使用閃存注意力機制，需要特定類型的 GPU 硬件才能運行。已測試的 GPU 類型包括：

NVIDIA A100
NVIDIA H100

如果要在 NVIDIA V100 或更早一代的 GPU 上運行模型，可以在調用 AutoModelForCausalLM.from_pretrained() 時使用 attn_implementation="eager"。

安全評估與紅隊測試

Phi-4 系列模型採用了強大的安全後訓練方法，結合了 SFT、DPO 和 RLHF 等技術，利用人類標記和合成的英語數據集進行安全對齊。

負責任的 AI 考慮

與其他語言模型一樣，Phi 系列模型可能存在不公平、不可靠或冒犯性的行為。開發者在使用時應考慮以下問題：

服務質量：模型主要在英語文本和一些多語言文本上進行訓練，非英語語言的性能可能較差，且不同英語變體之間也可能存在性能差異。
多語言性能和安全差距：儘管努力使語言模型在不同語言中更廣泛可用，但 Phi 4 模型在多語言發佈中仍面臨一些挑戰。
傷害表示和刻板印象延續：模型可能過度或不足地代表某些人群，強化負面刻板印象。
不適當或冒犯性內容：模型可能產生不適當或冒犯性內容，在敏感場景中部署時需要額外的緩解措施。
信息可靠性：語言模型可能生成無意義或不準確的內容。
選舉信息可靠性：模型在回答選舉關鍵查詢時可能存在較高的錯誤率，用戶應核實相關信息。
代碼範圍有限：模型的訓練數據主要基於 Python 和常見包，生成的腳本可能需要手動驗證。
長對話問題：在長對話中，模型可能生成重複、無用或不一致的回覆。

🔧 技術細節

分詞器

Phi-4-mini-reasoning 支持最大 200064 個令牌的詞彙量。分詞器文件已經提供了可用於下游微調的佔位符令牌，也可以根據模型的詞彙量進行擴展。

輸入格式

由於訓練數據的性質，Phi-4-mini-instruct 模型最適合使用特定格式的提示。主要格式包括聊天格式，用於一般對話和指令。

推理與 `transformers`

Phi-4-mini-reasoning 已集成到 transformers 的 4.51.3 版本中。可以使用 Python 3.8 或 3.10 進行最佳推理。

基準測試方法

在基準測試中，我們儘量保持提示不變，以確保不同模型之間的公平比較。同時，使用相同的生成配置，如最大序列長度（32768）和溫度，進行公平評估。具體評估使用了三個流行的數學基準測試：Math-500、AIME 2024 和 GPQA Diamond。

📄 許可證

該模型遵循 MIT 許可證。

商標說明

本項目可能包含項目、產品或服務的商標或標誌。使用 Microsoft 商標或標誌需遵循 Microsoft 的商標和品牌指南。在修改版本的項目中使用 Microsoft 商標或標誌不得造成混淆或暗示 Microsoft 的贊助。任何第三方商標或標誌的使用需遵循第三方的政策。

查看集合

查看我們的集合，獲取包括 GGUF、4 位和 16 位格式在內的所有版本的 Phi-4。

學習指南

學習如何正確運行 Phi-4 推理 - 閱讀我們的指南。

Unsloth Dynamic 2.0

Unsloth Dynamic 2.0 實現了卓越的準確性，優於其他領先的量化方法。

社區鏈接

免費微調

免費使用我們的 Google Colab 筆記本對 Phi-4 (14B) 進行微調。
閱讀我們關於 Phi-4 支持和錯誤修復的博客：unsloth.ai/blog/phi4
在文檔中查看我們的其他筆記本。
運行並將微調後的模型導出到 Ollama、llama.cpp 或 HF。

性能對比

Unsloth 支持的模型	免費筆記本	性能	內存使用
Phi-4 (14B)	👉 在 Colab 上開始	快 2 倍	減少 50%
Qwen3 (14B)	👉 在 Colab 上開始	快 3 倍	減少 70%
GRPO with Phi-4 (14B)	👉 在 Colab 上開始	快 3 倍	減少 80%
Llama-3.2 (3B)	👉 在 Colab 上開始	快 2 倍	減少 80%
Llama-3.2 (11B 視覺)	👉 在 Colab 上開始	快 2 倍	減少 60%
Qwen2.5 (7B)	👉 在 Colab 上開始	快 2 倍	減少 60%