MiMo-7B-Base開源語言模型 - 優化策略提升數學與代碼推理能力

首頁

Mimo 7B Base

由XiaomiMiMo開發

小米推出的7B參數規模推理專用語言模型系列，通過優化預訓練和後訓練策略顯著提升數學與代碼推理能力

大型語言模型

Transformers

開源協議:MIT #推理優化 #數學代碼雙優 #多token預測

下載量 12.75k

發布時間 : 4/29/2025

模型概述

專為推理任務設計的語言模型系列，包含基礎模型、SFT模型和RL訓練模型，在數學和代碼推理任務上表現優異

模型特點

推理優化預訓練

通過數據過濾和合成數據增強預訓練數據中的推理模式密度

多token預測

採用MTP作為輔助訓練目標，提升模型性能並加速推理

強化學習優化

針對數學和編程題設計專門的RL訓練策略，包括難度感知獎勵機制

高效推理架構

優化後的推理引擎實現2.29倍訓練加速和1.96倍驗證加速

模型能力

數學問題求解

編程代碼生成

複雜推理任務

多輪對話

知識問答

使用案例

教育

數學題解答

解答高中及以上難度的數學問題

在MATH-500測試集上達到95.8%準確率

編程教學輔助

生成和解釋編程代碼

在LiveCodeBench測試集上表現優異

科研

科學問題推理

處理需要多步推理的科學問題

在GPQA鑽石題測試中表現良好

🚀 MiMo-7B：解鎖語言模型推理潛力

MiMo-7B 是一系列從頭開始訓練、專為推理任務而生的模型。該系列模型在預訓練和後訓練階段採用了創新策略，充分挖掘語言模型的推理潛力。實驗表明，MiMo-7B 模型在數學和代碼推理任務上表現出色，甚至超越了一些更大規模的模型。本項目開源了 MiMo-7B 系列的模型，包括基礎模型、SFT 模型、基於基礎模型訓練的 RL 模型以及基於 SFT 模型訓練的 RL 模型，為開發強大的推理大語言模型提供了有價值的參考。

🚀 快速開始

模型下載

你可以從以下平臺下載 MiMo-7B 系列模型：

推理部署

SGLang 推理

# 從主分支安裝最新的 SGlang
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

# 啟動 SGLang 服務器
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-Base --host 0.0.0.0 --trust-remote-code

詳細使用方法可參考 SGLang 文檔，MTP 功能也將在 24 小時內支持。

vLLM 推理

推薦方式：使用我們的 vLLM 分支進行推理。

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "Write an essay about the importance of higher education.",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

或者，你可以在不加載 MTP 參數的情況下為 MiMo 註冊 vLLM 加載器。

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace 推理

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-Base"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

✨ 主要特性

預訓練：為推理而生的基礎模型

優化數據預處理流程：增強文本提取工具包，應用多維數據過濾，提高預訓練數據中推理模式的密度。同時，採用多種策略生成大量多樣化的合成推理數據。
三階段數據混合策略：預訓練階段採用三階段數據混合策略，MiMo-7B-Base 大約在 25 萬億個標記上進行預訓練。
引入多標記預測目標：將多標記預測（Multiple-Token Prediction）作為額外的訓練目標，提升模型性能並加速推理。

後訓練策略：開創性的推理模型

精心策劃訓練數據：精心挑選 130K 個數學和代碼問題作為 RL 訓練數據，這些問題可由基於規則的驗證器進行驗證。每個問題都經過仔細清理和難度評估，以確保數據質量。僅使用基於規則的準確性獎勵，避免潛在的獎勵破解問題。
引入測試難度驅動的代碼獎勵：為緩解具有挑戰性的代碼問題的稀疏獎勵問題，引入測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配細粒度分數，可通過密集獎勵信號更有效地優化策略。
實施數據重採樣策略：對簡單問題實施數據重採樣策略，提高滾動採樣效率並穩定策略更新，特別是在 RL 訓練的後期階段。

RL 基礎設施

開發無縫滾動引擎：開發無縫滾動引擎（Seamless Rollout Engine）以加速 RL 訓練和驗證。該設計集成了連續滾動、異步獎勵計算和提前終止功能，最大限度減少 GPU 空閒時間，實現訓練速度提升 2.29 倍，驗證速度提升 1.96 倍。
支持 MTP 並增強推理引擎魯棒性：在 vLLM 中支持 MTP，並增強 RL 系統中推理引擎的魯棒性。

📦 安裝指南

SGLang 推理安裝

python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

💻 使用示例

基礎用法

SGLang 推理

python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-Base --host 0.0.0.0 --trust-remote-code

vLLM 推理

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "Write an essay about the importance of higher education.",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

HuggingFace 推理

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-Base"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

📚 詳細文檔

模型詳情

MiMo-7B 的 MTP 層在預訓練和 SFT 階段進行調整，在 RL 階段凍結。使用一個 MTP 層進行推測解碼時，接受率約為 90%。

模型	描述	HuggingFace 下載地址	ModelScope 下載地址
MiMo-7B-Base	具有非凡推理潛力的基礎模型	XiaomiMiMo/MiMo-7B-Base	XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero	基於基礎模型訓練的 RL 模型	XiaomiMiMo/MiMo-7B-RL-Zero	XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT	基於基礎模型訓練的 SFT 模型	XiaomiMiMo/MiMo-7B-SFT	XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL	基於 SFT 模型訓練的 RL 模型，性能優越，可與 OpenAI o1-mini 相媲美	XiaomiMiMo/MiMo-7B-RL	XiaomiMiMo/MiMo-7B-RL

評估結果

綜合評估

基準測試	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
GPQA Diamond (Pass@1)	49.9	65.0	60.0	54.5	59.1	49.1	54.4
SuperGPQA (Pass@1)	42.4	48.2	45.2	43.6	40.6	28.9	40.5
DROP (3-shot F1)	83.7	88.3	83.9	71.2	85.5	77.0	78.7
MMLU-Pro (EM)	72.6	78.0	80.3	52.0	68.8	53.5	58.6
IF-Eval (Prompt Strict)	84.3	86.5	84.8	40.4	78.3	60.5	61.0

數學評估

基準測試	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
MATH-500 (Pass@1)	74.6	78.3	90.0	90.6	93.9	92.8	95.8
AIME 2024 (Pass@1)	9.3	16.0	63.6	50.0	69.7	55.5	68.2
AIME 2025 (Pass@1)	11.6	7.4	50.7	32.4	48.2	38.8	55.4

代碼評估

基準測試	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
LiveCodeBench v5 (Pass@1)	32.9	38.9	53.8	41.9	53.1	37.6	57.8
LiveCodeBench v6 (Pass@1)	30.9	37.2	46.8	39.1	31.9	23.9	49.3

MiMo-7B 系列評估

基準測試	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
MATH500 (Pass@1)	37.4	93.6	93.0	95.8
AIME 2024 (Pass@1)	32.9	56.4	58.7	68.2
AIME 2025 (Pass@1)	24.3	46.3	44.3	55.4
LiveCodeBench v5 (Pass@1)	32.9	49.1	52.3	57.8
LiveCodeBench v6 (Pass@1)	29.1	42.9	45.5	49.3

評估說明

評估使用 temperature=0.6 進行。
AIME24 和 AIME25 的評估結果是 32 次重複的平均得分。LiveCodeBench v5（20240801 - 20250201）、LiveCodeBench v6（20250201 - 20250501）、GPQA-Diamond 和 IF-Eval 的評估結果是 8 次重複的平均得分。MATH500 和 SuperGPQA 進行單次運行評估。

🔧 技術細節

預訓練階段

數據處理：通過優化數據預處理流程，提高推理模式在預訓練數據中的密度。採用多維數據過濾和多種數據生成策略，確保數據的多樣性和質量。
訓練目標：引入多標記預測（Multiple-Token Prediction）作為額外的訓練目標，提升模型的推理能力和推理速度。

後訓練階段

訓練數據：精心挑選數學和代碼問題作為 RL 訓練數據，確保數據的可驗證性和質量。
獎勵機制：採用基於規則的準確性獎勵，避免獎勵破解問題。同時，引入測試難度驅動的代碼獎勵，解決稀疏獎勵問題。
數據策略：對簡單問題實施數據重採樣策略，提高訓練效率和穩定性。

RL 基礎設施

無縫滾動引擎：無縫滾動引擎集成了連續滾動、異步獎勵計算和提前終止功能，減少 GPU 空閒時間，加速訓練和驗證過程。
推理引擎：在 vLLM 中支持 MTP，並增強推理引擎的魯棒性，確保模型在實際應用中的穩定性。

📄 許可證

本模型倉庫遵循 MIT 許可證。

🔍 引用

@misc{coreteam2025mimounlockingreasoningpotential,
      title={MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining}, 
      author={{Xiaomi LLM-Core Team}},
      year={2025},
      eprint={2505.07608},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.07608}, 
}

📞 聯繫我們

如果您有任何問題，請通過 mimo@xiaomi.com 聯繫我們，或在項目中提交 issue。

⚠️ 重要提示

評估是在 temperature=0.6 的條件下進行的。AIME24 和 AIME25 的評估結果是 32 次重複的平均得分。LiveCodeBench v5（20240801 - 20250201）、LiveCodeBench v6（20250201 - 20250501）、GPQA-Diamond 和 IF-Eval 的評估結果是 8 次重複的平均得分。MATH500 和 SuperGPQA 進行單次運行評估。