モデル概要
モデル特徴
モデル能力
使用事例
license: mit library_name: transformers

★★★★★★★★★★★★★★★★★★★★★★★
言語モデルの推論ポテンシャルを解放する
事前学習から事後学習まで
★★★★★★★★★★★★★★★★★★★★★★★
このモデルリポジトリはMITライセンスの下で公開されています。
I. はじめに
現在、オープンソース研究を含む成功したRL研究のほとんどは、比較的大きなベースモデル(例:32Bモデル)に依存しており、特にコード推論能力の向上において顕著です。さらに、小規模モデルにおいて数学的能力とコード能力の両方を均一かつ同時に向上させることは困難であると広く考えられていました。しかしながら、私たちはRLで訓練された推論モデルの有効性は、ベースモデルが本来持つ推論ポテンシャルに依存すると考えています。言語モデルの推論ポテンシャルを完全に解放するためには、事後学習だけでなく、推論に特化した事前学習戦略にも焦点を当てる必要があります。
本稿では、スクラッチから訓練され、推論タスクのために生まれたMiMo-7Bシリーズを紹介します。MiMo-7B-BaseからのRL実験により、私たちのモデルが非常に優れた推論ポテンシャルを持ち、はるかに大きな32Bモデルを凌駕することさえあることが示されました。さらに、コールドスタートのSFTモデルに対してRL訓練を行い、MiMo-7B-RLを作成しました。このモデルは数学とコードの推論タスクの両方で優れた性能を示し、OpenAI o1-miniと同等の性能を発揮します。
私たちはMiMo-7Bシリーズをオープンソース化し、ベースモデル、SFTモデル、ベースモデルから訓練したRLモデル、およびSFTモデルから訓練したRLモデルのチェックポイントを含めています。このレポートとモデルが、より強力な推論LLMを開発するための貴重な洞察を提供し、広範なコミュニティに利益をもたらすことを願っています。
üåü ハイライト
-
事前学習: 推論のために生まれたベースモデル
- データ前処理パイプラインを最適化し、テキスト抽出ツールキットを強化し、多次元データフィルタリングを適用して事前学習データ中の推論パターンの密度を高めました。また、多様な合成推論データを大量に生成するための複数の戦略を採用しました。
- 事前学習のために3段階のデータ混合戦略を採用しました。全体として、MiMo-7B-Baseは約25兆トークンで事前学習されています。
- 追加の訓練目標としてMultiple-Token Predictionを組み込み、モデルの性能を向上させるとともに推論を加速させました。
-
事後学習レシピ: 先駆的な推論モデル
- RL訓練データとして13万件の数学とコードの問題をキュレーションしました。これらはルールベースの検証器で検証可能です。各問題は品質を確保するために慎重にクリーニングされ、難易度評価が行われました。報酬ハッキングの可能性を避けるため、ルールベースの精度報酬のみを採用しました。
- 難しいコード問題に対するスパースな報酬問題を緩和するため、テスト難易度に基づくコード報酬を導入しました。異なる難易度レベルのテストケースに細かいスコアを割り当てることで、密集した報酬信号を通じてポリシーをより効果的に最適化できます。
- RL訓練の後半フェーズにおいて特に、ロールアウトサンプリング効率を高め、ポリシー更新を安定させるために、簡単な問題に対するデータ再サンプリング戦略を実装しました。
-
RLインフラストラクチャ
- RL訓練と検証を加速するためのシームレスなロールアウトエンジンを開発しました。私たちの設計は、連続的なロールアウト、非同期報酬計算、早期終了を統合し、GPUのアイドル時間を最小限に抑え、訓練を2.29倍、検証を1.96倍高速化しました。
- vLLMでMTPをサポートし、RLシステムにおける推論エンジンの堅牢性を強化しました。
II. モデル詳細
MiMo-7BのMTP層は事前学習とSFT中に調整され、RL中は固定されます。投機的デコード用に1つのMTP層を使用すると、受入率は約90%です。
モデルはhttps://huggingface.co/XiaomiMiMoとhttps://www.modelscope.cn/organization/XiaomiMiMoで利用可能です
モデル | 説明 | ダウンロード (HuggingFace) | ダウンロード (ModelScope) |
---|---|---|---|
MiMo-7B-Base | 優れた推論ポテンシャルを持つベースモデル | ü§ó XiaomiMiMo/MiMo-7B-Base | ü§ñÔ∏è XiaomiMiMo/MiMo-7B-Base |
MiMo-7B-RL-Zero | ベースモデルから訓練したRLモデル | ü§ó XiaomiMiMo/MiMo-7B-RL-Zero | ü§ñÔ∏è XiaomiMiMo/MiMo-7B-RL-Zero |
MiMo-7B-SFT | ベースモデルから訓練したSFTモデル | ü§ó XiaomiMiMo/MiMo-7B-SFT | ü§ñÔ∏è XiaomiMiMo/MiMo-7B-SFT |
MiMo-7B-RL | SFTモデルから訓練したRLモデル、OpenAI o1-miniに匹敵する優れた性能 | ü§ó XiaomiMiMo/MiMo-7B-RL | ü§ñÔ∏è XiaomiMiMo/MiMo-7B-RL |
III. 評価結果
ベンチマーク | GPT-4o-0513 | Claude-3.5-Sonnet-1022 | OpenAI o1-mini | QwQ-32B-Preview | R1-Distill-Qwen-14B | R1-Distill-Qwen-7B | MiMo-7B-RL |
---|---|---|---|---|---|---|---|
一般 | |||||||
GPQA Diamond (Pass@1) |
49.9 | 65.0 | 60.0 | 54.5 | 59.1 | 49.1 | 54.4 |
SuperGPQA (Pass@1) |
42.4 | 48.2 | 45.2 | 43.6 | 40.6 | 28.9 | 40.5 |
DROP (3-shot F1) |
83.7 | 88.3 | 83.9 | 71.2 | 85.5 | 77.0 | 78.7 |
MMLU-Pro (EM) |
72.6 | 78.0 | 80.3 | 52.0 | 68.8 | 53.5 | 58.6 |
IF-Eval (Prompt Strict) |
84.3 | 86.5 | 84.8 | 40.4 | 78.3 | 60.5 | 61.0 |
数学 | |||||||
MATH-500 (Pass@1) |
74.6 | 78.3 | 90.0 | 90.6 | 93.9 | 92.8 | 95.8 |
AIME 2024 (Pass@1) |
9.3 | 16.0 | 63.6 | 50.0 | 69.7 | 55.5 | 68.2 |
AIME 2025 (Pass@1) |
11.6 | 7.4 | 50.7 | 32.4 | 48.2 | 38.8 | 55.4 |
コード | |||||||
LiveCodeBench v5 (Pass@1) |
32.9 | 38.9 | 53.8 | 41.9 | 53.1 | 37.6 | 57.8 |
LiveCodeBench v6 (Pass@1) |
30.9 | 37.2 | 46.8 | 39.1 | 31.9 | 23.9 | 49.3 |
MiMo-7Bシリーズ
ベンチマーク | MiMo-7B-Base | MiMo-7B-RL-Zero | MiMo-7B-SFT | MiMo-7B-RL |
---|---|---|---|---|
数学 | ||||
MATH500 (Pass@1) |
37.4 | 93.6 | 93.0 | 95.8 |
AIME 2024 (Pass@1) |
32.9 | 56.4 | 58.7 | 68.2 |
AIME 2025 (Pass@1) |
24.3 | 46.3 | 44.3 | 55.4 |
コード | ||||
LiveCodeBench v5 (Pass@1) |
32.9 | 49.1 | 52.3 | 57.8 |
LiveCodeBench v6 (Pass@1) |
29.1 | 42.9 | 45.5 | 49.3 |
[!重要] 評価は
temperature=0.6
で実施されました。AIME24とAIME25は32回の繰り返しの平均スコアです。LiveCodeBench v5 (20240801-20250201)、LiveCodeBench v6 (20250201-20250501)、GPQA-DiamondおよびIF-Evalは8回の繰り返しの平均スコアです。MATH500とSuperGPQAは単一実行です。
IV. デプロイ
SGLang推論
SGLangチームの貢献により、24時間以内にMiMoをSGLangメインストリームでサポートし、MTPも近日中にサポート予定です。
サンプルスクリプト
# 最新のSGlangをmainブランチからインストール
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"
# SGLangサーバー起動
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL --host 0.0.0.0 --trust-remote-code
詳細な使用方法はSGLangドキュメントで確認できます。MTPも24時間以内にサポートされる予定です。
vLLM推論
- [推奨] 私たちのvLLMフォークを使用してMiMo-MTPの推論を公式にサポートしています。
サンプルスクリプト
from vllm import LLM, SamplingParams
model_path = "/path/to/MiMo"
llm = LLM(
model=model_path,
trust_remote_code=True,
num_speculative_tokens=1,
disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)
conversation = [
{
"role": "system",
"content": ""
},
{
"role": "user",
"content": "高等教育の重要性についてのエッセイを書いてください。",
},
]
outputs = llm.chat(conversation,
sampling_params=sampling_params,
use_tqdm=False)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"プロンプト: {prompt!r}, 生成テキスト: {generated_text!r}")
print("=" * 80)
- または、MTPパラメータをロードせずにvLLMローダーをMiMo用に登録できます。
registry/register_mimo_in_vllm.py
をあなたのディレクトリにコピーし、以下のようにインポートできます。
import register_mimo_in_vllm
from vllm import LLM, SamplingParams
model_path = "/path/to/MiMo"
llm = LLM(
model=model_path,
trust_remote_code=True,
# num_speculative_tokens=1,
disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)
HuggingFace推論
サンプルスクリプト
from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer
model_id = "XiaomiMiMo/MiMo-7B-RL"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["今日は"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))
推奨環境とプロンプト
- 私たちのvLLMフォークの使用を推奨します。これはvLLM 0.7.3を基に開発されています。
- 空のシステムプロンプトの使用を推奨します。
他の推論エンジンでのMiMoの検証は行っておらず、Huggingfaceリポジトリのモデル定義に基づく貢献を歓迎しますüíª。
V. 引用
@misc{coreteam2025mimounlockingreasoningpotential,
title={MiMo: 言語モデルの推論ポテンシャルを解放する -- 事前学習から事後学習まで},
author={{Xiaomi LLM-Core Team}},
year={2025},
eprint={2505.07608},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.07608},
}
VI. 連絡先
ご質問がある場合は、mimo@xiaomi.comまでお問い合わせいただくか、イシューを開いてください。



