MiMo - 7B - RL - Zeroオープンソース言語モデル - 数学とコード推論タスクを無料で支援

ホーム

Mimo 7B RL Zero

XiaomiMiMoによって開発

MiMo-7Bは、推論タスクに特化して設計された小米の言語モデルシリーズで、基本モデル、SFTモデル、RLモデルを含み、数学とコード推論タスクで優れた性能を発揮します。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #推論最適化 #数学とコードの最適化 #マルチトークン予測

ダウンロード数 216

リリース時間 : 4/29/2025

モデル概要

MiMo-7Bシリーズは、最適化された事前学習と事後学習スキームにより、言語モデルの推論能力を向上させ、数学とコードタスクにおいて大規模モデルと同等またはそれ以上の性能を達成しています。

モデル特徴

推論最適化のための事前学習

3段階のデータ混合戦略とマルチトークン予測目標を採用し、モデルの推論能力を強化

革新的な事後学習スキーム

数学とコード問題をRLトレーニングデータとして精選し、テスト難易度に基づくコード報酬メカニズムを導入

効率的なRLインフラストラクチャ

シームレスなrolloutエンジンを開発し、RLトレーニングと検証を加速、GPUのアイドル時間を削減

マルチトークン予測サポート

推測デコードをサポートし、約90%の受容率で推論プロセスを加速

モデル能力

数学問題解決

コード生成と理解

複雑な推論タスク処理

マルチターン対話

テキスト生成

使用事例

教育

数学問題解答

高校数学コンテストレベルの問題を解決

AIMEコンテスト問題で68.2%の正答率を達成

プログラミング教育

学生がプログラミングコードを理解し生成するのを支援

LiveCodeBenchテストで57.8%の正答率を達成

ソフトウェア開発

コードアシスタント

開発者がコードを記述し最適化するのを支援

license: mit library_name: transformers

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
言語モデルの推論ポテンシャルを解放する
事前学習から事後学習へ
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

| ü§ó HuggingFace | ü§ñÔ∏è ModelScope | üìî 技術レポート |

このモデルリポジトリはMITライセンスの下で公開されています。

I. はじめに

現在、オープンソース研究を含む成功したRL研究のほとんどは、比較的大きなベースモデル（例：32Bモデル）に依存しており、特にコード推論能力の向上において顕著です。さらに、小規模モデルにおいて数学的能力とコード能力の両方を均一かつ同時に向上させることは困難であると広く考えられていました。しかしながら、我々はRL訓練された推論モデルの有効性は、ベースモデルが本来持つ推論ポテンシャルに依存すると考えています。言語モデルの推論ポテンシャルを完全に解放するためには、事後学習だけでなく、推論に特化した事前学習戦略にも焦点を当てる必要があります。

本論文では、スクラッチから訓練され、推論タスクのために生まれたMiMo-7Bシリーズを紹介します。MiMo-7B-BaseからのRL実験は、我々のモデルが並外れた推論ポテンシャルを持ち、はるかに大きな32Bモデルを凌駕することを示しています。さらに、コールドスタートのSFTモデルに対してRL訓練を実施し、MiMo-7B-RLを作成しました。このモデルは数学とコード推論タスクの両方で優れた性能を発揮し、OpenAI o1-miniと同等の性能を示しています。

我々はMiMo-7Bシリーズをオープンソース化します。これには、ベースモデル、SFTモデル、ベースモデルから訓練されたRLモデル、およびSFTモデルから訓練されたRLモデルのチェックポイントが含まれます。このレポートとモデルが、強力な推論LLMを開発するための貴重な洞察を提供し、広くコミュニティに貢献することを願っています。

üåü ハイライト

事前学習: 推論のために生まれたベースモデル
- データ前処理パイプラインを最適化し、テキスト抽出ツールキットを強化し、多次元データフィルタリングを適用して事前学習データにおける推論パターンの密度を高めました。また、多様な合成推論データを大量に生成するための複数の戦略を採用しています。
- 事前学習のために3段階のデータ混合戦略を採用しています。全体として、MiMo-7B-Baseは約25兆トークンで事前学習されています。
- 追加の訓練目標としてMultiple-Token Predictionを組み込み、モデルの性能を向上させるとともに推論を高速化しています。
事後学習レシピ: 推論モデルの先駆け
- RL訓練データとして13万の数学とコード問題をキュレーションしました。これらはルールベースの検証器で検証可能です。各問題は品質を確保するために注意深くクリーニングされ、難易度評価が行われています。報酬ハッキングの可能性を避けるため、ルールベースの精度報酬のみを採用しています。
- 難しいコード問題に対するスパースな報酬問題を緩和するため、テスト難易度に基づくコード報酬を導入しました。異なる難易度レベルのテストケースに細かいスコアを割り当てることで、密な報酬信号を通じてポリシーをより効果的に最適化できます。
- 簡単な問題に対してデータ再サンプリング戦略を実施し、ロールアウトサンプリング効率を向上させ、特にRL訓練の後期段階におけるポリシー更新を安定させています。
RLインフラストラクチャ
- RL訓練と検証を加速するためのSeamless Rollout Engineを開発しました。我々の設計は、連続的なロールアウト、非同期報酬計算、早期終了を統合し、GPUのアイドル時間を最小限に抑え、訓練を2.29倍、検証を1.96倍高速化します。
- vLLMでMTPをサポートし、RLシステムにおける推論エンジンの堅牢性を強化しました。

II. モデル詳細

MiMo-7BのMTP層は、事前学習とSFT中に調整され、RL中は固定されます。投機的デコード用に1つのMTP層を使用した場合、受理率は約90%です。

モデルはhttps://huggingface.co/XiaomiMiMoとhttps://www.modelscope.cn/organization/XiaomiMiMoで利用可能です

モデル	説明	ダウンロード (HuggingFace)	ダウンロード (ModelScope)
MiMo-7B-Base	並外れた推論ポテンシャルを持つベースモデル	ü§ó XiaomiMiMo/MiMo-7B-Base	ü§ñÔ∏è XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero	ベースモデルから訓練されたRLモデル	ü§ó XiaomiMiMo/MiMo-7B-RL-Zero	ü§ñÔ∏è XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT	ベースモデルから訓練されたSFTモデル	ü§ó XiaomiMiMo/MiMo-7B-SFT	ü§ñÔ∏è XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL	SFTモデルから訓練されたRLモデル、OpenAI o1-miniに匹敵する優れた性能	ü§ó XiaomiMiMo/MiMo-7B-RL	ü§ñÔ∏è XiaomiMiMo/MiMo-7B-RL

III. 評価結果

ベンチマーク	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
一般
GPQA Diamond (Pass@1)	49.9	65.0	60.0	54.5	59.1	49.1	54.4
SuperGPQA (Pass@1)	42.4	48.2	45.2	43.6	40.6	28.9	40.5
DROP (3-shot F1)	83.7	88.3	83.9	71.2	85.5	77.0	78.7
MMLU-Pro (EM)	72.6	78.0	80.3	52.0	68.8	53.5	58.6
IF-Eval (Prompt Strict)	84.3	86.5	84.8	40.4	78.3	60.5	61.0
数学
MATH-500 (Pass@1)	74.6	78.3	90.0	90.6	93.9	92.8	95.8
AIME 2024 (Pass@1)	9.3	16.0	63.6	50.0	69.7	55.5	68.2
AIME 2025 (Pass@1)	11.6	7.4	50.7	32.4	48.2	38.8	55.4
コード
LiveCodeBench v5 (Pass@1)	32.9	38.9	53.8	41.9	53.1	37.6	57.8
LiveCodeBench v6 (Pass@1)	30.9	37.2	46.8	39.1	31.9	23.9	49.3

MiMo-7Bシリーズ

ベンチマーク	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
数学
MATH500 (Pass@1)	37.4	93.6	93.0	95.8
AIME 2024 (Pass@1)	32.9	56.4	58.7	68.2
AIME 2025 (Pass@1)	24.3	46.3	44.3	55.4
コード
LiveCodeBench v5 (Pass@1)	32.9	49.1	52.3	57.8
LiveCodeBench v6 (Pass@1)	29.1	42.9	45.5	49.3

[!IMPORTANT] 評価はtemperature=0.6で実施されています。

AIME24とAIME25は32回の繰り返しの平均スコアです。LiveCodeBench v5 (20240801-20250201)、LiveCodeBench v6 (20250201-20250501)、GPQA-DiamondおよびIF-Evalは8回の繰り返しの平均スコアです。MATH500とSuperGPQAは単一実行です。

IV. デプロイ

SGLang推論

SGLangチームの貢献により、我々は24時間以内にSGLangメインストリームでMiMoをサポートし、MTPも近日中にサポート予定です。

サンプルスクリプト

# 最新のSGlangをmainブランチからインストール
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

# SGLangサーバーを起動
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-RL-Zero --host 0.0.0.0 --trust-remote-code

詳細な使用方法はSGLangドキュメントで確認できます。MTPも24時間以内にサポートされる予定です。

vLLM推論

[推奨] MiMo-MTPの推論は我々のvLLMフォークを使用して公式にサポートされています。

サンプルスクリプト

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "高等教育の重要性についてのエッセイを書いてください。",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

または、MTPパラメータをロードせずにMiMoのvLLMローダーを登録できます。

registry/register_mimo_in_vllm.pyをディレクトリにコピーし、以下のようにインポートできます。

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace推論

サンプルスクリプト

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-RL-Zero"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

推奨環境とプロンプト

vLLM 0.7.3をベースに開発した我々のvLLMフォークの使用を推奨します。
空のシステムプロンプトの使用を推奨します。

他の推論エンジンでのMiMoの検証は行っておらず、Huggingfaceリポジトリのモデル定義に基づく貢献を歓迎しますüíª。

V. 引用

@misc{coreteam2025mimounlockingreasoningpotential,
      title={MiMo: 言語モデルの推論ポテンシャルを解放する -- 事前学習から事後学習へ}, 
      author={{Xiaomi LLM-Core Team}},
      year={2025},
      eprint={2505.07608},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.07608}, 
}