M

Mimo 7B RL Zero

由XiaomiMiMo開發
MiMo-7B 是小米推出的專為推理任務設計的語言模型系列,包括基礎模型、SFT模型和RL模型,在數學和代碼推理任務上表現優異。
下載量 216
發布時間 : 4/29/2025

模型概述

MiMo-7B 系列模型通過優化的預訓練和後訓練方案,專注於提升語言模型的推理能力,在數學和代碼任務上達到或超越更大規模模型的性能。

模型特點

專為推理優化的預訓練
採用三階段數據混合策略和多token預測目標,增強模型推理能力
創新的後訓練方案
精選數學與代碼問題作為RL訓練數據,引入測試難度驅動的代碼獎勵機制
高效的RL基礎設施
開發無縫rollout引擎加速RL訓練與驗證,減少GPU閒置時間
多token預測支持
支持推測解碼,接受率約90%,可加速推理過程

模型能力

數學問題求解
代碼生成與理解
複雜推理任務處理
多輪對話
文本生成

使用案例

教育
數學問題解答
解決高中數學競賽級別的問題
在AIME競賽題上達到68.2%的正確率
編程教育
幫助學生理解和生成編程代碼
在LiveCodeBench測試中達到57.8%的正確率
軟件開發
代碼輔助
幫助開發者編寫和優化代碼
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase