M

Mimo 7B RL

由XiaomiMiMo開發
MiMo-7B-RL是基於MiMo-7B-SFT模型訓練的強化學習模型,在數學與代碼推理任務上表現出色,性能媲美OpenAI o1-mini。
下載量 11.79k
發布時間 : 4/29/2025

模型概述

專為推理任務優化的7B參數語言模型,通過強化學習訓練在數學和編程任務上展現卓越性能

模型特點

推理優化預訓練
採用三階段數據混合策略和多樣化合成推理數據進行預訓練,增強模型推理能力
多token預測
引入MTP作為輔助訓練目標,提升模型性能並加速推理
測試難度驅動獎勵
針對高難度代碼題設計細粒度獎勵機制,優化密集獎勵信號

模型能力

數學問題求解
代碼生成與補全
邏輯推理
複雜問題分解

使用案例

教育
數學競賽題解答
解答AIME等數學競賽題目
在AIME 2024/2025測試中達到68.2%/55.4%準確率
編程
編程題解答
解決LiveCodeBench上的編程問題
在LiveCodeBench v5/v6上達到57.8%/49.3%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase