M

Mimo 7B SFT

由XiaomiMiMo開發
MiMo-7B-RL是基於MiMo-7B-SFT模型訓練的強化學習模型,在數學與代碼推理任務上達到與OpenAI o1-mini比肩的性能。
下載量 1,183
發布時間 : 4/29/2025

模型概述

專為推理任務優化的7B參數語言模型,通過強化學習訓練顯著提升數學和代碼推理能力

模型特點

強化學習優化
通過精心設計的RL訓練流程,顯著提升數學和代碼推理能力
多token預測
採用MTP技術作為輔助訓練目標,既提升性能又加速推理
高效推理
優化後的模型在保持高性能的同時具備更快的推理速度

模型能力

數學問題求解
代碼生成與補全
邏輯推理
文本理解與生成
複雜問題解答

使用案例

教育
數學題解答
幫助學生解答各類數學題目,包括高等數學競賽題
在AIME數學競賽題上達到68.2%的準確率
編程輔助
代碼生成
根據自然語言描述生成可運行的代碼
在LiveCodeBench測試中達到57.8%的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase