M

Mimo 7B RL 0530

由XiaomiMiMo開發
MiMo是一系列專為推理任務從頭訓練的7B參數模型,通過優化預訓練和後訓練策略,在數學和代碼推理任務上表現出色。
下載量 319
發布時間 : 5/30/2025

模型概述

MiMo系列模型專注於解鎖語言模型的推理潛力,通過創新的預訓練和後訓練策略,在數學和代碼推理任務上超越了許多更大的32B模型。

模型特點

優化的預訓練策略
採用三階段數據混合策略和增強的數據預處理流程,增加推理模式密度
創新的多標記預測
引入多標記預測(MTP)作為額外訓練目標,提高性能並加速推理
強化學習訓練
使用精心策劃的數學和代碼問題進行強化學習訓練,引入代碼獎勵機制
高效推理基礎設施
開發無縫滾動引擎,支持MTP並增強推理引擎魯棒性

模型能力

數學問題求解
代碼生成與理解
複雜推理任務處理
STEM問題解答
通用語言理解

使用案例

教育
數學競賽問題解答
解決AIME等數學競賽中的複雜問題
在AIME 2024上達到80.1%的Pass@1準確率
編程教育輔助
幫助學生理解和生成編程代碼
在LiveCodeBench v5上達到60.9%的Pass@1準確率
研究
科學問題解答
回答GPQA等科學知識測試中的問題
在GPQA Diamond上達到60.6%的Pass@1準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase