M

Mimo 7B RL 0530

由 XiaomiMiMo 开发
MiMo是一系列专为推理任务从头训练的7B参数模型,通过优化预训练和后训练策略,在数学和代码推理任务上表现出色。
下载量 319
发布时间 : 5/30/2025

模型简介

MiMo系列模型专注于解锁语言模型的推理潜力,通过创新的预训练和后训练策略,在数学和代码推理任务上超越了许多更大的32B模型。

模型特点

优化的预训练策略
采用三阶段数据混合策略和增强的数据预处理流程,增加推理模式密度
创新的多标记预测
引入多标记预测(MTP)作为额外训练目标,提高性能并加速推理
强化学习训练
使用精心策划的数学和代码问题进行强化学习训练,引入代码奖励机制
高效推理基础设施
开发无缝滚动引擎,支持MTP并增强推理引擎鲁棒性

模型能力

数学问题求解
代码生成与理解
复杂推理任务处理
STEM问题解答
通用语言理解

使用案例

教育
数学竞赛问题解答
解决AIME等数学竞赛中的复杂问题
在AIME 2024上达到80.1%的Pass@1准确率
编程教育辅助
帮助学生理解和生成编程代码
在LiveCodeBench v5上达到60.9%的Pass@1准确率
研究
科学问题解答
回答GPQA等科学知识测试中的问题
在GPQA Diamond上达到60.6%的Pass@1准确率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase