M

Mimo 7B RL

XiaomiMiMoによって開発
MiMo-7B-RLはMiMo-7B-SFTモデルを基に強化学習で訓練されたモデルで、数学とコード推論タスクで優れた性能を発揮し、OpenAI o1-miniに匹敵する性能を持っています。
ダウンロード数 11.79k
リリース時間 : 4/29/2025

モデル概要

推論タスクに最適化された7Bパラメータの言語モデルで、強化学習による訓練により数学とプログラミングタスクで卓越した性能を発揮

モデル特徴

推論最適化事前訓練
3段階のデータ混合戦略と多様な合成推論データを使用した事前訓練により、モデルの推論能力を強化
マルチトークン予測
MTPを補助訓練目標として導入し、モデル性能を向上させ推論を加速
テスト難易度駆動報酬
高難度のコード問題に対して細かい報酬メカニズムを設計し、密集報酬信号を最適化

モデル能力

数学問題解決
コード生成と補完
論理的推論
複雑な問題の分解

使用事例

教育
数学競技問題解答
AIMEなどの数学競技問題を解答
AIME 2024/2025テストで68.2%/55.4%の精度を達成
プログラミング
プログラミング問題解答
LiveCodeBench上のプログラミング問題を解決
LiveCodeBench v5/v6で57.8%/49.3%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase