M

Mimo 7B RL Zero

XiaomiMiMoによって開発
MiMo-7Bは、推論タスクに特化して設計された小米の言語モデルシリーズで、基本モデル、SFTモデル、RLモデルを含み、数学とコード推論タスクで優れた性能を発揮します。
ダウンロード数 216
リリース時間 : 4/29/2025

モデル概要

MiMo-7Bシリーズは、最適化された事前学習と事後学習スキームにより、言語モデルの推論能力を向上させ、数学とコードタスクにおいて大規模モデルと同等またはそれ以上の性能を達成しています。

モデル特徴

推論最適化のための事前学習
3段階のデータ混合戦略とマルチトークン予測目標を採用し、モデルの推論能力を強化
革新的な事後学習スキーム
数学とコード問題をRLトレーニングデータとして精選し、テスト難易度に基づくコード報酬メカニズムを導入
効率的なRLインフラストラクチャ
シームレスなrolloutエンジンを開発し、RLトレーニングと検証を加速、GPUのアイドル時間を削減
マルチトークン予測サポート
推測デコードをサポートし、約90%の受容率で推論プロセスを加速

モデル能力

数学問題解決
コード生成と理解
複雑な推論タスク処理
マルチターン対話
テキスト生成

使用事例

教育
数学問題解答
高校数学コンテストレベルの問題を解決
AIMEコンテスト問題で68.2%の正答率を達成
プログラミング教育
学生がプログラミングコードを理解し生成するのを支援
LiveCodeBenchテストで57.8%の正答率を達成
ソフトウェア開発
コードアシスタント
開発者がコードを記述し最適化するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase