M

Mimo 7B RL 0530

XiaomiMiMoによって開発
MiMoは、推論タスク用に最初からトレーニングされた一連の7Bパラメータモデルで、事前学習と事後学習の戦略を最適化することで、数学とコードの推論タスクで優れた性能を発揮します。
ダウンロード数 319
リリース時間 : 5/30/2025

モデル概要

MiMoシリーズのモデルは、言語モデルの推論能力を引き出すことに特化しており、革新的な事前学習と事後学習の戦略により、数学とコードの推論タスクで多くのより大きな32Bモデルを上回っています。

モデル特徴

最適化された事前学習戦略
三つの段階のデータ混合戦略と強化されたデータ前処理フローを採用し、推論パターンの密度を高めます。
革新的な多ラベル予測
多ラベル予測(MTP)を追加のトレーニング目標として導入し、性能を向上させ、推論を高速化します。
強化学習トレーニング
精心選択された数学とコードの問題を使用して強化学習トレーニングを行い、コード報酬メカニズムを導入します。
高効率推論インフラストラクチャ
シームレスなスクロールエンジンを開発し、MTPをサポートし、推論エンジンの堅牢性を強化します。

モデル能力

数学問題の解決
コード生成と理解
複雑な推論タスクの処理
STEM問題の解答
一般的な言語理解

使用事例

教育
数学コンテスト問題の解答
AIMEなどの数学コンテストの複雑な問題を解きます。
AIME 2024で80.1%のPass@1精度を達成しました。
プログラミング教育の支援
学生がプログラミングコードを理解し、生成するのを支援します。
LiveCodeBench v5で60.9%のPass@1精度を達成しました。
研究
科学問題の解答
GPQAなどの科学知識テストの問題に答えます。
GPQA Diamondで60.6%のPass@1精度を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase