モデル概要
モデル特徴
モデル能力
使用事例
🚀 MiniCPM-o 2.6 - 携帯電話でのビジョン、音声、マルチモーダルライブストリーミング向けGPT - 4oレベルのMLLM
MiniCPM - o 2.6は、MiniCPM - oシリーズの最新かつ最も強力なモデルです。このモデルは、SigLip - 400M、Whisper - medium - 300M、ChatTTS - 200M、およびQwen2.5 - 7Bをベースに、合計80億のパラメータでエンドツーエンドに構築されています。MiniCPM - V 2.6に比べて大幅な性能向上を示し、リアルタイム音声会話やマルチモーダルライブストリーミングの新機能を導入しています。
ニュース
- [2025.03.01] 🚀🚀🚀 MiniCPM - oのアライメント技術であるRLAIF - VがCVPR 2025に採択されました!コード、データセット、論文がオープンソース化されました!
- [2025.01.24] 📢📢📢 MiniCPM - o 2.6の技術レポートが公開されました!こちらを参照。
- [2025.01.19] ⭐️⭐️⭐️ MiniCPM - oがGitHubトレンディングで1位、Hugging Faceトレンディングで2位にランクインしました!
✨ 主な機能
🔥 卓越したビジュアル能力
MiniCPM - o 2.6は、OpenCompassで平均70.2点を獲得し、8つの人気ベンチマークにわたる包括的な評価で優れた成績を収めています。わずか80億のパラメータで、GPT - 4o - 202405、Gemini 1.5 Pro、Claude 3.5 Sonnetなどの広く使用されているプロプライエタリモデルを上回り、単一画像理解において優れた性能を発揮します。また、マルチ画像やビデオ理解ではGPT - 4VやClaude 3.5 Sonnetを上回り、文脈学習能力も有望です。
🎙 最先端の音声能力
MiniCPM - o 2.6は、英語と中国語でのバイリンガルリアルタイム音声会話をサポートし、音声を設定可能です。音声理解タスク(ASRやSTT翻訳など)ではGPT - 4o - realtimeを上回り、オープンソースコミュニティにおける音声会話の意味論的および音響的評価で最先端の性能を示します。また、感情/速度/スタイルの制御、エンドツーエンドの音声クローニング、ロールプレイなどの楽しい機能もサポートしています。
🎬 強力なマルチモーダルライブストリーミング能力
新機能として、MiniCPM - o 2.6はユーザーのクエリとは独立した連続ビデオおよび音声ストリームを受け入れ、リアルタイム音声インタラクションをサポートします。リアルタイムビデオ理解、オムニソース(ビデオと音声)理解、マルチモーダル文脈理解の包括的なベンチマークであるStreamingBenchでは、GPT - 4o - 202408やClaude 3.5 Sonnetを上回り、オープンソースコミュニティで最先端の性能を示します。
💪 強力なOCR能力など
MiniCPM - Vシリーズの人気のビジュアル機能を進化させ、MiniCPM - o 2.6は任意のアスペクト比で最大180万画素(例:1344x1344)の画像を処理できます。250億未満のモデルに対するOCRBenchで最先端の性能を達成し、GPT - 4o - 202405などのプロプライエタリモデルを上回ります。最新のRLAIF - VおよびVisCPM技術に基づいており、信頼性の高い動作を特徴とし、MMHal - BenchでGPT - 4oやClaude 3.5 Sonnetを上回り、30以上の言語でのマルチ言語能力をサポートします。
🚀 卓越した効率性
MiniCPM - o 2.6は、サイズが小さいだけでなく、最先端のトークン密度(すなわち、各ビジュアルトークンにエンコードされる画素数)を示します。180万画素の画像を処理する際にわずか640トークンを生成し、ほとんどのモデルよりも75%少ないトークン数です。これにより、推論速度、最初のトークンの遅延、メモリ使用量、電力消費が直接改善されます。その結果、MiniCPM - o 2.6はiPadなどのエンドデバイスでマルチモーダルライブストリーミングを効率的にサポートできます。
💫 使いやすさ
MiniCPM - o 2.6は、様々な方法で簡単に使用できます。
- llama.cppを使用して、ローカルデバイスでのCPU推論を効率的に行う。
- int4およびGGUF形式の16種類の量子化モデルを使用する。
- vLLMを使用して、高スループットかつメモリ効率の良い推論を行う。
- LLaMA - Factoryを使用して、新しいドメインやタスクでの微調整を行う。
- Gradioを使用して、ローカルでのWebUIデモを迅速にセットアップする。
- サーバーでのオンラインウェブデモを利用する。
🔧 技術詳細
モデルアーキテクチャ
エンドツーエンドのオムニモーダルアーキテクチャ
異なるモダリティのエンコーダ/デコーダがエンドツーエンドで接続され、トレーニングされることで、豊富なマルチモーダル知識を最大限に活用しています。
オムニモーダルライブストリーミングメカニズム
- オフラインのモダリティエンコーダ/デコーダをオンラインのものに変更し、ストリーミング入出力を可能にします。
- LLMバックボーンにおけるオムニモーダリティストリーミング処理のために、時分割多重化(TDM)メカニズムを考案しました。これは、並列なオムニモーダリティストリームを小さな周期的な時間スライス内の逐次情報に分割します。
設定可能な音声モデリング設計
従来のテキストシステムプロンプトに加えて、アシスタントの音声を決定する新しい音声システムプロンプトを含むマルチモーダルシステムプロンプトを考案しました。これにより、推論時に柔軟な音声設定が可能になり、エンドツーエンドの音声クローニングや記述に基づく音声作成も容易になります。

📚 詳細ドキュメント
評価

ビジュアル理解結果
画像理解
モデル | サイズ | トークン密度+ | OpenCompass | OCRBench | MathVista mini | ChartQA | MMVet | MMStar | MME | MMB1.1 test | AI2D | MMMU val | HallusionBench | TextVQA val | DocVQA test | MathVerse mini | MathVision | MMHal Score |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
プロプライエタリ | ||||||||||||||||||
GPT - 4o - 20240513 | - | 1088 | 69.9 | 736 | 61.3 | 85.7 | 69.1 | 63.9 | 2328.7 | 82.2 | 84.6 | 69.2 | 55.0 | - | 92.8 | 50.2 | 30.4 | 3.6 |
Claude3.5 - Sonnet | - | 750 | 67.9 | 788 | 61.6 | 90.8 | 66.0 | 62.2 | 1920.0 | 78.5 | 80.2 | 65.9 | 49.9 | - | 95.2 | - | - | 3.4 |
Gemini 1.5 Pro | - | - | 64.4 | 754 | 57.7 | 81.3 | 64.0 | 59.1 | 2110.6 | 73.9 | 79.1 | 60.6 | 45.6 | 73.5 | 86.5 | - | 19.2 | - |
GPT - 4o - mini - 20240718 | - | 1088 | 64.1 | 785 | 52.4 | - | 66.9 | 54.8 | 2003.4 | 76.0 | 77.8 | 60.0 | 46.1 | - | - | - | - | 3.3 |
オープンソース | ||||||||||||||||||
Cambrian - 34B | 34B | 1820 | 58.3 | 591 | 50.3 | 75.6 | 53.2 | 54.2 | 2049.9 | 77.8 | 79.5 | 50.4 | 41.6 | 76.7 | 75.5 | - | - | - |
GLM - 4V - 9B | 13B | 784 | 59.1 | 776 | 51.1 | - | 58.0 | 54.8 | 2018.8 | 67.9 | 71.2 | 46.9 | 45.0 | - | - | - | - | - |
Pixtral - 12B | 12B | 256 | 61.0 | 685 | 56.9 | 81.8 | 58.5 | 54.5 | - | 72.7 | 79.0 | 51.1 | 47.0 | 75.7 | 90.7 | - | - | - |
DeepSeek - VL2 - 27B (4B) | 27B | 672 | 66.4 | 809 | 63.9 | 86.0 | 60.0 | 61.9 | 2253.0 | 81.2 | 83.8 | 54.0 | 45.3 | 84.2 | 93.3 | - | - | 3.0 |
Qwen2 - VL - 7B | 8B | 784 | 67.1 | 866 | 58.2 | 83.0 | 62.0 | 60.7 | 2326.0 | 81.8 | 83.0 | 54.1 | 50.6 | 84.3 | 94.5 | 31.9 | 16.3 | 3.2 |
LLaVA - OneVision - 72B | 72B | 182 | 68.1 | 741 | 67.5 | 83.7 | 60.6 | 65.8 | 2261.0 | 85.0 | 85.6 | 56.8 | 49.0 | 80.5 | 91.3 | 39.1 | - | 3.5 |
InternVL2.5 - 8B | 8B | 706 | 68.3 | 822 | 64.4 | 84.8 | 62.8 | 62.8 | 2344.0 | 83.6 | 84.5 | 56.0 | 50.1 | 79.1 | 93.0 | 39.5 | 19.7 | 3.4 |
MiniCPM - V 2.6 | 8B | 2822 | 65.2 | 852* | 60.6 | 79.4 | 60.0 | 57.5 | 2348.4* | 78.0 | 82.1 | 49.8* | 48.1* | 80.1 | 90.8 | 25.7 | 18.3 | 3.6 |
MiniCPM - o 2.6 | 8B | 2822 | 70.2 | 897* | 71.9* | 86.9* | 67.5 | 64.0 | 2372.0* | 80.5 | 85.8 | 50.4* | 51.9 | 82.0 | 93.5 | 41.4* | 23.1* | 3.8 |
+ トークン密度:最大解像度で各ビジュアルトークンにエンコードされる画素数、すなわち最大解像度での画素数 / ビジュアルトークン数。
注:プロプライエタリモデルについては、公式APIドキュメントで定義された画像エンコーディング課金戦略に基づいてトークン密度を計算しており、これは上限推定値です。
マルチ画像およびビデオ理解
クリックして表示
モデル | サイズ | BLINK val | Mantis Eval | MIRB | Video - MME (wo / w subs) |
---|---|---|---|---|---|
プロプライエタリ | |||||
GPT - 4o - 20240513 | - | 68.0 | - | - | 71.9/77.2 |
GPT4V | - | 54.6 | 62.7 | 53.1 | 59.9/63.3 |
オープンソース | |||||
LLaVA - NeXT - Interleave 14B | 14B | 52.6 | 66.4 | 30.2 | - |
LLaVA - OneVision - 72B | 72B | 55.4 | 77.6 | - | 66.2/69.5 |
MANTIS 8B | 8B | 49.1 | 59.5 | 34.8 | - |
Qwen2 - VL - 7B | 8B | 53.2 | 69.6* | 67.6* | 63.3/69.0 |
InternVL2.5 - 8B | 8B | 54.8 | 67.7 | 52.5 | 64.2/66.9 |
MiniCPM - V 2.6 | 8B | 53.0 | 69.1 | 53.8 | 60.9/63.6 |
MiniCPM - o 2.6 | 8B | 56.7 | 71.9 | 58.6 | 63.9/67.9 |
音声理解と音声会話結果
音声理解
タスク | サイズ | ASR (zh) | ASR (en) | AST | 感情 | |||||
---|---|---|---|---|---|---|---|---|---|---|
指標 | CER↓ | WER↓ | BLEU↑ | ACC↑ | ||||||
データセット | AISHELL - 1 | Fleurs zh | WenetSpeech test - net | LibriSpeech test - clean | GigaSpeech | TED - LIUM | CoVoST en2zh | CoVoST zh2en | MELD emotion | |
プロプライエタリ | ||||||||||
GPT - 4o - Realtime | - | 7.3* | 5.4* | 28.9* | 2.6* | 12.9* | 4.8* | 37.1* | 15.7* | 33.2* |
Gemini 1.5 Pro | - | 4.5* | 5.9* | 14.3 |









