MiniCPM-o-2_6オープンソースマルチモーダル大規模モデル - スマートフォンで実行可能、映像、音声、ライブストリーム処理に対応

ホーム

Minicpm O 2 6

openbmbによって開発

MiniCPM-o 2.6はスマートフォンで動作するGPT-4oレベルのマルチモーダル大規模モデルで、視覚、音声、ライブストリーム処理をサポート

マルチモーダル融合

Transformers

その他#モバイル端末向けマルチモーダル #リアルタイム音声対話 #ライブストリーム処理

ダウンロード数 178.38k

リリース時間 : 1/12/2025

モデル概要

SigLip-400M、Whisper-medium-300M、ChatTTS-200M、Qwen2.5-7Bを基盤としたエンドツーエンド全モーダルアーキテクチャで、総パラメータ数は8B。MiniCPM-V 2.6と比較して大幅な性能向上を実現し、リアルタイム音声対話とマルチモーダルライブストリーム処理機能を新たに追加。

モデル特徴

最先端の視覚能力

OpenCompassの8大ベンチマーク包括的評価においてGPT-4o-202405、Gemini 1.5 Proなどの商用クローズドモデルを超越

リーディング音声技術

中英二か国語のリアルタイム音声対話と設定可能な音色をサポートし、ASR、STT翻訳などの音声理解タスクでGPT-4oリアルタイム版を超越

強力なライブ処理

継続的なビデオ/音声ストリーム入力とリアルタイム音声インタラクションを革新的にサポートし、オープンソースコミュニティ最高のリアルタイムビデオ理解を実現

卓越したOCR能力

OCRBench評価で25B以下のモデルで首位を獲得し、任意のアスペクト比画像と180万ピクセル処理をサポート

究極の効率

超高視覚トークン密度（1トークンあたり2822ピクセル符号化）を実現し、iPadなどの端末デバイスでマルチモーダルライブをスムーズに実行可能

モデル能力

視覚理解

音声認識

音声合成

リアルタイム音声対話

複数画像処理

ビデオ理解

OCR

音声クローン

ライブストリーム処理

多言語サポート

使用事例

インテリジェントアシスタント

リアルタイム音声アシスタント

中英二か国語のリアルタイム音声インタラクションをサポートし、音色と感情スタイルを設定可能

AudioArenaの意味/音質評価でダブル首位

マルチモーダルカスタマーサービス

音声、画像、テキスト入力を同時に処理し、総合的なソリューションを提供

MMHal-Bench信頼性評価でGPT-4oを超越

コンテンツ処理

ライブコンテンツ分析

ライブビデオストリームをリアルタイム処理し、コンテンツ理解とインタラクションを提供

StreamingBenchライブベンチマークでGPT-4o-202408を超越

ドキュメントOCR

任意のアスペクト比のドキュメントを高精度で認識

OCRBench評価で25B以下のモデルで首位

クリエイティブアプリケーション

音声クローン

エンドツーエンド音声クローンと記述的音色生成をサポート

Seed-TTSテストセットで優れた性能

マルチモーダル創作

視覚と音声入力に基づくクリエイティブコンテンツ生成

🚀 MiniCPM-o 2.6 - 携帯電話でのビジョン、音声、マルチモーダルライブストリーミング向けGPT - 4oレベルのMLLM

MiniCPM - o 2.6は、MiniCPM - oシリーズの最新かつ最も強力なモデルです。このモデルは、SigLip - 400M、Whisper - medium - 300M、ChatTTS - 200M、およびQwen2.5 - 7Bをベースに、合計80億のパラメータでエンドツーエンドに構築されています。MiniCPM - V 2.6に比べて大幅な性能向上を示し、リアルタイム音声会話やマルチモーダルライブストリーミングの新機能を導入しています。

GitHub | オンラインデモ | 技術ブログ

ニュース

[2025.03.01] 🚀🚀🚀 MiniCPM - oのアライメント技術であるRLAIF - VがCVPR 2025に採択されました！コード、データセット、論文がオープンソース化されました！
[2025.01.24] 📢📢📢 MiniCPM - o 2.6の技術レポートが公開されました！こちらを参照。
[2025.01.19] ⭐️⭐️⭐️ MiniCPM - oがGitHubトレンディングで1位、Hugging Faceトレンディングで2位にランクインしました！

✨ 主な機能

🔥 卓越したビジュアル能力

MiniCPM - o 2.6は、OpenCompassで平均70.2点を獲得し、8つの人気ベンチマークにわたる包括的な評価で優れた成績を収めています。わずか80億のパラメータで、GPT - 4o - 202405、Gemini 1.5 Pro、Claude 3.5 Sonnetなどの広く使用されているプロプライエタリモデルを上回り、単一画像理解において優れた性能を発揮します。また、マルチ画像やビデオ理解ではGPT - 4VやClaude 3.5 Sonnetを上回り、文脈学習能力も有望です。

🎙 最先端の音声能力

MiniCPM - o 2.6は、英語と中国語でのバイリンガルリアルタイム音声会話をサポートし、音声を設定可能です。音声理解タスク（ASRやSTT翻訳など）ではGPT - 4o - realtimeを上回り、オープンソースコミュニティにおける音声会話の意味論的および音響的評価で最先端の性能を示します。また、感情/速度/スタイルの制御、エンドツーエンドの音声クローニング、ロールプレイなどの楽しい機能もサポートしています。

🎬 強力なマルチモーダルライブストリーミング能力

新機能として、MiniCPM - o 2.6はユーザーのクエリとは独立した連続ビデオおよび音声ストリームを受け入れ、リアルタイム音声インタラクションをサポートします。リアルタイムビデオ理解、オムニソース（ビデオと音声）理解、マルチモーダル文脈理解の包括的なベンチマークであるStreamingBenchでは、GPT - 4o - 202408やClaude 3.5 Sonnetを上回り、オープンソースコミュニティで最先端の性能を示します。

💪 強力なOCR能力など

MiniCPM - Vシリーズの人気のビジュアル機能を進化させ、MiniCPM - o 2.6は任意のアスペクト比で最大180万画素（例：1344x1344）の画像を処理できます。250億未満のモデルに対するOCRBenchで最先端の性能を達成し、GPT - 4o - 202405などのプロプライエタリモデルを上回ります。最新のRLAIF - VおよびVisCPM技術に基づいており、信頼性の高い動作を特徴とし、MMHal - BenchでGPT - 4oやClaude 3.5 Sonnetを上回り、30以上の言語でのマルチ言語能力をサポートします。

🚀 卓越した効率性

MiniCPM - o 2.6は、サイズが小さいだけでなく、最先端のトークン密度（すなわち、各ビジュアルトークンにエンコードされる画素数）を示します。180万画素の画像を処理する際にわずか640トークンを生成し、ほとんどのモデルよりも75％少ないトークン数です。これにより、推論速度、最初のトークンの遅延、メモリ使用量、電力消費が直接改善されます。その結果、MiniCPM - o 2.6はiPadなどのエンドデバイスでマルチモーダルライブストリーミングを効率的にサポートできます。

💫 使いやすさ

MiniCPM - o 2.6は、様々な方法で簡単に使用できます。

llama.cppを使用して、ローカルデバイスでのCPU推論を効率的に行う。
int4およびGGUF形式の16種類の量子化モデルを使用する。
vLLMを使用して、高スループットかつメモリ効率の良い推論を行う。
LLaMA - Factoryを使用して、新しいドメインやタスクでの微調整を行う。
Gradioを使用して、ローカルでのWebUIデモを迅速にセットアップする。
サーバーでのオンラインウェブデモを利用する。

🔧 技術詳細

モデルアーキテクチャ

エンドツーエンドのオムニモーダルアーキテクチャ

異なるモダリティのエンコーダ/デコーダがエンドツーエンドで接続され、トレーニングされることで、豊富なマルチモーダル知識を最大限に活用しています。

オムニモーダルライブストリーミングメカニズム

オフラインのモダリティエンコーダ/デコーダをオンラインのものに変更し、ストリーミング入出力を可能にします。
LLMバックボーンにおけるオムニモーダリティストリーミング処理のために、時分割多重化（TDM）メカニズムを考案しました。これは、並列なオムニモーダリティストリームを小さな周期的な時間スライス内の逐次情報に分割します。

設定可能な音声モデリング設計

従来のテキストシステムプロンプトに加えて、アシスタントの音声を決定する新しい音声システムプロンプトを含むマルチモーダルシステムプロンプトを考案しました。これにより、推論時に柔軟な音声設定が可能になり、エンドツーエンドの音声クローニングや記述に基づく音声作成も容易になります。

📚 詳細ドキュメント

評価

ビジュアル理解結果

画像理解

モデル	サイズ	トークン密度⁺	OpenCompass	OCRBench	MathVista mini	ChartQA	MMVet	MMStar	MME	MMB1.1 test	AI2D	MMMU val	HallusionBench	TextVQA val	DocVQA test	MathVerse mini	MathVision	MMHal Score
プロプライエタリ
GPT - 4o - 20240513	-	1088	69.9	736	61.3	85.7	69.1	63.9	2328.7	82.2	84.6	69.2	55.0	-	92.8	50.2	30.4	3.6
Claude3.5 - Sonnet	-	750	67.9	788	61.6	90.8	66.0	62.2	1920.0	78.5	80.2	65.9	49.9	-	95.2	-	-	3.4
Gemini 1.5 Pro	-	-	64.4	754	57.7	81.3	64.0	59.1	2110.6	73.9	79.1	60.6	45.6	73.5	86.5	-	19.2	-
GPT - 4o - mini - 20240718	-	1088	64.1	785	52.4	-	66.9	54.8	2003.4	76.0	77.8	60.0	46.1	-	-	-	-	3.3
オープンソース
Cambrian - 34B	34B	1820	58.3	591	50.3	75.6	53.2	54.2	2049.9	77.8	79.5	50.4	41.6	76.7	75.5	-	-	-
GLM - 4V - 9B	13B	784	59.1	776	51.1	-	58.0	54.8	2018.8	67.9	71.2	46.9	45.0	-	-	-	-	-
Pixtral - 12B	12B	256	61.0	685	56.9	81.8	58.5	54.5	-	72.7	79.0	51.1	47.0	75.7	90.7	-	-	-
DeepSeek - VL2 - 27B (4B)	27B	672	66.4	809	63.9	86.0	60.0	61.9	2253.0	81.2	83.8	54.0	45.3	84.2	93.3	-	-	3.0
Qwen2 - VL - 7B	8B	784	67.1	866	58.2	83.0	62.0	60.7	2326.0	81.8	83.0	54.1	50.6	84.3	94.5	31.9	16.3	3.2
LLaVA - OneVision - 72B	72B	182	68.1	741	67.5	83.7	60.6	65.8	2261.0	85.0	85.6	56.8	49.0	80.5	91.3	39.1	-	3.5
InternVL2.5 - 8B	8B	706	68.3	822	64.4	84.8	62.8	62.8	2344.0	83.6	84.5	56.0	50.1	79.1	93.0	39.5	19.7	3.4
MiniCPM - V 2.6	8B	2822	65.2	852*	60.6	79.4	60.0	57.5	2348.4*	78.0	82.1	49.8*	48.1*	80.1	90.8	25.7	18.3	3.6
MiniCPM - o 2.6	8B	2822	70.2	897*	71.9*	86.9*	67.5	64.0	2372.0*	80.5	85.8	50.4*	51.9	82.0	93.5	41.4*	23.1*	3.8

* このベンチマークは、連鎖思考プロンプトを使用して評価しています。具体的には、MMEについては、認知セットにのみこの技術を使用しています。

⁺ トークン密度：最大解像度で各ビジュアルトークンにエンコードされる画素数、すなわち最大解像度での画素数 / ビジュアルトークン数。

注：プロプライエタリモデルについては、公式APIドキュメントで定義された画像エンコーディング課金戦略に基づいてトークン密度を計算しており、これは上限推定値です。

マルチ画像およびビデオ理解

クリックして表示

モデル	サイズ	BLINK val	Mantis Eval	MIRB	Video - MME (wo / w subs)
プロプライエタリ
GPT - 4o - 20240513	-	68.0	-	-	71.9/77.2
GPT4V	-	54.6	62.7	53.1	59.9/63.3
オープンソース
LLaVA - NeXT - Interleave 14B	14B	52.6	66.4	30.2	-
LLaVA - OneVision - 72B	72B	55.4	77.6	-	66.2/69.5
MANTIS 8B	8B	49.1	59.5	34.8	-
Qwen2 - VL - 7B	8B	53.2	69.6*	67.6*	63.3/69.0
InternVL2.5 - 8B	8B	54.8	67.7	52.5	64.2/66.9
MiniCPM - V 2.6	8B	53.0	69.1	53.8	60.9/63.6
MiniCPM - o 2.6	8B	56.7	71.9	58.6	63.9/67.9

* 公式にリリースされたチェックポイントを独自に評価しています。

音声理解と音声会話結果

音声理解

タスク	サイズ	ASR (zh)			ASR (en)			AST		感情
指標		CER↓			WER↓			BLEU↑		ACC↑
データセット		AISHELL - 1	Fleurs zh	WenetSpeech test - net	LibriSpeech test - clean	GigaSpeech	TED - LIUM	CoVoST en2zh	CoVoST zh2en	MELD emotion
プロプライエタリ
GPT - 4o - Realtime	-	7.3*	5.4*	28.9*	2.6*	12.9*	4.8*	37.1*	15.7*	33.2*
Gemini 1.5 Pro	-	4.5*	5.9*	14.3