M

Minicpm O 2 6

openbmbによって開発
MiniCPM-o 2.6はスマートフォンで動作するGPT-4oレベルのマルチモーダル大規模モデルで、視覚、音声、ライブストリーム処理をサポート
ダウンロード数 178.38k
リリース時間 : 1/12/2025

モデル概要

SigLip-400M、Whisper-medium-300M、ChatTTS-200M、Qwen2.5-7Bを基盤としたエンドツーエンド全モーダルアーキテクチャで、総パラメータ数は8B。MiniCPM-V 2.6と比較して大幅な性能向上を実現し、リアルタイム音声対話とマルチモーダルライブストリーム処理機能を新たに追加。

モデル特徴

最先端の視覚能力
OpenCompassの8大ベンチマーク包括的評価においてGPT-4o-202405、Gemini 1.5 Proなどの商用クローズドモデルを超越
リーディング音声技術
中英二か国語のリアルタイム音声対話と設定可能な音色をサポートし、ASR、STT翻訳などの音声理解タスクでGPT-4oリアルタイム版を超越
強力なライブ処理
継続的なビデオ/音声ストリーム入力とリアルタイム音声インタラクションを革新的にサポートし、オープンソースコミュニティ最高のリアルタイムビデオ理解を実現
卓越したOCR能力
OCRBench評価で25B以下のモデルで首位を獲得し、任意のアスペクト比画像と180万ピクセル処理をサポート
究極の効率
超高視覚トークン密度(1トークンあたり2822ピクセル符号化)を実現し、iPadなどの端末デバイスでマルチモーダルライブをスムーズに実行可能

モデル能力

視覚理解
音声認識
音声合成
リアルタイム音声対話
複数画像処理
ビデオ理解
OCR
音声クローン
ライブストリーム処理
多言語サポート

使用事例

インテリジェントアシスタント
リアルタイム音声アシスタント
中英二か国語のリアルタイム音声インタラクションをサポートし、音色と感情スタイルを設定可能
AudioArenaの意味/音質評価でダブル首位
マルチモーダルカスタマーサービス
音声、画像、テキスト入力を同時に処理し、総合的なソリューションを提供
MMHal-Bench信頼性評価でGPT-4oを超越
コンテンツ処理
ライブコンテンツ分析
ライブビデオストリームをリアルタイム処理し、コンテンツ理解とインタラクションを提供
StreamingBenchライブベンチマークでGPT-4o-202408を超越
ドキュメントOCR
任意のアスペクト比のドキュメントを高精度で認識
OCRBench評価で25B以下のモデルで首位
クリエイティブアプリケーション
音声クローン
エンドツーエンド音声クローンと記述的音色生成をサポート
Seed-TTSテストセットで優れた性能
マルチモーダル創作
視覚と音声入力に基づくクリエイティブコンテンツ生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase