M

Mplug Owl3 7B 241101

mPLUGによって開発
mPLUG-Owl3は先進的なマルチモーダル大規模言語モデルで、長い画像シーケンスの理解問題に焦点を当て、超注意力メカニズムにより処理速度とシーケンス長のサポートを大幅に向上させます。
ダウンロード数 302
リリース時間 : 11/26/2024

モデル概要

mPLUG-Owl3は長い視覚シーケンスを処理するように設計されており、単一画像、複数画像、動画タスクをサポートし、優れたパフォーマンスを発揮します。

モデル特徴

超注意力メカニズム
マルチモーダル大規模言語モデルにおける長い視覚シーケンスの理解速度を6倍に向上させ、8倍の長さの視覚シーケンスの処理をサポートします。
マルチモーダルサポート
単一画像、複数画像、動画タスクをサポートし、優れた性能を維持します。
最適化されたメディア入力テンプレート
複数画像入力時の画像分割機能を新たにサポートし、統一された演算により注意力計算を簡素化します。

モデル能力

長い画像シーケンス理解
マルチモーダル質問応答
動画コンテンツ分析
複数画像処理

使用事例

動画理解
動画質問応答
動画コンテンツに対する質問応答分析
NextQAデータセットで82.3%の精度を達成
複数画像理解
複数画像推論
複数の画像を組み合わせた推論
NLVR2データセットで92.7%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase