M

Mplug Owl3 7B 241101

Developed by mPLUG
mPLUG-Owl3是一款先進的多模態大語言模型,專注於解決長圖像序列理解問題,通過超注意力機制顯著提升處理速度和序列長度支持。
Downloads 302
Release Time : 11/26/2024

Model Overview

mPLUG-Owl3設計用於處理長視覺序列,支持單圖、多圖和視頻任務,具有卓越的性能表現。

Model Features

超注意力機制
將多模態大語言模型中長視覺序列理解速度提升六倍,同時支持處理八倍長度的視覺序列。
多模態支持
支持單圖、多圖和視頻任務,保持卓越性能。
優化的媒體輸入模板
新增支持多圖輸入時的圖像分割功能,採用統一運算簡化注意力計算。

Model Capabilities

長圖像序列理解
多模態問答
視頻內容分析
多圖處理

Use Cases

視頻理解
視頻問答
對視頻內容進行問答分析
在NextQA數據集上達到82.3%準確率
多圖理解
多圖推理
對多張圖片進行聯合推理
在NLVR2數據集上達到92.7%準確率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase