M

Mplug Owl3 7B 241101

由mPLUG開發
mPLUG-Owl3是一款先進的多模態大語言模型,專注於解決長圖像序列理解問題,通過超注意力機制顯著提升處理速度和序列長度支持。
下載量 302
發布時間 : 11/26/2024

模型概述

mPLUG-Owl3設計用於處理長視覺序列,支持單圖、多圖和視頻任務,具有卓越的性能表現。

模型特點

超注意力機制
將多模態大語言模型中長視覺序列理解速度提升六倍,同時支持處理八倍長度的視覺序列。
多模態支持
支持單圖、多圖和視頻任務,保持卓越性能。
優化的媒體輸入模板
新增支持多圖輸入時的圖像分割功能,採用統一運算簡化注意力計算。

模型能力

長圖像序列理解
多模態問答
視頻內容分析
多圖處理

使用案例

視頻理解
視頻問答
對視頻內容進行問答分析
在NextQA數據集上達到82.3%準確率
多圖理解
多圖推理
對多張圖片進行聯合推理
在NLVR2數據集上達到92.7%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase