L

Llava NeXT Video 7B DPO Hf

由llava-hf開發
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練優化,具備優秀的視頻理解能力。
下載量 12.61k
發布時間 : 6/6/2024

模型概述

基於LLaVa-NeXT構建的視頻理解模型,通過在視頻和圖像數據混合上進行調優,獲得了更好的視頻理解能力,支持多視覺輸入和多提示生成。

模型特點

多模態理解
同時支持圖像和視頻輸入,並能理解多模態指令
視頻理解能力
在VideoMME基準測試中表現領先,具備優秀的視頻分析能力
開源可定製
完全開源,支持4位量化和Flash-Attention優化

模型能力

視頻內容理解
圖像內容分析
多模態指令跟隨
視頻問答
視頻內容描述

使用案例

視頻內容分析
視頻內容理解
分析視頻內容並回答相關問題
能準確理解視頻中的動作、場景和事件
教育輔助
教學視頻分析
解析教學視頻內容,回答學生問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase