L

Llava Video 7B Qwen2

由lmms-lab開發
LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型,專注於視頻理解任務,支持64幀視頻輸入。
下載量 34.28k
發布時間 : 9/2/2024

模型概述

該模型在LLaVA-視頻-178K和LLaVA-OneVision數據集上訓練,具備與圖像、多圖像和視頻交互的能力,主要針對視頻理解任務。

模型特點

多模態視頻理解
支持處理視頻輸入並生成相關文本描述或回答問題
長上下文支持
支持32K tokens的上下文窗口,可處理較長視頻內容
多幀處理能力
最多可處理64幀視頻輸入

模型能力

視頻內容理解
視頻問答
視頻描述生成
多模態推理

使用案例

視頻理解
視頻內容描述
根據輸入視頻生成詳細的內容描述
視頻問答
回答關於視頻內容的各類問題
在多個視頻問答數據集上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase