L

Llava NeXT Video 7B Hf

由llava-hf開發
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
下載量 65.95k
發布時間 : 6/5/2024

模型概述

基於LLaVA-NeXT構建的視頻理解模型,支持圖像和視頻的多模態輸入,能夠執行視覺問答、內容描述等任務。

模型特點

視頻理解能力
通過100K VideoChatGPT-Instruct數據訓練,具備優秀的視頻內容理解能力
多模態輸入支持
同時支持圖像和視頻作為輸入,可處理複雜的多模態查詢
開源SOTA
在VideoMME基準測試中是當前開源模型中性能最好的
高效推理
支持4位量化和Flash-Attention 2優化,降低計算資源需求

模型能力

視頻內容理解
圖像內容分析
多模態問答
視頻內容描述
跨模態推理

使用案例

內容理解
視頻內容分析
分析視頻中的場景、動作和事件
準確描述視頻內容和有趣之處
圖像問答
回答關於圖像內容的各類問題
提供準確的圖像內容解釋
教育
教學視頻理解
解析教育視頻內容,輔助學習
幫助學生理解複雜概念
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase