L

Llava NeXT Video 7B Hf

Developed by llava-hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
Downloads 65.95k
Release Time : 6/5/2024

Model Overview

基於LLaVA-NeXT構建的視頻理解模型,支持圖像和視頻的多模態輸入,能夠執行視覺問答、內容描述等任務。

Model Features

視頻理解能力
通過100K VideoChatGPT-Instruct數據訓練,具備優秀的視頻內容理解能力
多模態輸入支持
同時支持圖像和視頻作為輸入,可處理複雜的多模態查詢
開源SOTA
在VideoMME基準測試中是當前開源模型中性能最好的
高效推理
支持4位量化和Flash-Attention 2優化,降低計算資源需求

Model Capabilities

視頻內容理解
圖像內容分析
多模態問答
視頻內容描述
跨模態推理

Use Cases

內容理解
視頻內容分析
分析視頻中的場景、動作和事件
準確描述視頻內容和有趣之處
圖像問答
回答關於圖像內容的各類問題
提供準確的圖像內容解釋
教育
教學視頻理解
解析教育視頻內容,輔助學習
幫助學生理解複雜概念
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase