V

Videollama2.1 7B 16F Base

由DAMO-NLP-SG開發
VideoLLaMA2.1是基於VideoLLaMA2的升級版本,專注於提升視頻大語言模型中的時空建模與音頻理解能力。
下載量 179
發布時間 : 10/14/2024

模型概述

VideoLLaMA2.1是一個多模態大語言模型,專注於視頻理解和視覺問答任務,支持對視頻內容進行時空建模和音頻理解。

模型特點

時空建模能力
增強了對視頻中時空信息的理解和建模能力。
音頻理解
提升了對視頻中音頻內容的理解能力。
多模態處理
能夠同時處理視頻和圖像內容,並進行多模態推理。

模型能力

視頻問答
圖像問答
視頻內容描述
多模態推理

使用案例

視頻理解
視頻內容問答
回答關於視頻內容的複雜問題
在MLVU和VideoMME榜單中位列7B規模視頻大模型榜首
視頻內容描述
生成對視頻內容的詳細描述
圖像理解
圖像問答
回答關於圖像內容的複雜問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase