LLaMA-VID多模態聊天機器人開源！支持處理長達數小時視頻，免費使用

Llama Vid 7b Full 224 Video Fps 1

由YanweiLi開發

LLaMA-VID是基於LLaMA/Vicuna微調的開源多模態聊天機器人，通過擴展上下文令牌支持長達數小時的視頻處理能力。

下載量 86

發布時間 : 11/29/2023

模型概述

LLaMA-VID是一個視覺語言模型，通過額外上下文令牌賦能現有框架，使其支持超長視頻處理，並突破性能上限。基於LLaVA架構實現，主要用於大型多模態模型及聊天機器人的學術研究。

超長視頻處理

通過擴展上下文令牌支持長達數小時的視頻內容處理

多模態理解

同時處理視頻和文本信息，實現跨模態理解

開源架構

基於開源的LLaMA/Vicuna和LLaVA架構構建

視頻內容理解

多模態對話

長視頻分析

視覺問答

學術研究

視頻理解研究

用於計算機視覺和自然語言處理交叉領域的研究

多模態模型開發

作為開發更先進多模態模型的基礎

教育

教學視頻分析

自動分析長教學視頻內容並回答相關問題

屬性	詳情
模型類型	LLaMA-VID是一個開源的聊天機器人，它通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna而來。我們基於LLaVA構建了這個倉庫。
模型日期	llama-vid-7b-full-224-video-fps-1於2023年11月完成訓練。