LLaVA-NeXT-Video-7B-DPO開源多模態對話模型 - 支持視頻與文本交互聊天

首頁

Llava NeXT Video 7B DPO

由lmms-lab開發

LLaVA-Next-Video 是一個開源的多模態對話模型，通過對大語言模型進行多模態指令跟隨數據的微調訓練而成，支持視頻和文本的多模態交互。

文本生成視頻

Transformers

#多模態對話 #視頻理解 #指令跟隨

下載量 8,049

發布時間 : 4/16/2024

模型概述

LLaVA-Next-Video 是一個基於 Vicuna-7B 的多模態對話模型，專注於視頻和文本的多模態交互，適用於研究和開發多模態對話系統。

模型特點

多模態交互

支持視頻和文本的多模態輸入，能夠生成與視頻內容相關的文本響應。

指令跟隨

通過多模態指令跟隨數據的微調訓練，能夠理解和執行復雜的多模態指令。

開源模型

完全開源，便於研究人員和開發者進行二次開發和定製。

模型能力

視頻內容理解

多模態對話生成

指令跟隨

視頻問答

使用案例

研究

多模態對話系統研究

用於研究和開發多模態對話系統，探索視頻和文本的交互方式。

教育

視頻內容問答

用於教育場景中，根據視頻內容生成問答和解釋。

🚀 LLaVA-Next-Video模型卡片

LLaVA-Next-Video是一個開源的聊天機器人模型。它通過在多模態指令跟隨數據上微調大語言模型（LLM）進行訓練，可用於多模態模型和聊天機器人的研究。

🚀 快速開始

本模型的相關信息可參考：https://llava-vl.github.io/blog/2024-04-30-llava-next-video/ ，更多資源可訪問：https://github.com/LLaVA-VL/LLaVA-NeXT 。若你有關於該模型的問題或建議，可在https://github.com/LLaVA-VL/LLaVA-NeXT/issues 提交。

✨ 主要特性

LLaVA-Next-Video是基於多模態指令跟隨數據微調大語言模型得到的開源聊天機器人，可用於多模態模型和聊天機器人的研究。其基礎大語言模型為lmsys/vicuna-7b-v1.5 ，LLaVA-Next-Video-7B-DPO於2024年4月完成訓練。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	LLaVA-Next-Video是一個通過在多模態指令跟隨數據上微調大語言模型（LLM）訓練得到的開源聊天機器人。此模型的相關介紹可參考：https://llava-vl.github.io/blog/2024-04-30-llava-next-video/ ，基礎大語言模型為lmsys/vicuna-7b-v1.5 。
模型日期	LLaVA-Next-Video-7B-DPO於2024年4月完成訓練。
更多信息的論文或資源	https://github.com/LLaVA-VL/LLaVA-NeXT