pllava-7b开源视频语言聊天机器人 - 免费用于多模态及聊天研究

Pllava 7b

由 ermu2001 开发

PLLaVA是一款开源的视频语言聊天机器人，通过在视频指令跟随数据上微调图像大语言模型而得，可用于多模态大模型和聊天机器人的研究。

下载量 109

发布时间 : 4/24/2024

模型简介

PLLaVA是一个基于Transformer架构的自回归语言模型，通过在视频指令跟随数据上微调图像大语言模型训练得到，主要用于大型多模态模型和聊天机器人的研究。

视频语言理解

能够理解和处理视频内容相关的语言指令

多模态能力

结合视觉和语言模态进行理解和生成

开源研究工具

为多模态大模型研究提供开源基础

视频内容理解

多模态对话

指令跟随

视觉问答

学术研究

多模态模型研究

用于探索视频与语言结合的多模态模型架构

聊天机器人开发

作为视频对话机器人的基础模型

应用开发

视频内容分析

自动分析视频内容并生成描述

属性	详情
模型类型	PLLaVA - 7B是一个开源的视频语言聊天机器人，通过在视频指令跟随数据上微调图像大语言模型而训练得到。它是一个基于Transformer架构的自回归语言模型。基础大语言模型为：llava - hf/llava - v1.6 - vicuna - 7b - hf
模型日期	PLLaVA - 7B于2024年4月完成训练。
更多信息的论文或资源	- GitHub仓库：https://github.com/magic-research/PLLaVA - 项目页面：https://pllava.github.io/ - 论文链接：https://arxiv.org/abs/2404.16994