pllava-7b開源視頻語言聊天機器人 - 免費用於多模態及聊天研究

Pllava 7b

由ermu2001開發

PLLaVA是一款開源的視頻語言聊天機器人，通過在視頻指令跟隨數據上微調圖像大語言模型而得，可用於多模態大模型和聊天機器人的研究。

下載量 109

發布時間 : 4/24/2024

模型概述

PLLaVA是一個基於Transformer架構的自迴歸語言模型，通過在視頻指令跟隨數據上微調圖像大語言模型訓練得到，主要用於大型多模態模型和聊天機器人的研究。

視頻語言理解

能夠理解和處理視頻內容相關的語言指令

多模態能力

結合視覺和語言模態進行理解和生成

開源研究工具

為多模態大模型研究提供開源基礎

視頻內容理解

多模態對話

指令跟隨

視覺問答

學術研究

多模態模型研究

用於探索視頻與語言結合的多模態模型架構

聊天機器人開發

作為視頻對話機器人的基礎模型

應用開發

視頻內容分析

自動分析視頻內容並生成描述

屬性	詳情
模型類型	PLLaVA - 7B是一個開源的視頻語言聊天機器人，通過在視頻指令跟隨數據上微調圖像大語言模型而訓練得到。它是一個基於Transformer架構的自迴歸語言模型。基礎大語言模型為：llava - hf/llava - v1.6 - vicuna - 7b - hf
模型日期	PLLaVA - 7B於2024年4月完成訓練。
更多信息的論文或資源	- GitHub倉庫：https://github.com/magic-research/PLLaVA - 項目頁面：https://pllava.github.io/ - 論文鏈接：https://arxiv.org/abs/2404.16994