開源多模態聊天機器人llava-pretrain-vicuna-7b-v1.3

Llava Pretrain Vicuna 7b V1.3

由liuhaotian開發

LLaVA 是一個開源多模態聊天機器人，基於 LLaMA/Vicuna 在 GPT 生成的多模態指令跟隨數據上進行微調訓練而成。

下載量 54

發布時間 : 8/2/2023

模型概述

LLaVA 是一個基於 Transformer 架構的自迴歸語言模型，主要用於研究大型多模態模型和聊天機器人。

多模態能力

結合視覺和語言理解能力，能夠處理圖像和文本的聯合任務

指令跟隨

能夠理解和執行復雜的多模態指令

開源模型

基於開源的 LLaMA/Vicuna 模型構建

圖像-文本理解

多模態對話

視覺問答

圖像描述生成

研究

多模態模型研究

用於研究視覺-語言聯合表示學習

聊天機器人開發

作為多模態聊天機器人的基礎模型

教育

視覺輔助學習

幫助學生理解圖像內容並回答問題

屬性	詳情
模型類型	LLaVA是一個開源聊天機器人，通過在GPT生成的多模態指令遵循數據上微調LLaMA/Vicuna進行訓練。它是基於Transformer架構的自迴歸語言模型。
模型日期	LLaVA - Pretrain - Vicuna - 7B - v1.3於2023年7月訓練。
更多信息的論文或資源	https://llava-vl.github.io/