llava-v1.5-7b開源多模態聊天機器人 - 免費實現圖文交互對話體驗

Llava V1.5 7b

由liuhaotian開發

LLaVA 是一款開源多模態聊天機器人，基於 LLaMA/Vicuna 微調，支持圖文交互。

下載量 1.4M

發布時間 : 10/5/2023

模型概述

通過對 LLaMA/Vicuna 進行微調，並基於 GPT 生成的多模態指令跟隨數據訓練而成的開源聊天機器人，具備圖文理解和生成能力。

多模態理解

同時處理圖像和文本輸入，實現跨模態交互

指令跟隨

能夠理解和執行復雜的多模態指令

開源可微調

基於開源模型架構，支持進一步定製和優化

圖像描述生成

視覺問答

多模態對話

指令跟隨

跨模態推理

學術研究

多模態模型研究

用於探索視覺-語言聯合表示學習

智能助手

圖文交互助手

構建能理解圖像內容的對話系統

屬性	詳情
模型類型	LLaVA是一個開源的聊天機器人，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna進行訓練。它是一個基於Transformer架構的自迴歸語言模型。
模型日期	LLaVA - v1.5 - 7B於2023年9月進行訓練。
更多信息的論文或資源	https://llava-vl.github.io/