llava-v1.5-13b開源多模態聊天機器人 - 支持圖像文本交互免費部署

Llava V1.5 13b

由liuhaotian開發

LLaVA 是一個開源多模態聊天機器人，基於 LLaMA/Vicuna 微調並整合視覺能力，支持圖像和文本的交互。

下載量 98.17k

發布時間 : 10/5/2023

模型概述

LLaVA 是一個結合視覺和語言理解能力的多模態模型，能夠處理圖像和文本輸入，生成自然語言響應。主要用於研究大型多模態模型和聊天機器人應用。

多模態理解

同時處理圖像和文本輸入，理解視覺內容並生成相關響應

指令跟隨

能夠遵循複雜的多模態指令執行任務

大規模訓練數據

使用超過百萬條多模態數據訓練，涵蓋描述生成、指令跟隨和VQA任務

圖像內容理解

視覺問答

多模態對話

圖像描述生成

跨模態推理

學術研究

多模態模型研究

用於探索視覺-語言聯合表示學習

在12個基準測試中表現優異

教育應用

視覺輔助學習

通過圖像和文本交互解釋複雜概念

屬性	詳情
模型類型	LLaVA是一個開源的聊天機器人，通過在GPT生成的多模態指令遵循數據上微調LLaMA/Vicuna得到。它是一個基於Transformer架構的自迴歸語言模型。
模型日期	LLaVA - v1.5 - 13B於2023年9月訓練。
更多信息的論文或資源	https://llava-vl.github.io/