LLaVA-Lightning-7B-delta-v1-1開源聊天機器人 - 免費使用支持多模態對話交流

首頁

Llava Lightning 7B Delta V1 1

由liuhaotian開發

LLaVA是基於LLaMA/Vicuna通過GPT生成的多模態指令跟隨數據微調的開源聊天機器人

文本生成圖像

Transformers

開源協議:Apache-2.0 #多模態指令跟隨 #視覺語言融合 #學術研究專用

下載量 699

發布時間 : 5/3/2023

模型概述

一個結合視覺與語言理解的多模態大模型，主要用於學術研究領域的多模態交互和指令跟隨任務

模型特點

多模態融合

結合視覺與語言理解能力，可處理圖像和文本的聯合輸入

指令跟隨

通過GPT生成的指令數據進行微調，能夠遵循複雜的多模態指令

輕量級訓練

Lightning版本經過優化訓練，相比原始版本更高效

模型能力

圖像理解

視覺問答

多模態對話

圖像描述生成

複雜視覺推理

使用案例

學術研究

多模態交互研究

用於探索視覺與語言模型結合的交互方式

視覺推理基準測試

在ScienceQA等數據集上評估多模態理解能力

與GPT-4協同達到當前最優性能

🚀 LLaVA模型卡片

LLaVA是一個開源聊天機器人，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna而訓練得到，可用於多模態大模型和聊天機器人的研究。

🚀 快速開始

⚠️ 重要提示

此“增量模型”不能直接使用。用戶必須將其應用於原始LLaMA權重之上，才能獲得實際的LLaVA權重。具體說明請見https://github.com/haotian-liu/LLaVA#llava-weights 。

✨ 主要特性

LLaVA是一個基於Transformer架構的自迴歸語言模型，通過在特定數據上微調訓練得到，可用於多模態相關研究。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	LLaVA是一個開源聊天機器人，通過在GPT生成的多模態指令跟隨數據上微調LLaMA/Vicuna而訓練得到。它是一個基於Transformer架構的自迴歸語言模型。
模型日期	LLaVA-Lightning於2023年5月訓練。
更多信息的論文或資源	https://llava-vl.github.io/
許可證	Apache許可證2.0
關於模型的問題或建議反饋處	https://github.com/haotian-liu/LLaVA/issues

預期用途

主要預期用途

LLaVA的主要用途是用於大型多模態模型和聊天機器人的研究。

主要預期用戶

該模型的主要預期用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

訓練數據集

來自LAION/CC/SBU的558K經過過濾的圖像-文本對，由BLIP添加標題。
80K GPT生成的多模態指令跟隨數據。

評估數據集

對模型質量的初步評估是通過從COCO 2014驗證集中隨機抽取30張獨特圖像，創建一組90個視覺推理問題進行的，每個圖像關聯三種類型的問題：對話式、詳細描述和複雜推理。使用GPT - 4來評判模型輸出。
還在ScienceQA數據集上對模型進行了評估。與GPT - 4的協同在該數據集上創造了新的最優成績。更多詳情請見https://llava-vl.github.io/ 。