llava-gemma-2b開源多模態模型 - 融合視覺與語言，帶來多元應用體驗

首頁

Llava Gemma 2b

由Intel開發

LLaVA-Gemma-2b是基於LLaVA-v1.5框架訓練的大型多模態模型，採用20億參數的Gemma-2b-it作為語言主幹，結合CLIP視覺編碼器。

圖像生成文本

Transformers

英語#多模態聊天 #緊湊視覺語言 #指令跟隨

下載量 1,503

發布時間 : 3/14/2024

模型概述

該模型針對多模態基準評估進行了微調，可作為多模態聊天機器人使用，支持圖像和文本的交互。

模型特點

緊湊高效

採用20億參數的Gemma-2b-it作為語言主幹，在保持性能的同時降低計算資源需求。

多模態理解

結合CLIP視覺編碼器，能夠同時處理圖像和文本輸入，實現跨模態理解。

快速訓練

在8個英特爾Gaudi 2 AI加速器上僅需4小時即可完成訓練。

模型能力

圖像描述生成

視覺問答

多模態對話

文本總結

使用案例

多模態聊天機器人

圖像內容問答

用戶上傳圖片並詢問相關內容，模型生成準確描述和回答。

在VQAv2基準測試中達到70.7的準確率

學術研究

多模態模型研究

為研究人員提供緊湊模型研究平臺，探索計算效率和多模態理解的平衡。

🚀 大語言模型llava-gemma-2b

llava-gemma-2b 是一個大型多模態模型（LMM），它基於 LLaVA-v1.5 框架進行訓練。該模型以擁有 20 億參數的 google/gemma-2b-it 模型作為語言主幹，並採用基於 CLIP 的視覺編碼器。

🚀 快速開始

使用 llava-gemma 時，如果你的 transformers 版本低於 4.41.1，則需要使用修改後的預處理器。

當前使用方法，請參考 usage.py 或以下代碼塊：

基礎用法

import requests
from PIL import Image
from transformers import (
  LlavaForConditionalGeneration,
  AutoTokenizer,
  AutoProcessor,
  CLIPImageProcessor
)
#In this repo, needed for version < 4.41.1
#from processing_llavagemma import LlavaGemmaProcessor
#processor = LlavaGemmaProcessor( tokenizer=AutoTokenizer.from_pretrained(checkpoint), image_processor=CLIPImageProcessor.from_pretrained(checkpoint))

checkpoint = "Intel/llava-gemma-2b"

# Load model
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)

# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
    [{'role': 'user', 'content': "<image>\nWhat's the content of the image?"}],
    tokenize=False,
    add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)

高級用法

若要將其作為聊天機器人直接使用（不使用圖像），可以將代碼的最後部分修改為以下內容：

# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
    [{'role': 'user', 'content': "Summarize the following paragraph? In this paper, we introduced LLaVA-Gemma, a compact vision-language model leveraging the Gemma Large Language Model in two variants, Gemma-2B and Gemma-7B. Our work provides a unique opportunity for researchers to explore the trade-offs between computational efficiency and multimodal understanding in small-scale models. The availability of both variants allows for a comparative analysis that sheds light on how model size impacts performance in various tasks. Our evaluations demonstrate the versatility and effectiveness of LLaVA-Gemma across a range of datasets, highlighting its potential as a benchmark for future research in small-scale vision-language models. With these models, future practitioners can optimize the performance of small-scale multimodal models more directly."}],
    tokenize=False,
    add_generation_prompt=True
)
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
# image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=None, return_tensors="pt")

# Generate
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)

✨ 主要特性

多模態能力：結合了語言和視覺信息處理能力，可處理圖像和文本輸入。
基於成熟框架：採用 LLaVA-v1.5 框架進行訓練，具有良好的性能基礎。
特定模型架構：以 google/gemma-2b-it 作為語言主幹，搭配 CLIP 視覺編碼器。

📚 詳細文檔

模型詳情

屬性	詳情
模型名稱	llava-gemma-2b
作者	英特爾：Musashi Hinck、Matthew L. Olson、David Cobbley、Shao-Yen Tseng、Vasudev Lal
日期	2024 年 3 月
版本	1
模型類型	大型多模態模型（LMM）
論文或其他資源	LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
許可證	Gemma
問題或評論	社區板塊和英特爾開發者中心 Discord

預期用途

預期用途	描述
主要預期用途	該模型經過微調，可用於多模態基準評估，也可作為多模態聊天機器人使用。
主要預期用戶	任何使用或評估多模態模型的人員。
非預期用途	該模型不適用於需要高度事實性的用途、高風險場景、心理健康或醫療應用、生成錯誤信息或虛假信息、冒充他人、助長或煽動騷擾或暴力，以及任何可能導致違反《聯合國人權宣言》所規定人權的用途。

影響因素

因素	描述
分組	-
儀器	-
環境	在 8 個英特爾 Gaudi 2 AI 加速器上訓練了 4 小時。
卡片提示	在其他硬件和軟件上進行模型訓練和部署會改變模型性能。

評估指標

指標	描述
模型性能指標	我們在與其他 LMM 工作類似的基準測試集上評估 LlaVA-Gemma 模型：GQA、MME、MM-Vet、POPE（準確率和 F1 值）、VQAv2、MMVP、ScienceQA 的圖像子集。我們的實驗為 LLaVA 框架內各種設計選擇的有效性提供了見解。
決策閾值	-
不確定性和可變性處理方法	-

訓練數據

該模型使用 LLaVA-v1.5 數據混合進行訓練，具體如下：

55.8 萬個經過過濾的圖像 - 文本對，來自 LAION/CC/SBU，由 BLIP 加了字幕。
15.8 萬個由 GPT 生成的多模態指令跟隨數據。
45 萬個面向學術任務的 VQA 數據混合。
4 萬個 ShareGPT 數據。

定量分析

LLaVA-Gemma 模型在七個基準測試中的性能。高亮框表示 LLaVA-Gemma 模型中表現最強的。最後兩行分別顯示了 Llava Phi-2 和 LLaVA-v1.5 的自我報告性能。加粗的 gemma-2b-it 是本模型卡片中當前使用的模型。

語言模型主幹	視覺模型	預訓練連接器	GQA	MME 認知	MME 感知	MM-Vet	POPE 準確率	POPE F1 值	VQAv2	ScienceQA 圖像	MMVP
gemma-2b-it	CLIP	是	0.531	236	1130	17.7	0.850	0.839	70.65	0.564	0.287
gemma-2b-it	CLIP	否	0.481	248	935	13.1	0.784	0.762	61.74	0.549	0.180
gemma-2b-it	DinoV2	是	0.587	307	1133	19.1	0.853	0.838	71.37	0.555	0.227
gemma-2b-it	DinoV2	否	0.501	309	959	14.5	0.793	0.772	61.65	0.568	0.180

gemma-7b-it	CLIP	是	0.472	253	895	18.2	0.848	0.829	68.7	0.625	0.327
gemma-7b-it	CLIP	否	0.472	278	857	19.1	0.782	0.734	65.1	0.636	0.240
gemma-7b-it	DinoV2	是	0.519	257	1021	14.3	0.794	0.762	65.2	0.628	0.327
gemma-7b-it	DinoV2	否	0.459	226	771	12.2	0.693	0.567	57.4	0.598	0.267

Phi-2b	CLIP	是	-	-	1335	28.9	-	0.850	71.4	0.684	-
Llama-2-7b	CLIP	是	0.620	348	1511	30.6	0.850	0.859	78.5	0.704	46.1

倫理考量

英特爾致力於尊重人權，避免對人權造成或促成不利影響。請參閱英特爾全球人權原則。英特爾的產品和軟件僅用於不會對人權造成或促成不利影響的應用。

倫理考量	描述
數據	該模型使用上述 LLaVA-v1.5 數據混合進行訓練。
人類生活	該模型並非用於為對人類生活或福祉至關重要的決策提供信息。
緩解措施	在模型開發過程中未考慮額外的風險緩解策略。
風險和危害	該模型尚未評估危害或偏差，不應用於可能造成危害的敏感應用。
使用案例	-

注意事項和建議

用戶（直接用戶和下游用戶）應瞭解該模型的風險、偏差和侷限性。

引用詳情

@misc{hinck2024llavagemma,
      title={LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model}, 
      author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
      year={2024},
      eprint={2404.01331},
      url={https://arxiv.org/abs/2404.01331},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}