Llava Gemma 2b
LLaVA-Gemma-2b是基於LLaVA-v1.5框架訓練的大型多模態模型,採用20億參數的Gemma-2b-it作為語言主幹,結合CLIP視覺編碼器。
下載量 1,503
發布時間 : 3/14/2024
模型概述
該模型針對多模態基準評估進行了微調,可作為多模態聊天機器人使用,支持圖像和文本的交互。
模型特點
緊湊高效
採用20億參數的Gemma-2b-it作為語言主幹,在保持性能的同時降低計算資源需求。
多模態理解
結合CLIP視覺編碼器,能夠同時處理圖像和文本輸入,實現跨模態理解。
快速訓練
在8個英特爾Gaudi 2 AI加速器上僅需4小時即可完成訓練。
模型能力
圖像描述生成
視覺問答
多模態對話
文本總結
使用案例
多模態聊天機器人
圖像內容問答
用戶上傳圖片並詢問相關內容,模型生成準確描述和回答。
在VQAv2基準測試中達到70.7的準確率
學術研究
多模態模型研究
為研究人員提供緊湊模型研究平臺,探索計算效率和多模態理解的平衡。
🚀 大語言模型llava-gemma-2b
llava-gemma-2b
是一個大型多模態模型(LMM),它基於 LLaVA-v1.5 框架 進行訓練。該模型以擁有 20 億參數的 google/gemma-2b-it 模型作為語言主幹,並採用基於 CLIP 的視覺編碼器。
🚀 快速開始
使用 llava-gemma
時,如果你的 transformers
版本低於 4.41.1,則需要使用 修改後的預處理器。
當前使用方法,請參考 usage.py
或以下代碼塊:
基礎用法
import requests
from PIL import Image
from transformers import (
LlavaForConditionalGeneration,
AutoTokenizer,
AutoProcessor,
CLIPImageProcessor
)
#In this repo, needed for version < 4.41.1
#from processing_llavagemma import LlavaGemmaProcessor
#processor = LlavaGemmaProcessor( tokenizer=AutoTokenizer.from_pretrained(checkpoint), image_processor=CLIPImageProcessor.from_pretrained(checkpoint))
checkpoint = "Intel/llava-gemma-2b"
# Load model
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)
# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "<image>\nWhat's the content of the image?"}],
tokenize=False,
add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")
# Generate
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
高級用法
若要將其作為聊天機器人直接使用(不使用圖像),可以將代碼的最後部分修改為以下內容:
# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "Summarize the following paragraph? In this paper, we introduced LLaVA-Gemma, a compact vision-language model leveraging the Gemma Large Language Model in two variants, Gemma-2B and Gemma-7B. Our work provides a unique opportunity for researchers to explore the trade-offs between computational efficiency and multimodal understanding in small-scale models. The availability of both variants allows for a comparative analysis that sheds light on how model size impacts performance in various tasks. Our evaluations demonstrate the versatility and effectiveness of LLaVA-Gemma across a range of datasets, highlighting its potential as a benchmark for future research in small-scale vision-language models. With these models, future practitioners can optimize the performance of small-scale multimodal models more directly."}],
tokenize=False,
add_generation_prompt=True
)
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
# image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=None, return_tensors="pt")
# Generate
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
✨ 主要特性
- 多模態能力:結合了語言和視覺信息處理能力,可處理圖像和文本輸入。
- 基於成熟框架:採用 LLaVA-v1.5 框架 進行訓練,具有良好的性能基礎。
- 特定模型架構:以 google/gemma-2b-it 作為語言主幹,搭配 CLIP 視覺編碼器。
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型名稱 | llava-gemma-2b |
作者 | 英特爾:Musashi Hinck*、Matthew L. Olson*、David Cobbley、Shao-Yen Tseng、Vasudev Lal |
日期 | 2024 年 3 月 |
版本 | 1 |
模型類型 | 大型多模態模型(LMM) |
論文或其他資源 | LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model |
許可證 | Gemma |
問題或評論 | 社區板塊 和 英特爾開發者中心 Discord |
預期用途
預期用途 | 描述 |
---|---|
主要預期用途 | 該模型經過微調,可用於多模態基準評估,也可作為多模態聊天機器人使用。 |
主要預期用戶 | 任何使用或評估多模態模型的人員。 |
非預期用途 | 該模型不適用於需要高度事實性的用途、高風險場景、心理健康或醫療應用、生成錯誤信息或虛假信息、冒充他人、助長或煽動騷擾或暴力,以及任何可能導致違反《聯合國人權宣言》所規定人權的用途。 |
影響因素
因素 | 描述 |
---|---|
分組 | - |
儀器 | - |
環境 | 在 8 個英特爾 Gaudi 2 AI 加速器上訓練了 4 小時。 |
卡片提示 | 在其他硬件和軟件上進行模型訓練和部署會改變模型性能。 |
評估指標
指標 | 描述 |
---|---|
模型性能指標 | 我們在與其他 LMM 工作類似的基準測試集上評估 LlaVA-Gemma 模型:GQA、MME、MM-Vet、POPE(準確率和 F1 值)、VQAv2、MMVP、ScienceQA 的圖像子集。我們的實驗為 LLaVA 框架內各種設計選擇的有效性提供了見解。 |
決策閾值 | - |
不確定性和可變性處理方法 | - |
訓練數據
該模型使用 LLaVA-v1.5 數據混合進行訓練,具體如下:
- 55.8 萬個經過過濾的圖像 - 文本對,來自 LAION/CC/SBU,由 BLIP 加了字幕。
- 15.8 萬個由 GPT 生成的多模態指令跟隨數據。
- 45 萬個面向學術任務的 VQA 數據混合。
- 4 萬個 ShareGPT 數據。
定量分析
LLaVA-Gemma 模型在七個基準測試中的性能。高亮框表示 LLaVA-Gemma 模型中表現最強的。最後兩行分別顯示了 Llava Phi-2 和 LLaVA-v1.5 的自我報告性能。加粗的 gemma-2b-it 是本模型卡片中當前使用的模型。
語言模型主幹 | 視覺模型 | 預訓練連接器 | GQA | MME 認知 | MME 感知 | MM-Vet | POPE 準確率 | POPE F1 值 | VQAv2 | ScienceQA 圖像 | MMVP |
---|---|---|---|---|---|---|---|---|---|---|---|
gemma-2b-it | CLIP | 是 | 0.531 | 236 | 1130 | 17.7 | 0.850 | 0.839 | 70.65 | 0.564 | 0.287 |
gemma-2b-it | CLIP | 否 | 0.481 | 248 | 935 | 13.1 | 0.784 | 0.762 | 61.74 | 0.549 | 0.180 |
gemma-2b-it | DinoV2 | 是 | 0.587 | 307 | 1133 | 19.1 | 0.853 | 0.838 | 71.37 | 0.555 | 0.227 |
gemma-2b-it | DinoV2 | 否 | 0.501 | 309 | 959 | 14.5 | 0.793 | 0.772 | 61.65 | 0.568 | 0.180 |
gemma-7b-it | CLIP | 是 | 0.472 | 253 | 895 | 18.2 | 0.848 | 0.829 | 68.7 | 0.625 | 0.327 |
gemma-7b-it | CLIP | 否 | 0.472 | 278 | 857 | 19.1 | 0.782 | 0.734 | 65.1 | 0.636 | 0.240 |
gemma-7b-it | DinoV2 | 是 | 0.519 | 257 | 1021 | 14.3 | 0.794 | 0.762 | 65.2 | 0.628 | 0.327 |
gemma-7b-it | DinoV2 | 否 | 0.459 | 226 | 771 | 12.2 | 0.693 | 0.567 | 57.4 | 0.598 | 0.267 |
Phi-2b | CLIP | 是 | - | - | 1335 | 28.9 | - | 0.850 | 71.4 | 0.684 | - |
Llama-2-7b | CLIP | 是 | 0.620 | 348 | 1511 | 30.6 | 0.850 | 0.859 | 78.5 | 0.704 | 46.1 |
倫理考量
英特爾致力於尊重人權,避免對人權造成或促成不利影響。請參閱 英特爾全球人權原則。英特爾的產品和軟件僅用於不會對人權造成或促成不利影響的應用。
倫理考量 | 描述 |
---|---|
數據 | 該模型使用上述 LLaVA-v1.5 數據混合進行訓練。 |
人類生活 | 該模型並非用於為對人類生活或福祉至關重要的決策提供信息。 |
緩解措施 | 在模型開發過程中未考慮額外的風險緩解策略。 |
風險和危害 | 該模型尚未評估危害或偏差,不應用於可能造成危害的敏感應用。 |
使用案例 | - |
注意事項和建議
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。
引用詳情
@misc{hinck2024llavagemma,
title={LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model},
author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
year={2024},
eprint={2404.01331},
url={https://arxiv.org/abs/2404.01331},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型使用 intel-research-use-license 許可證。
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98