Llava Gemma 2b
LLaVA-Gemma-2b是基于LLaVA-v1.5框架训练的大型多模态模型,采用20亿参数的Gemma-2b-it作为语言主干,结合CLIP视觉编码器。
下载量 1,503
发布时间 : 3/14/2024
模型简介
该模型针对多模态基准评估进行了微调,可作为多模态聊天机器人使用,支持图像和文本的交互。
模型特点
紧凑高效
采用20亿参数的Gemma-2b-it作为语言主干,在保持性能的同时降低计算资源需求。
多模态理解
结合CLIP视觉编码器,能够同时处理图像和文本输入,实现跨模态理解。
快速训练
在8个英特尔Gaudi 2 AI加速器上仅需4小时即可完成训练。
模型能力
图像描述生成
视觉问答
多模态对话
文本总结
使用案例
多模态聊天机器人
图像内容问答
用户上传图片并询问相关内容,模型生成准确描述和回答。
在VQAv2基准测试中达到70.7的准确率
学术研究
多模态模型研究
为研究人员提供紧凑模型研究平台,探索计算效率和多模态理解的平衡。
🚀 大语言模型llava-gemma-2b
llava-gemma-2b
是一个大型多模态模型(LMM),它基于 LLaVA-v1.5 框架 进行训练。该模型以拥有 20 亿参数的 google/gemma-2b-it 模型作为语言主干,并采用基于 CLIP 的视觉编码器。
🚀 快速开始
使用 llava-gemma
时,如果你的 transformers
版本低于 4.41.1,则需要使用 修改后的预处理器。
当前使用方法,请参考 usage.py
或以下代码块:
基础用法
import requests
from PIL import Image
from transformers import (
LlavaForConditionalGeneration,
AutoTokenizer,
AutoProcessor,
CLIPImageProcessor
)
#In this repo, needed for version < 4.41.1
#from processing_llavagemma import LlavaGemmaProcessor
#processor = LlavaGemmaProcessor( tokenizer=AutoTokenizer.from_pretrained(checkpoint), image_processor=CLIPImageProcessor.from_pretrained(checkpoint))
checkpoint = "Intel/llava-gemma-2b"
# Load model
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = AutoProcessor.from_pretrained(checkpoint)
# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "<image>\nWhat's the content of the image?"}],
tokenize=False,
add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")
# Generate
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
高级用法
若要将其作为聊天机器人直接使用(不使用图像),可以将代码的最后部分修改为以下内容:
# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "Summarize the following paragraph? In this paper, we introduced LLaVA-Gemma, a compact vision-language model leveraging the Gemma Large Language Model in two variants, Gemma-2B and Gemma-7B. Our work provides a unique opportunity for researchers to explore the trade-offs between computational efficiency and multimodal understanding in small-scale models. The availability of both variants allows for a comparative analysis that sheds light on how model size impacts performance in various tasks. Our evaluations demonstrate the versatility and effectiveness of LLaVA-Gemma across a range of datasets, highlighting its potential as a benchmark for future research in small-scale vision-language models. With these models, future practitioners can optimize the performance of small-scale multimodal models more directly."}],
tokenize=False,
add_generation_prompt=True
)
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
# image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=None, return_tensors="pt")
# Generate
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
✨ 主要特性
- 多模态能力:结合了语言和视觉信息处理能力,可处理图像和文本输入。
- 基于成熟框架:采用 LLaVA-v1.5 框架 进行训练,具有良好的性能基础。
- 特定模型架构:以 google/gemma-2b-it 作为语言主干,搭配 CLIP 视觉编码器。
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型名称 | llava-gemma-2b |
作者 | 英特尔:Musashi Hinck*、Matthew L. Olson*、David Cobbley、Shao-Yen Tseng、Vasudev Lal |
日期 | 2024 年 3 月 |
版本 | 1 |
模型类型 | 大型多模态模型(LMM) |
论文或其他资源 | LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model |
许可证 | Gemma |
问题或评论 | 社区板块 和 英特尔开发者中心 Discord |
预期用途
预期用途 | 描述 |
---|---|
主要预期用途 | 该模型经过微调,可用于多模态基准评估,也可作为多模态聊天机器人使用。 |
主要预期用户 | 任何使用或评估多模态模型的人员。 |
非预期用途 | 该模型不适用于需要高度事实性的用途、高风险场景、心理健康或医疗应用、生成错误信息或虚假信息、冒充他人、助长或煽动骚扰或暴力,以及任何可能导致违反《联合国人权宣言》所规定人权的用途。 |
影响因素
因素 | 描述 |
---|---|
分组 | - |
仪器 | - |
环境 | 在 8 个英特尔 Gaudi 2 AI 加速器上训练了 4 小时。 |
卡片提示 | 在其他硬件和软件上进行模型训练和部署会改变模型性能。 |
评估指标
指标 | 描述 |
---|---|
模型性能指标 | 我们在与其他 LMM 工作类似的基准测试集上评估 LlaVA-Gemma 模型:GQA、MME、MM-Vet、POPE(准确率和 F1 值)、VQAv2、MMVP、ScienceQA 的图像子集。我们的实验为 LLaVA 框架内各种设计选择的有效性提供了见解。 |
决策阈值 | - |
不确定性和可变性处理方法 | - |
训练数据
该模型使用 LLaVA-v1.5 数据混合进行训练,具体如下:
- 55.8 万个经过过滤的图像 - 文本对,来自 LAION/CC/SBU,由 BLIP 加了字幕。
- 15.8 万个由 GPT 生成的多模态指令跟随数据。
- 45 万个面向学术任务的 VQA 数据混合。
- 4 万个 ShareGPT 数据。
定量分析
LLaVA-Gemma 模型在七个基准测试中的性能。高亮框表示 LLaVA-Gemma 模型中表现最强的。最后两行分别显示了 Llava Phi-2 和 LLaVA-v1.5 的自我报告性能。加粗的 gemma-2b-it 是本模型卡片中当前使用的模型。
语言模型主干 | 视觉模型 | 预训练连接器 | GQA | MME 认知 | MME 感知 | MM-Vet | POPE 准确率 | POPE F1 值 | VQAv2 | ScienceQA 图像 | MMVP |
---|---|---|---|---|---|---|---|---|---|---|---|
gemma-2b-it | CLIP | 是 | 0.531 | 236 | 1130 | 17.7 | 0.850 | 0.839 | 70.65 | 0.564 | 0.287 |
gemma-2b-it | CLIP | 否 | 0.481 | 248 | 935 | 13.1 | 0.784 | 0.762 | 61.74 | 0.549 | 0.180 |
gemma-2b-it | DinoV2 | 是 | 0.587 | 307 | 1133 | 19.1 | 0.853 | 0.838 | 71.37 | 0.555 | 0.227 |
gemma-2b-it | DinoV2 | 否 | 0.501 | 309 | 959 | 14.5 | 0.793 | 0.772 | 61.65 | 0.568 | 0.180 |
gemma-7b-it | CLIP | 是 | 0.472 | 253 | 895 | 18.2 | 0.848 | 0.829 | 68.7 | 0.625 | 0.327 |
gemma-7b-it | CLIP | 否 | 0.472 | 278 | 857 | 19.1 | 0.782 | 0.734 | 65.1 | 0.636 | 0.240 |
gemma-7b-it | DinoV2 | 是 | 0.519 | 257 | 1021 | 14.3 | 0.794 | 0.762 | 65.2 | 0.628 | 0.327 |
gemma-7b-it | DinoV2 | 否 | 0.459 | 226 | 771 | 12.2 | 0.693 | 0.567 | 57.4 | 0.598 | 0.267 |
Phi-2b | CLIP | 是 | - | - | 1335 | 28.9 | - | 0.850 | 71.4 | 0.684 | - |
Llama-2-7b | CLIP | 是 | 0.620 | 348 | 1511 | 30.6 | 0.850 | 0.859 | 78.5 | 0.704 | 46.1 |
伦理考量
英特尔致力于尊重人权,避免对人权造成或促成不利影响。请参阅 英特尔全球人权原则。英特尔的产品和软件仅用于不会对人权造成或促成不利影响的应用。
伦理考量 | 描述 |
---|---|
数据 | 该模型使用上述 LLaVA-v1.5 数据混合进行训练。 |
人类生活 | 该模型并非用于为对人类生活或福祉至关重要的决策提供信息。 |
缓解措施 | 在模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 | 该模型尚未评估危害或偏差,不应用于可能造成危害的敏感应用。 |
使用案例 | - |
注意事项和建议
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。
引用详情
@misc{hinck2024llavagemma,
title={LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model},
author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
year={2024},
eprint={2404.01331},
url={https://arxiv.org/abs/2404.01331},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本模型使用 intel-research-use-license 许可证。
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98