Llava Gemma 7b
LLaVA-Gemma-7b是基于LLaVA-v1.5框架训练的大型多模态模型,采用google/gemma-7b-it作为语言主干,结合CLIP视觉编码器,适用于多模态理解和生成任务。
下载量 161
发布时间 : 3/26/2024
模型简介
该模型是一个大型多模态模型(LMM),能够处理图像和文本输入,生成文本输出,适用于多模态聊天机器人和多模态基准评估。
模型特点
多模态理解
能够同时处理图像和文本输入,理解两者之间的关系
高效训练
在8个英特尔Gaudi 2 AI加速器上仅需4小时训练
紧凑模型
基于70亿参数的Gemma模型,在保持性能的同时减少计算资源需求
模型能力
图像理解
文本生成
多模态对话
视觉问答
使用案例
多模态聊天机器人
图像描述生成
根据输入图像生成描述性文本
在VQAv2基准测试中达到68.7的准确率
多模态对话
结合图像和文本进行自然对话
在MM-Vet基准测试中达到18.2分
学术研究
多模态模型研究
用于探索小规模模型中计算效率与多模态理解之间的权衡
提供Gemma-2B和Gemma-7B两种变体供比较分析
🚀 LLaVA-Gemma-7b大语言模型
llava-gemma-7b
是一个大型多模态模型(LMM),它基于 LLaVA-v1.5框架 进行训练,以拥有70亿参数的 google/gemma-7b-it 模型作为语言主干,并采用基于CLIP的视觉编码器。
注意: 截至2024年6月3日,我们尚未将该模型的权重转换为HuggingFace LLaVA格式。完成转换后,此模型卡片将进行更新。
✨ 主要特性
- 基于LLaVA-v1.5框架训练,结合了强大的语言模型和视觉编码器,实现多模态处理。
- 可用于多模态基准评估,也能作为多模态聊天机器人使用。
📦 安装指南
目前,使用 llava-gemma
需要一个 修改后的预处理器。我们目前正在对 LlavaProcessor
类进行修改,以简化使用流程(请参阅 PR #30030),请期待后续更新。
💻 使用示例
基础用法
import requests
from PIL import Image
from transformers import (
LlavaForConditionalGeneration,
AutoTokenizer,
CLIPImageProcessor
)
from processing_llavagemma import LlavaGemmaProcessor # This is in this repo
checkpoint = "Intel/llava-gemma-7b"
# Load model
model = LlavaForConditionalGeneration.from_pretrained(checkpoint)
processor = LlavaGemmaProcessor(
tokenizer=AutoTokenizer.from_pretrained(checkpoint),
image_processor=CLIPImageProcessor.from_pretrained(checkpoint)
)
# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "<image>\nWhat's the content of the image?"}],
tokenize=False,
add_generation_prompt=True
)
url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=image, return_tensors="pt")
# Generate
generate_ids = model.generate(**inputs, max_length=30)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
高级用法
若要将其作为聊天机器人直接使用(不涉及图像),可以将代码的最后部分修改为以下内容:
# Prepare inputs
# Use gemma chat template
prompt = processor.tokenizer.apply_chat_template(
[{'role': 'user', 'content': "Summarize the following paragraph? In this paper, we introduced LLaVA-Gemma, a compact vision-language model leveraging the Gemma Large Language Model in two variants, Gemma-2B and Gemma-7B. Our work provides a unique opportunity for researchers to explore the trade-offs between computational efficiency and multimodal understanding in small-scale models. The availability of both variants allows for a comparative analysis that sheds light on how model size impacts performance in various tasks. Our evaluations demonstrate the versatility and effectiveness of LLaVA-Gemma across a range of datasets, highlighting its potential as a benchmark for future research in small-scale vision-language models. With these models, future practitioners can optimize the performance of small-scale multimodal models more directly."}],
tokenize=False,
add_generation_prompt=True
)
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
# image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=prompt, images=None, return_tensors="pt")
# Generate
generate_ids = model.generate(**inputs, max_length=300)
output = processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(output)
📚 详细文档
模型详情
属性 | 详情 |
---|---|
作者 | Intel: Musashi Hinck、Matthew Olson、David Cobbley、Shao-Yen Tseng、Vasudev Lal |
日期 | 2024年3月 |
版本 | 1 |
模型类型 | 大型多模态模型(LMM) |
论文或其他资源 | LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model |
许可证 | Gemma |
问题或评论 | 社区板块 和 Intel DevHub Discord |
预期用途
预期用途 | 描述 |
---|---|
主要预期用途 | 该模型已针对多模态基准评估进行了微调,但也可用作多模态聊天机器人。 |
主要预期用户 | 任何使用或评估多模态模型的人员。 |
非预期用途 | 此模型不适用于需要高度事实性的用途、高风险场景、心理健康或医疗应用、生成错误信息或虚假信息、冒充他人、助长或煽动骚扰或暴力,以及任何可能导致违反《联合国人权宣言》所规定人权的用途。 |
影响因素
因素 | 描述 |
---|---|
群体 | - |
检测手段 | - |
环境 | 在8个英特尔Gaudi 2 AI加速器上训练了4小时。 |
卡片提示 | 在其他硬件和软件上进行模型训练和部署会改变模型性能。 |
评估指标
指标 | 描述 |
---|---|
模型性能度量 | 我们在与其他LMM研究类似的基准测试集上对LlaVA-Gemma模型进行了评估,包括GQA、MME、MM-Vet、POPE(准确率和F1值)、VQAv2、MMVP以及ScienceQA的图像子集。我们的实验为LLaVA框架内各种设计选择的有效性提供了见解。 |
决策阈值 | - |
不确定性和变异性处理方法 | - |
训练数据
该模型使用LLaVA-v1.5数据混合进行训练,具体如下:
- 55.8万个经过筛选的图像 - 文本对,来自LAION/CC/SBU,由BLIP添加了标题。
- 15.8万个由GPT生成的多模态指令跟随数据。
- 45万个面向学术任务的VQA数据混合。
- 4万个ShareGPT数据。
定量分析
LLaVA-Gemma模型在七个基准测试中的性能。高亮框表示LLaVA-Gemma模型中表现最强的部分。最后两行分别显示了Llava Phi - 2和LLaVA-v1.5的自我报告性能。加粗的 gemma-7b-it 是本模型卡片中当前使用的模型。
语言模型主干 | 视觉模型 | 预训练连接器 | GQA | MME认知 | MME感知 | MM-Vet | POPE准确率 | POPE F1值 | VQAv2 | ScienceQA图像 | MMVP |
---|---|---|---|---|---|---|---|---|---|---|---|
gemma-2b-it | CLIP | 是 | 0.531 | 236 | 1130 | 17.7 | 0.850 | 0.839 | 70.65 | 0.564 | 0.287 |
gemma-2b-it | CLIP | 否 | 0.481 | 248 | 935 | 13.1 | 0.784 | 0.762 | 61.74 | 0.549 | 0.180 |
gemma-2b-it | DinoV2 | 是 | 0.587 | 307 | 1133 | 19.1 | 0.853 | 0.838 | 71.37 | 0.555 | 0.227 |
gemma-2b-it | DinoV2 | 否 | 0.501 | 309 | 959 | 14.5 | 0.793 | 0.772 | 61.65 | 0.568 | 0.180 |
gemma-7b-it | CLIP | 是 | 0.472 | 253 | 895 | 18.2 | 0.848 | 0.829 | 68.7 | 0.625 | 0.327 |
gemma-7b-it | CLIP | 否 | 0.472 | 278 | 857 | 19.1 | 0.782 | 0.734 | 65.1 | 0.636 | 0.240 |
gemma-7b-it | DinoV2 | 是 | 0.519 | 257 | 1021 | 14.3 | 0.794 | 0.762 | 65.2 | 0.628 | 0.327 |
gemma-7b-it | DinoV2 | 否 | 0.459 | 226 | 771 | 12.2 | 0.693 | 0.567 | 57.4 | 0.598 | 0.267 |
Phi-2b | CLIP | 是 | - | - | 1335 | 28.9 | - | 0.850 | 71.4 | 0.684 | - |
Llama-2-7b | CLIP | 是 | 0.620 | 348 | 1511 | 30.6 | 0.850 | 0.859 | 78.5 | 0.704 | 46.1 |
伦理考量
英特尔致力于尊重人权,避免对人权造成或促成不利影响。请参阅 英特尔全球人权原则。英特尔的产品和软件仅旨在用于不会对人权造成或促成不利影响的应用程序。
伦理考量 | 描述 |
---|---|
数据 | 该模型使用上述LLaVA-v1.5数据混合进行训练。 |
人类生命 | 此模型并非用于为对人类生命或福祉至关重要的决策提供信息。 |
缓解措施 | 在模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 | 此模型尚未进行危害或偏差评估,不应用于可能造成危害的敏感应用。 |
使用案例 | - |
注意事项和建议
用户(包括直接用户和下游用户)应了解该模型的风险、偏差和局限性。
引用详情
@misc{hinck2024llavagemma,
title={LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model},
author={Musashi Hinck and Matthew L. Olson and David Cobbley and Shao-Yen Tseng and Vasudev Lal},
year={2024},
eprint={2404.01331},
url={https://arxiv.org/abs/2404.01331},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本项目遵循 intel-research-use-license 许可证。
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98