L

Llava Gemma 2b

Developed by Intel
LLaVA-Gemma-2b是基于LLaVA-v1.5框架训练的大型多模态模型,采用20亿参数的Gemma-2b-it作为语言主干,结合CLIP视觉编码器。
Downloads 1,503
Release Time : 3/14/2024

Model Overview

该模型针对多模态基准评估进行了微调,可作为多模态聊天机器人使用,支持图像和文本的交互。

Model Features

紧凑高效
采用20亿参数的Gemma-2b-it作为语言主干,在保持性能的同时降低计算资源需求。
多模态理解
结合CLIP视觉编码器,能够同时处理图像和文本输入,实现跨模态理解。
快速训练
在8个英特尔Gaudi 2 AI加速器上仅需4小时即可完成训练。

Model Capabilities

图像描述生成
视觉问答
多模态对话
文本总结

Use Cases

多模态聊天机器人
图像内容问答
用户上传图片并询问相关内容,模型生成准确描述和回答。
在VQAv2基准测试中达到70.7的准确率
学术研究
多模态模型研究
为研究人员提供紧凑模型研究平台,探索计算效率和多模态理解的平衡。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase