Cerule-v0.1开源视觉语言模型 - 轻量强大，专注图像文本处理

首页

Cerule V0.1

由 Tensoic 开发

Cerule 是一款轻量却强大的视觉语言模型，基于谷歌的 Gemma-2b 和 SigLIP 构建，专注于图像文本处理。

图像生成文本

Transformers

英语#轻量视觉语言模型 #多模态图像理解 #高效微调训练

下载量 157

发布时间 : 4/2/2024

模型简介

Cerule 是一个小巧但功能强大的视觉语言模型，结合了谷歌的 Gemma-2b 和 SigLIP，为图像文本处理提供了高效的解决方案。

模型特点

轻量强大

基于谷歌的 Gemma-2b 和 SigLIP，模型体积小但性能强大

数据丰富

使用了大量图像数据进行预训练和微调，提升了模型的泛化能力

高效训练

在 4 张 A100 80GB 显卡上仅需约 19 小时即可完成训练

模型能力

图像描述生成

视觉问答

图像内容分析

多模态理解

使用案例

图像理解

图像描述

为输入图像生成详细的文字描述

示例中成功描述了宇航员图像的多个细节

角色识别

识别图像中的角色及其动作

示例中准确识别了马里奥、路易吉和耀西

幽默/创意内容分析

非常规场景理解

理解并描述幽默或非常规的图像场景

示例中正确识别了'极限熨烫'的幽默场景

🚀 Cerule - 轻量强大的视觉模型

Cerule 是一款轻量却强大的视觉语言模型，它基于谷歌新发布的 Gemma - 2b 和 SigLIP 构建，为图像文本处理带来了新的解决方案。

 ██████╗███████╗██████╗ ██╗   ██╗██╗     ███████╗
██╔════╝██╔════╝██╔══██╗██║   ██║██║     ██╔════╝
██║     █████╗  ██████╔╝██║   ██║██║     █████╗
██║     ██╔══╝  ██╔══██╗██║   ██║██║     ██╔══╝
╚██████╗███████╗██║  ██║╚██████╔╝███████╗███████╗
 ╚═════╝╚══════╝╚═╝  ╚═╝ ╚═════╝ ╚══════╝╚══════╝

我们训练并发布了 “Cerule”，这是一个小巧但功能强大的视觉语言模型，它基于谷歌新发布的 Gemma - 2b 和谷歌的 SigLIP。

- 预训练阶段 : 650K 张图像（LAION 子集）
- 微调阶段 : 695K 张图像（SVIT - mix - 665K - 由北京智源研究院修改的 Bunny mix）

训练环境为 4 张 A100 80GB 显卡，预训练耗时约 6 小时，微调耗时约 13 小时。我们修改并适配了来自 Bunny 的训练代码。

🚀 快速开始

训练

训练代码已发布！你可以在下面的链接中获取： https://github.com/tensoic/Cerule

推理

克隆以下仓库并按照说明进行基于命令行界面（CLI）的推理： https://github.com/tensoic/Cerule

✨ 主要特性

轻量强大：基于谷歌的 Gemma - 2b 和 SigLIP，模型体积小但性能强大。
数据丰富：使用了大量图像数据进行预训练和微调，提升了模型的泛化能力。

📦 安装指南

文档中未提及具体安装步骤，可参考训练和推理部分的代码仓库说明。

💻 使用示例

图像描述示例

图像	示例
	描述图像该图像以有趣和超现实的方式描绘了一名穿着宇航服的男子，他坐在椅子上，手持一瓶绿色啤酒。男子身着白色宇航服，配有头盔和手套。他脚穿黑白相间的鞋子，置身于沙地表面。背景中有一颗巨大的蓝色星球，天空中可见月亮和星星。
	图像中的角色有哪些？图像中有三个角色，其中两个是马里奥和路易吉，第三个是耀西。描述角色的动作马里奥和路易吉伸出手臂，好像在挥手。耀西站在一旁，双臂交叉。
	这张图像有什么有趣之处？这张图像非常幽默，它描绘了一名男子在黄色出租车的车背上熨衣服。这不是日常生活中常见的场景。

📚 详细文档

训练设置

训练代码已发布在 https://github.com/tensoic/Cerule。训练使用了 4 张 A100 80GB 显卡，预训练耗时约 6 小时，微调耗时约 13 小时。

推理说明

克隆 https://github.com/tensoic/Cerule 仓库并按照说明进行基于命令行界面（CLI）的推理。

🔧 技术细节

模型架构：基于谷歌的 Gemma - 2b 和 SigLIP。
训练数据：
- 预训练阶段使用了 650K 张图像（LAION 子集）。
- 微调阶段使用了 695K 张图像（SVIT - mix - 665K - 由北京智源研究院修改的 Bunny mix）。
训练环境：4 张 A100 80GB 显卡。