C

Cerule V0.1

由 Tensoic 开发
Cerule 是一款轻量却强大的视觉语言模型,基于谷歌的 Gemma-2b 和 SigLIP 构建,专注于图像文本处理。
下载量 157
发布时间 : 4/2/2024

模型简介

Cerule 是一个小巧但功能强大的视觉语言模型,结合了谷歌的 Gemma-2b 和 SigLIP,为图像文本处理提供了高效的解决方案。

模型特点

轻量强大
基于谷歌的 Gemma-2b 和 SigLIP,模型体积小但性能强大
数据丰富
使用了大量图像数据进行预训练和微调,提升了模型的泛化能力
高效训练
在 4 张 A100 80GB 显卡上仅需约 19 小时即可完成训练

模型能力

图像描述生成
视觉问答
图像内容分析
多模态理解

使用案例

图像理解
图像描述
为输入图像生成详细的文字描述
示例中成功描述了宇航员图像的多个细节
角色识别
识别图像中的角色及其动作
示例中准确识别了马里奥、路易吉和耀西
幽默/创意内容分析
非常规场景理解
理解并描述幽默或非常规的图像场景
示例中正确识别了'极限熨烫'的幽默场景
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase