Cerule V0.1
Cerule 是一款轻量却强大的视觉语言模型,基于谷歌的 Gemma-2b 和 SigLIP 构建,专注于图像文本处理。
下载量 157
发布时间 : 4/2/2024
模型简介
Cerule 是一个小巧但功能强大的视觉语言模型,结合了谷歌的 Gemma-2b 和 SigLIP,为图像文本处理提供了高效的解决方案。
模型特点
轻量强大
基于谷歌的 Gemma-2b 和 SigLIP,模型体积小但性能强大
数据丰富
使用了大量图像数据进行预训练和微调,提升了模型的泛化能力
高效训练
在 4 张 A100 80GB 显卡上仅需约 19 小时即可完成训练
模型能力
图像描述生成
视觉问答
图像内容分析
多模态理解
使用案例
图像理解
图像描述
为输入图像生成详细的文字描述
示例中成功描述了宇航员图像的多个细节
角色识别
识别图像中的角色及其动作
示例中准确识别了马里奥、路易吉和耀西
幽默/创意内容分析
非常规场景理解
理解并描述幽默或非常规的图像场景
示例中正确识别了'极限熨烫'的幽默场景
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98