C

CLIP Convnext Base W Laion2b S13b B82k Augreg

由 laion 开发
基于ConvNeXt-Base架构的CLIP模型,使用OpenCLIP在LAION-5B子集上训练,专注于零样本图像分类任务
下载量 40.86k
发布时间 : 1/10/2023

模型简介

该模型是CLIP系列模型的一种变体,采用ConvNeXt-Base作为图像编码器,在LAION-2B数据集上训练。探索了替代ViT和ResNet的架构,并增加了增强和正则化技术。

模型特点

ConvNeXt架构
首次大规模训练的ConvNeXt CLIP模型,探索了替代ViT和ResNet的架构选择
增强正则化
采用了随机调整裁剪、随机擦除和随机深度等增强技术,提高了模型性能
高样本效率
在13B样本训练后达到70%+的ImageNet零样本准确率,显示良好的样本效率

模型能力

零样本图像分类
图像文本检索
跨模态表示学习

使用案例

计算机视觉
图像分类
无需微调即可对任意类别图像进行分类
ImageNet零样本top-1准确率71.5%
图像检索
基于文本描述检索相关图像
研究
多模态学习研究
研究视觉和语言表示之间的对齐
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase