C

CLIP ViT L 14 Laion2b S32b B82k

由 laion 开发
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉语言模型,支持零样本图像分类和图文检索
下载量 79.01k
发布时间 : 9/14/2022

模型简介

该模型使用ViT-L/14架构,在LAION-5B数据集的20亿英语样本子集上训练,具备强大的跨模态理解能力,可将图像和文本映射到共享的嵌入空间

模型特点

大规模训练数据
使用LAION-5B数据集的20亿英语样本进行训练,涵盖广泛视觉概念
零样本学习能力
无需微调即可执行新类别的图像分类任务
跨模态理解
可将图像和文本映射到共享的语义空间,支持图文互检索
高精度
在ImageNet-1k上实现75.3的零样本top-1准确率

模型能力

零样本图像分类
图像文本检索
文本图像检索
跨模态特征提取

使用案例

内容检索
图像搜索引擎
使用自然语言查询检索相关图像
智能分类
动态图像分类
无需重新训练即可对新类别进行分类
在ImageNet-1k上达到75.3%准确率
辅助创作
图像生成引导
为生成模型提供文本条件化指导
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase