V

Vit Base Patch16 Clip 224.openai

由 timm 开发
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习训练图像和文本编码器,支持零样本图像分类。
下载量 618.17k
发布时间 : 11/1/2022

模型简介

CLIP模型探索计算机视觉任务的鲁棒性因素,并测试模型以零样本方式泛化到任意图像分类任务的能力。

模型特点

零样本泛化能力
无需特定任务微调即可执行多种图像分类任务
多模态对比学习
通过对比损失联合训练图像和文本编码器
变换器架构
采用ViT-B/16视觉变换器和文本变换器编码器

模型能力

零样本图像分类
图像-文本相似度计算
跨模态特征提取

使用案例

学术研究
计算机视觉鲁棒性研究
探索模型在不同分布数据上的表现
论文中展示了跨数据集泛化能力
多模态学习研究
研究视觉与语言表征的联合学习
证明了对比学习的有效性
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase