C

CLIP ViT H 14 Laion2b S32b B79k

由 ModelsLab 开发
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
下载量 132
发布时间 : 1/16/2025

模型简介

该模型采用CLIP架构,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类、图像文本检索等任务。

模型特点

大规模训练数据
使用LAION-5B的20亿英语样本子集训练,涵盖广泛的视觉概念
零样本能力
无需微调即可执行新类别的图像分类任务
跨模态理解
同时理解图像和文本,支持图像-文本匹配和检索

模型能力

零样本图像分类
图像文本检索
跨模态嵌入学习
图像内容理解

使用案例

计算机视觉
零样本图像分类
无需训练数据即可对图像进行分类
在ImageNet-1k上达到78.0%的零样本top-1准确率
图像检索
根据文本查询检索相关图像
在COCO和Flickr数据集上表现良好
研究应用
多模态研究
用于研究视觉语言表示学习
模型微调基础
作为下游任务的预训练模型
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase