C

CLIP ViT B 32 CommonPool.M S128m B4k

由 laion 开发
基于CLIP架构的零样本图像分类模型,支持通用视觉-语言任务
下载量 79
发布时间 : 4/26/2023

模型简介

该模型是OpenCLIP项目的一部分,采用ViT-B-32架构,通过对比学习训练实现图像与文本的联合表示,适用于零样本图像分类、跨模态检索等任务。

模型特点

零样本学习能力
无需特定任务微调即可直接应用于新类别识别
跨模态理解
同时处理视觉和文本信息,实现图像-文本匹配
大规模预训练
基于128M样本和4K批量大小训练,具有强大的泛化能力

模型能力

零样本图像分类
跨模态检索
图像-文本匹配
多模态特征提取

使用案例

内容审核
违规内容识别
通过文本描述检测违规图像内容
电子商务
商品图像搜索
使用自然语言查询匹配商品图像
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase