C

CLIP ViT B 16 CommonPool.L.image S1b B8k

由 laion 开发
基于CLIP架构的视觉语言模型,支持零样本图像分类任务
下载量 70
发布时间 : 4/26/2023

模型简介

该模型是OpenCLIP项目的一部分,采用ViT-B-16架构,通过大规模图像-文本对训练,能够理解图像和文本之间的语义关系,实现零样本图像分类。

模型特点

零样本学习能力
无需特定类别训练即可对新类别进行分类
多模态理解
同时处理视觉和文本信息,理解两者间语义关系
大规模预训练
使用1B图像-8K文本对进行预训练,具有广泛的知识覆盖

模型能力

图像分类
跨模态检索
语义相似度计算
零样本推理

使用案例

内容管理
自动图像标注
为未标注图像自动生成描述性标签
提高图像检索效率
电子商务
产品分类
根据自然语言描述自动分类新产品
减少人工分类工作量
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase