V

Vit Xsmall Patch16 Clip 224.tinyclip Yfcc15m

由 timm 开发
基于CLIP架构的小型视觉-语言模型,专为高效零样本图像分类设计
下载量 444
发布时间 : 3/20/2024

模型简介

该模型是CLIP架构的轻量化版本,使用YFCC15M数据集训练,适用于零样本图像分类任务。

模型特点

轻量化设计
采用XSmall规模的ViT架构,计算资源需求较低
零样本学习
无需特定领域训练即可执行图像分类任务
多模态理解
同时理解视觉和文本信息,实现跨模态匹配

模型能力

零样本图像分类
图像-文本匹配
跨模态检索

使用案例

内容管理
自动图片标注
为未标注图片自动生成描述性标签
提升图片库管理效率
电子商务
产品分类
根据自然语言描述对产品图片进行分类
无需训练即可支持新产品类别
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase