V

Vit Base Patch32 Clip 224.metaclip 400m

由 timm 开发
基于MetaCLIP-400M数据集训练的视觉语言模型,支持零样本图像分类任务
下载量 2,406
发布时间 : 10/23/2024

模型简介

这是一个双用途的视觉语言模型,可在OpenCLIP和timm框架中使用,主要用于零样本图像分类任务。

模型特点

双框架支持
同时兼容OpenCLIP和timm框架,提供灵活的使用方式
零样本学习能力
无需特定任务训练即可执行图像分类任务
快速推理
基于ViT-B-32架构优化,提供高效的推理速度

模型能力

零样本图像分类
图像特征提取
跨模态理解

使用案例

计算机视觉
通用图像分类
对未知类别的图像进行分类而无需特定训练
在多种图像分类任务中表现良好
内容审核
识别图像中的不当内容
多模态应用
图文匹配
评估图像与文本描述的匹配程度
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase