V

Vit Base Patch32 Clip 224.laion400m E32

由 timm 开发
基于LAION-400M数据集训练的Vision Transformer模型,支持OpenCLIP和timm双框架使用
下载量 5,957
发布时间 : 10/23/2024

模型简介

这是一个基于Vision Transformer架构的视觉语言模型,主要用于零样本图像分类任务。模型在LAION-400M数据集上训练,支持OpenCLIP和timm两种框架使用。

模型特点

双框架兼容
同时支持OpenCLIP和timm框架使用,提供更灵活的应用场景
零样本学习
无需微调即可直接应用于新的图像分类任务
大规模预训练
在LAION-400M大规模数据集上预训练,具有强大的视觉表示能力

模型能力

图像分类
零样本学习
视觉特征提取

使用案例

图像理解
零样本图像分类
无需特定类别训练数据即可对新类别图像进行分类
图像检索
基于视觉相似性的图像搜索
多模态应用
图文匹配
判断图像与文本描述是否匹配
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase