V

Vit Base Patch32 Clip 224.laion400m E32

Developed by timm
基于LAION-400M数据集训练的Vision Transformer模型,支持OpenCLIP和timm双框架使用
Downloads 5,957
Release Time : 10/23/2024

Model Overview

这是一个基于Vision Transformer架构的视觉语言模型,主要用于零样本图像分类任务。模型在LAION-400M数据集上训练,支持OpenCLIP和timm两种框架使用。

Model Features

双框架兼容
同时支持OpenCLIP和timm框架使用,提供更灵活的应用场景
零样本学习
无需微调即可直接应用于新的图像分类任务
大规模预训练
在LAION-400M大规模数据集上预训练,具有强大的视觉表示能力

Model Capabilities

图像分类
零样本学习
视觉特征提取

Use Cases

图像理解
零样本图像分类
无需特定类别训练数据即可对新类别图像进行分类
图像检索
基于视觉相似性的图像搜索
多模态应用
图文匹配
判断图像与文本描述是否匹配
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase