V

Vit Base Patch32 224.orig In21k

Developed by timm
基于Vision Transformer (ViT)的图像分类模型,在ImageNet-21k上预训练,适用于特征提取和微调场景。
Downloads 438
Release Time : 11/17/2023

Model Overview

该模型是一个基于Vision Transformer架构的图像分类模型,由论文作者在ImageNet-21k数据集上使用JAX预训练,后移植到PyTorch。模型不包含分类头,适合用于特征提取和下游任务的微调。

Model Features

基于Transformer架构
采用Vision Transformer架构,将图像分割为32x32的patch进行处理,适用于大规模图像识别任务。
预训练权重
在ImageNet-21k大规模数据集上预训练,具有强大的特征提取能力。
灵活的特征提取
模型不包含分类头,可以直接用于特征提取或下游任务的微调。

Model Capabilities

图像特征提取
图像分类
迁移学习

Use Cases

计算机视觉
图像分类
使用预训练模型进行图像分类任务,或在其基础上微调特定领域的分类器。
特征提取
提取图像的高级特征表示,用于下游任务如目标检测、图像检索等。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase