V

Vit Large Patch32 384

Developed by google
该视觉Transformer(ViT)模型先在ImageNet-21k数据集上预训练,后在ImageNet数据集上微调,适用于图像分类任务。
Downloads 118.37k
Release Time : 3/2/2022

Model Overview

该模型是一种类似BERT的Transformer编码器模型,采用监督方式在ImageNet-21k大规模图像集上进行预训练,随后在更高分辨率的ImageNet数据集上微调。

Model Features

大规模预训练
模型先在ImageNet-21k数据集(1400万张图像,21,843个类别)上预训练,学习到图像的内在表征。
高分辨率微调
在ImageNet数据集上以384x384分辨率进行微调,提升分类性能。
Transformer编码器
采用类似BERT的Transformer编码器结构,处理图像为固定尺寸的序列块并线性嵌入。

Model Capabilities

图像分类
特征提取

Use Cases

图像分类
ImageNet分类
将图像分类为1,000个ImageNet类别之一。
在ImageNet数据集上表现出色。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase