V

Vit Base Patch16 224

由 optimum 开发
基于Transformer架构的图像分类模型,在ImageNet-21k和ImageNet-1k数据集上预训练和微调
下载量 40
发布时间 : 6/23/2022

模型简介

ViT是一种将图像分割为16x16块并通过Transformer编码器处理的视觉模型,主要用于图像分类任务

模型特点

基于Transformer的视觉处理
将图像处理为类似NLP任务的token序列,创新性地应用Transformer架构处理视觉数据
大规模预训练
在ImageNet-21k(1400万图像,21k类别)上预训练,在ImageNet-1k(100万图像,1k类别)上微调
高分辨率支持
支持224x224和384x384分辨率输入,更高分辨率可获得更好效果

模型能力

图像分类
视觉特征提取

使用案例

计算机视觉
通用图像分类
将图像分类为1000个ImageNet类别
在ImageNet验证集上达到优秀准确率
视觉特征提取
提取图像特征用于下游任务
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase