V

Vit Huge Patch14 224.orig In21k

Developed by timm
基于Vision Transformer (ViT)架构的大规模图像特征提取模型,在ImageNet-21k数据集上预训练
Downloads 3,214
Release Time : 12/22/2022

Model Overview

这是一个不含分类头的Vision Transformer模型,主要用于图像特征提取和下游任务微调。模型采用14x14的patch尺寸和224x224的输入分辨率。

Model Features

大规模预训练
在包含21000类的ImageNet-21k数据集上预训练,具有强大的特征提取能力
Transformer架构
采用纯Transformer架构处理图像,无需传统CNN的卷积操作
高分辨率处理
支持224x224像素的输入分辨率,14x14的patch尺寸
灵活应用
可作为特征提取器或用于下游任务微调,支持移除分类头

Model Capabilities

图像特征提取
图像分类
迁移学习
计算机视觉任务

Use Cases

计算机视觉
图像分类
用于21000类的大规模图像分类任务
特征提取
提取图像特征用于下游任务如目标检测、图像分割等
迁移学习
在特定领域数据集上微调模型,适应特定任务需求
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase