Vit_huge_patch14_224 Open-source Image Feature Extraction Model - Freely Extract High-quality Image Features

Vit Huge Patch14 224.orig In21k

Developed by timm

Large-scale image feature extraction model based on Vision Transformer (ViT) architecture, pre-trained on ImageNet-21k dataset

Image Classification

Transformers

Open Source License:Apache-2.0 #Vision Transformer #Huge parameter count #ImageNet-21k pre-trained

Downloads 3,214

Release Time : 12/22/2022

Model Overview

This is a Vision Transformer model without a classification head, primarily used for image feature extraction and downstream task fine-tuning. The model uses 14x14 patch size and 224x224 input resolution.

Model Features

Large-scale pre-training

Pre-trained on ImageNet-21k dataset containing 21,000 classes, with powerful feature extraction capabilities

Transformer architecture

Uses pure Transformer architecture for image processing, eliminating the need for traditional CNN convolution operations

High-resolution processing

Supports 224x224 pixel input resolution with 14x14 patch size

Flexible application

Can be used as a feature extractor or for downstream task fine-tuning, supports removal of classification head

Model Capabilities

Image feature extraction

Image classification

Transfer learning

Computer vision tasks

Use Cases

Computer vision

Image classification

Used for large-scale image classification tasks with 21,000 classes

Feature extraction

Extract image features for downstream tasks such as object detection, image segmentation, etc.

Transfer learning

Fine-tune the model on domain-specific datasets to adapt to specific task requirements

🚀 vit_huge_patch14_224.orig_in21k

A Vision Transformer (ViT) image classification model. Pretrained on ImageNet-21k, useful for feature extraction and fine-tuning.

🚀 Quick Start

This is a Vision Transformer (ViT) image classification model. It was pretrained on ImageNet - 21k in JAX by the paper authors and ported to PyTorch by Ross Wightman. This model doesn't have a classification head, so it's only useful for feature extraction and fine - tuning.

✨ Features

Model Type: Image classification / feature backbone
Model Stats:
- Params (M): 630.8
- GMACs: 162.0
- Activations (M): 95.1
- Image size: 224 x 224
Papers:
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Dataset: ImageNet - 21k
Original: https://github.com/google-research/vision_transformer

📦 Installation

No installation steps were provided in the original document, so this section is skipped.

💻 Usage Examples

Basic Usage

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_huge_patch14_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Advanced Usage

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_huge_patch14_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 257, 1280) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 Documentation

Explore the dataset and runtime metrics of this model in timm model results.

📄 License

This project is licensed under the Apache - 2.0 license.

📖 Citation

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご