Open-source EVA02 Vision Model - Free Deployment for Image Classification and Feature Extraction

Eva02 Tiny Patch14 224.mim In22k

Developed by timm

EVA02 is a Vision Transformer model pre-trained on ImageNet-22k through masked image modeling, suitable for image classification and feature extraction tasks.

Image Classification

Transformers

Open Source License:MIT #Lightweight Vision Transformer #Image feature extraction #Masked image modeling pre-training

Downloads 385

Release Time : 3/31/2023

Model Overview

The EVA02 model is a Vision Transformer that incorporates techniques such as mean pooling, SwiGLU, and rotary position embedding (ROPE), suitable for image classification and feature extraction.

Model Features

Masked image modeling pre-training

Pre-trained using EVA-CLIP as the MIM teacher, which improves the model's representation ability.

Efficient architecture design

Adopts techniques such as mean pooling, SwiGLU activation function, and rotary position embedding (ROPE) to optimize model performance.

Lightweight model

With only 5.5 million parameters, it is suitable for resource-constrained environments.

Model Capabilities

Image classification

Image feature extraction

Visual representation learning

Use Cases

Computer vision

Image classification

Can be used to classify images and support recognition of multiple categories.

Pre-trained on ImageNet-22k, with high classification accuracy.

Feature extraction

Can be used to extract deep features of images, suitable for downstream tasks such as object detection and image retrieval.

Provides high-quality image representations.

🚀 Model Card for eva02_tiny_patch14_224.mim_in22k

This is an EVA02 feature / representation model. It was pretrained on ImageNet-22k with masked image modeling (using EVA-CLIP as a MIM teacher) by the paper authors.

EVA-02 models are vision transformers that incorporate mean pooling, SwiGLU, Rotary Position Embeddings (ROPE), and an extra LN in MLP (for Base & Large).

⚠️ Important Note

timm checkpoints are in float32 for consistency with other models. In some cases, the original checkpoints are in float16 or bfloat16. Refer to the originals if that's your preference.

🚀 Quick Start

Image Classification

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('eva02_tiny_patch14_224.mim_in22k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

Image Embeddings

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'eva02_tiny_patch14_224.mim_in22k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 257, 192) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

✨ Features

An EVA02 feature / representation model.
Pretrained on ImageNet-22k with masked image modeling.
Vision transformers with mean pooling, SwiGLU, Rotary Position Embeddings (ROPE), and extra LN in MLP (for Base & Large).

📚 Documentation

Model Details

Property	Details
Model Type	Image classification / feature backbone
Params (M)	5.5
GMACs	1.7
Activations (M)	9.1
Image size	224 x 224
Papers	- EVA-02: A Visual Representation for Neon Genesis: https://arxiv.org/abs/2303.11331 - EVA-CLIP: Improved Training Techniques for CLIP at Scale: https://arxiv.org/abs/2303.15389
Original	- https://github.com/baaivision/EVA - https://huggingface.co/Yuxin-CV/EVA-02
Pretrain Dataset	ImageNet-22k

Model Comparison

Explore the dataset and runtime metrics of this model in timm model results.

model	top1	top5	param_count	img_size
eva02_large_patch14_448.mim_m38m_ft_in22k_in1k	90.054	99.042	305.08	448
eva02_large_patch14_448.mim_in22k_ft_in22k_in1k	89.946	99.01	305.08	448
eva_giant_patch14_560.m30m_ft_in22k_in1k	89.792	98.992	1014.45	560
eva02_large_patch14_448.mim_in22k_ft_in1k	89.626	98.954	305.08	448
eva02_large_patch14_448.mim_m38m_ft_in1k	89.57	98.918	305.08	448
eva_giant_patch14_336.m30m_ft_in22k_in1k	89.56	98.956	1013.01	336
eva_giant_patch14_336.clip_ft_in1k	89.466	98.82	1013.01	336
eva_large_patch14_336.in22k_ft_in22k_in1k	89.214	98.854	304.53	336
eva_giant_patch14_224.clip_ft_in1k	88.882	98.678	1012.56	224
eva02_base_patch14_448.mim_in22k_ft_in22k_in1k	88.692	98.722	87.12	448
eva_large_patch14_336.in22k_ft_in1k	88.652	98.722	304.53	336
eva_large_patch14_196.in22k_ft_in22k_in1k	88.592	98.656	304.14	196
eva02_base_patch14_448.mim_in22k_ft_in1k	88.23	98.564	87.12	448
eva_large_patch14_196.in22k_ft_in1k	87.934	98.504	304.14	196
eva02_small_patch14_336.mim_in22k_ft_in1k	85.74	97.614	22.13	336
eva02_tiny_patch14_336.mim_in22k_ft_in1k	80.658	95.524	5.76	336

📄 License

This project is licensed under the MIT license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご