🚀 vit_base_patch32_224.orig_in21k模型
這是一個基於Vision Transformer (ViT) 的圖像分類模型。該模型由論文作者在JAX中基於ImageNet - 21k數據集進行預訓練,後由Ross Wightman移植到PyTorch。此模型沒有分類頭,僅適用於特徵提取和微調。
🚀 快速開始
本模型是基於Vision Transformer (ViT) 架構的圖像分類模型,可用於圖像特徵提取和微調。以下是使用示例:
💻 使用示例
基礎用法
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('vit_base_patch32_224.orig_in21k', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
高級用法
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'vit_base_patch32_224.orig_in21k',
pretrained=True,
num_classes=0,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
✨ 主要特性
- 基於Vision Transformer (ViT) 架構,適用於圖像分類任務。
- 在ImageNet - 21k數據集上進行預訓練。
- 模型沒有分類頭,可用於特徵提取和微調。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
圖像分類/特徵骨幹網絡 |
模型參數(百萬) |
87.5 |
GMACs |
4.4 |
激活值(百萬) |
4.2 |
圖像尺寸 |
224 x 224 |
相關論文 |
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2 |
訓練數據集 |
ImageNet - 21k |
原始代碼庫 |
https://github.com/google-research/vision_transformer |
模型對比
你可以在timm 模型結果 中查看該模型的數據集和運行時指標。
引用信息
@article{dosovitskiy2020vit,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
journal={ICLR},
year={2021}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}
📄 許可證
本項目採用Apache - 2.0許可證。