🚀 vit_huge_patch14_224.orig_in21kのモデルカード
Vision Transformer (ViT) の画像分類モデルです。論文の著者によってJAXでImageNet - 21k上で事前学習され、Ross WightmanによってPyTorchに移植されました。このモデルには分類ヘッドがなく、特徴抽出とファインチューニングにのみ有用です。
🚀 クイックスタート
このモデルは、画像分類や特徴抽出に使用できるVision Transformerモデルです。以下に具体的な使用方法を示します。
✨ 主な機能
- 画像分類と特徴抽出が可能です。
- ImageNet - 21kデータセットで事前学習されています。
- 分類ヘッドがなく、特徴抽出とファインチューニングに特化しています。
📦 インストール
このモデルを使用するには、timm
ライブラリが必要です。以下のコマンドでインストールできます。
pip install timm
💻 使用例
基本的な使用法
画像分類
from urllib.request import urlopen
from PIL import Image
import timm
import torch
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('vit_huge_patch14_224.orig_in21k', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
画像埋め込み
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'vit_huge_patch14_224.orig_in21k',
pretrained=True,
num_classes=0,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
画像分類 / 特徴バックボーン |
モデル統計 |
- パラメータ (M): 630.8 - GMACs: 162.0 - 活性化関数 (M): 95.1 - 画像サイズ: 224 x 224 |
論文 |
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2 |
データセット |
ImageNet - 21k |
オリジナル |
https://github.com/google-research/vision_transformer |
モデル比較
timmのモデル結果で、このモデルのデータセットと実行時のメトリクスを調べることができます。
引用
@article{dosovitskiy2020vit,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
journal={ICLR},
year={2021}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。