🚀 vit_base_r50_s16_224.orig_in21k
このモデルは、ResNetとVision Transformer (ViT) を組み合わせたハイブリッド画像分類モデルです。論文の著者によってImageNet-21kでJAXを使用して事前学習され、Ross WightmanによってPyTorchに移植されました。このモデルには分類ヘッドがなく、特徴抽出や微調整にのみ使用できます。
🚀 クイックスタート
このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下のセクションでは、具体的な使用方法を説明します。
✨ 主な機能
- ResNetとViTを組み合わせたハイブリッドアーキテクチャ
- ImageNet-21kで事前学習された重みを持つ
- 分類ヘッドがなく、特徴抽出や微調整に最適
📦 インストール
このモデルを使用するには、timm
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install timm
💻 使用例
基本的な使用法
画像分類
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('vit_base_r50_s16_224.orig_in21k', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
画像埋め込み
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'vit_base_r50_s16_224.orig_in21k',
pretrained=True,
num_classes=0,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
📚 ドキュメント
モデルの詳細
モデルの比較
timmのモデル結果で、このモデルのデータセットと実行時間のメトリクスを確認できます。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で公開されています。
📚 引用
@article{dosovitskiy2020vit,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
journal={ICLR},
year={2021}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}