vit_base_r50_s16_224.orig_in21kオープンソース画像分類モデル - 特徴抽出と微調整シナリオに適しています

ホーム

Vit Base R50 S16 224.orig In21k

timmによって開発

ResNetとVision Transformerを組み合わせたハイブリッド画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #混合ViT-ResNetアーキテクチャ #ImageNet-21k事前学習 #分類ヘッドなしの特徴抽出

ダウンロード数 876

リリース時間 : 12/23/2022

モデル概要

このモデルはResNetとVision Transformer（ViT）を組み合わせたハイブリッド画像分類モデルで、論文著者がJAXフレームワークでImageNet-21kを用いて事前学習した後、PyTorchに移植されました。分類ヘッドを含まず、特徴抽出やファインチューニングに適しています。

モデル特徴

ハイブリッドアーキテクチャ

ResNetとVision Transformerの利点を組み合わせ、画像特徴抽出能力を向上させています。

事前学習モデル

大規模データセットImageNet-21kで事前学習されており、強力な特徴抽出能力を持っています。

柔軟な応用

分類ヘッドを含まないため、特徴抽出やファインチューニングに適しています。

モデル能力

画像分類

画像特徴抽出

使用事例

コンピュータビジョン

画像分類

このモデルを使用して画像分類タスクを実行し、複数のカテゴリ認識をサポートします。

特徴抽出

画像の高レベル特徴を抽出し、物体検出や画像セグメンテーションなどの後続タスクに使用します。

🚀 vit_base_r50_s16_224.orig_in21k

このモデルは、ResNetとVision Transformer (ViT) を組み合わせたハイブリッド画像分類モデルです。論文の著者によってImageNet-21kでJAXを使用して事前学習され、Ross WightmanによってPyTorchに移植されました。このモデルには分類ヘッドがなく、特徴抽出や微調整にのみ使用できます。

🚀 クイックスタート

このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下のセクションでは、具体的な使用方法を説明します。

✨ 主な機能

ResNetとViTを組み合わせたハイブリッドアーキテクチャ
ImageNet-21kで事前学習された重みを持つ
分類ヘッドがなく、特徴抽出や微調整に最適

📦 インストール

このモデルを使用するには、timm ライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install timm

💻 使用例

基本的な使用法

画像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_r50_s16_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

画像埋め込み

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_r50_s16_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 197, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	画像分類 / 特徴抽出バックボーン
パラメータ数 (M)	97.9
GMACs	20.9
活性化関数の出力数 (M)	27.9
画像サイズ	224 x 224
論文	An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
訓練データセット	ImageNet-21k
オリジナルのリポジトリ	https://github.com/google-research/vision_transformer

モデルの比較

timmのモデル結果で、このモデルのデータセットと実行時間のメトリクスを確認できます。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で公開されています。

📚 引用

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}