vit_base_patch32_224.orig_in21k オープンソース画像分類モデル - 特徴抽出とモデルの微調整をサポート

ホーム

Vit Base Patch32 224.orig In21k

timmによって開発

Vision Transformer (ViT)ベースの画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #ViTバックボーンネットワーク #ImageNet21k事前学習 #分類ヘッドなしの特徴抽出

ダウンロード数 438

リリース時間 : 11/17/2023

モデル概要

このモデルはVision Transformerアーキテクチャに基づく画像分類モデルで、論文著者がImageNet-21kデータセットでJAXを使用して事前学習し、その後PyTorchに移植されました。モデルには分類ヘッドが含まれておらず、特徴抽出や下流タスクのファインチューニングに適しています。

モデル特徴

Transformerアーキテクチャベース

Vision Transformerアーキテクチャを採用し、画像を32x32のパッチに分割して処理するため、大規模な画像認識タスクに適しています。

事前学習済み重み

ImageNet-21k大規模データセットで事前学習されており、強力な特徴抽出能力を備えています。

柔軟な特徴抽出

モデルには分類ヘッドが含まれていないため、特徴抽出や下流タスクのファインチューニングに直接使用できます。

モデル能力

画像特徴抽出

画像分類

転移学習

使用事例

コンピュータビジョン

画像分類

事前学習モデルを使用して画像分類タスクを実行するか、特定ドメインの分類器をファインチューニングします。

特徴抽出

画像の高レベル特徴表現を抽出し、物体検出や画像検索などの下流タスクに使用します。

🚀 vit_base_patch32_224.orig_in21k

Vision Transformer (ViT)の画像分類モデルです。論文の著者によってJAXでImageNet - 21k上で事前学習され、Ross WightmanによってPyTorchに移植されました。このモデルには分類ヘッドがなく、特徴抽出と微調整にのみ有用です。

🚀 クイックスタート

このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下のセクションで具体的な使用方法を説明します。

✨ 主な機能

ImageNet - 21kで事前学習された画像分類モデル。
分類ヘッドがなく、特徴抽出と微調整に最適。

📦 インストール

このモデルを使用するには、timmライブラリが必要です。以下のコマンドでインストールできます。

pip install timm

💻 使用例

基本的な使用法

画像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_patch32_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

画像埋め込み

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_patch32_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 50, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	画像分類 / 特徴抽出バックボーン
モデル統計量	Params (M): 87.5 GMACs: 4.4 Activations (M): 4.2 画像サイズ: 224 x 224
論文	An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2
データセット	ImageNet - 21k
オリジナル	https://github.com/google-research/vision_transformer

モデルの比較

timmのモデル結果でこのモデルのデータセットとランタイムメトリクスを調べることができます。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

📚 引用

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}