vit_base_patch16_224.orig_in21kオープンソース画像分類モデル - 特徴抽出とファインチューニングの最適な選択肢

ホーム

Vit Base Patch16 224.orig In21k

timmによって開発

Vision Transformerに基づく画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #画像特徴抽出 #ViTバックボーンネットワーク #ImageNet-21k事前学習

ダウンロード数 23.07k

リリース時間 : 11/16/2023

モデル概要

これはGoogle Researchチームによって開発され、ImageNet-21kデータセットで事前学習されたVision Transformerアーキテクチャに基づく画像分類モデルです。モデルには分類ヘッドが含まれておらず、特徴抽出のバックボーンネットワークとして、または下流タスクのファインチューニングに適しています。

モデル特徴

大規模事前学習

ImageNet-21k大規模データセットで事前学習されており、強力な特徴抽出能力を持っています

Transformerアーキテクチャ

純粋なTransformerアーキテクチャを使用して画像を処理し、画像を16x16のパッチに分割して処理します

柔軟な応用

特徴抽出のバックボーンネットワークとして、または下流タスクのファインチューニングに使用でき、分類ヘッドの削除をサポートしています

モデル能力

画像特徴抽出

画像分類

転移学習

使用事例

コンピュータビジョン

画像分類

画像分類タスクに使用され、特定の分類ニーズに合わせてモデルを微調整できます

特徴抽出

バックボーンネットワークとして画像特徴を抽出し、物体検出や画像セグメンテーションなどの下流タスクに使用します

🚀 vit_base_patch16_224.orig_in21k

Vision Transformer (ViT)を用いた画像分類モデルです。論文の著者によってImageNet - 21kでJAXで事前学習され、Ross WightmanによってPyTorchに移植されました。このモデルには分類ヘッドがなく、特徴抽出や微調整にのみ有用です。

🚀 クイックスタート

このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下に具体的な使用方法を示します。

✨ 主な機能

ImageNet - 21kで事前学習された画像分類モデル。
分類ヘッドがなく、特徴抽出や微調整に最適。

📦 インストール

このモデルを使用するには、timmライブラリが必要です。以下のコマンドでインストールできます。

pip install timm

💻 使用例

基本的な使用法

画像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_patch16_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

画像埋め込み

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_patch16_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 197, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	画像分類 / 特徴抽出バックボーン
パラメータ数 (M)	85.8
GMACs	16.9
アクティベーション数 (M)	16.5
画像サイズ	224 x 224
論文	An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2
訓練データセット	ImageNet - 21k
オリジナルリポジトリ	https://github.com/google-research/vision_transformer

モデルの比較

timmのモデル結果で、このモデルのデータセットとランタイムメトリクスを調べることができます。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

引用

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}