vit_base_patch16_224.maeオープンソース画像特徴抽出モデル - 画像特徴の高精度抽出を無料でサポート

ホーム

Vit Base Patch16 224.mae

timmによって開発

Vision Transformer(ViT)ベースの画像特徴抽出モデル。自己教師ありマスク自己エンコーダ(MAE)手法を用いてImageNet-1kデータセットで事前学習済み

画像分類

Transformers

#自己教師あり視覚特徴 #画像セマンティックエンコーディング #ViTバックボーンネットワーク

ダウンロード数 23.63k

リリース時間 : 5/9/2023

モデル概要

これはVision Transformerアーキテクチャに基づく画像特徴抽出モデルで、主に画像分類や特徴抽出タスクに使用されます。マスク自己エンコーダ(MAE)による自己教師あり学習方法で事前学習されており、効果的に画像特徴を捉えることができます。

モデル特徴

自己教師あり事前学習

マスク自己エンコーダ(MAE)手法による自己教師あり事前学習で、大量の注釈データが不要

効率的な特徴抽出

Vision Transformerアーキテクチャに基づき、効果的に画像特徴を抽出可能

中規模モデル

8580万パラメータ規模で、計算効率と性能のバランスを実現

モデル能力

画像特徴抽出

画像分類

視覚表現学習

使用事例

コンピュータビジョン

画像分類

物体カテゴリ認識など、画像の分類に使用可能

特徴抽出

他の視覚タスクの特徴抽出器として利用可能

🚀 vit_base_patch16_224.mae

Vision Transformer (ViT)を用いた画像特徴抽出モデルです。Self-Supervised Masked Autoencoder (MAE) 手法を使ってImageNet-1kで事前学習されています。

🚀 クイックスタート

このモデルは、Vision Transformer (ViT) をベースにした画像特徴抽出モデルで、Self-Supervised Masked Autoencoder (MAE) 手法を用いてImageNet-1kで事前学習されています。以下に使用例を示します。

✨ 主な機能

ImageNet-1kで事前学習された画像分類/特徴抽出モデル
画像分類と画像埋め込みの両方に使用可能

📦 インストール

このモデルはtimmライブラリを使用しています。以下のコマンドでインストールできます。

pip install timm

💻 使用例

基本的な使用法

画像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_patch16_224.mae', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

画像埋め込み

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_patch16_224.mae',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 197, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	画像分類 / 特徴抽出バックボーン
パラメータ数 (M)	85.8
GMACs	17.6
アクティベーション数 (M)	23.9
画像サイズ	224 x 224
事前学習データセット	ImageNet-1k
オリジナルリポジトリ	https://github.com/facebookresearch/mae
関連論文	Masked Autoencoders Are Scalable Vision Learners An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

モデル比較

timmのモデル結果でこのモデルのデータセットと実行時間のメトリクスを確認できます。

📄 ライセンス

このモデルはCC BY-NC 4.0ライセンスの下で提供されています。

📚 引用

@Article{MaskedAutoencoders2021,
  author  = {Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Doll{'a}r and Ross Girshick},
  journal = {arXiv:2111.06377},
  title   = {Masked Autoencoders Are Scalable Vision Learners},
  year    = {2021},
}

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}