vit_huge_patch14_224.maeオープンソース画像特徴抽出モデル - 大規模画像特徴抽出を効率的に完了する

ホーム

Vit Huge Patch14 224.mae

timmによって開発

視覚Transformer(ViT)に基づく大規模画像特徴抽出モデルで、自己教師ありマスク自己符号化器(MAE)手法を用いてImageNet-1kデータセットで事前学習済み

画像分類

Transformers

#自己教師あり視覚Transformer #大規模画像特徴抽出 #マスク自己符号化事前学習

ダウンロード数 104

リリース時間 : 5/9/2023

モデル概要

これは視覚Transformerアーキテクチャに基づく画像特徴抽出モデルで、主に画像分類や特徴抽出タスクに使用されます。マスク自己符号化器(MAE)の自己教師あり学習手法で事前学習されており、画像の高レベルな特徴表現を効果的に捉えることができます。

モデル特徴

大規模視覚Transformer

ViT-Hugeアーキテクチャを採用し、6.3億パラメータを含み、複雑な視覚特徴を処理可能

自己教師あり事前学習

マスク自己符号化器(MAE)手法を使用した事前学習で、大量の注釈データを必要としない

高解像度処理

224×224ピクセルの画像入力をサポートし、より詳細な視覚特徴を捉えることが可能

モデル能力

画像特徴抽出

画像分類

視覚表現学習

使用事例

コンピュータビジョン

画像分類

画像内容の分類に使用可能（物体認識、シーン認識など）

特徴抽出

下流の視覚タスクに高品質な画像表現を提供する特徴抽出器として使用可能

🚀 vit_huge_patch14_224.mae のモデルカード

Vision Transformer (ViT) の画像特徴抽出モデルです。Self-Supervised Masked Autoencoder (MAE) 手法を用いて ImageNet-1k で事前学習されています。

🚀 クイックスタート

このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下のセクションで具体的な使用方法を説明します。

✨ 主な機能

ImageNet-1k で事前学習された画像特徴抽出モデル。
画像分類と画像埋め込みのタスクに対応。

📚 ドキュメント

モデル詳細

属性	詳情
モデルタイプ	画像分類 / 特徴抽出バックボーン
モデル統計量	Params (M): 630.8 GMACs: 167.4 Activations (M): 139.4 画像サイズ: 224 x 224
論文	Masked Autoencoders Are Scalable Vision Learners: https://arxiv.org/abs/2111.06377 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2
事前学習データセット	ImageNet-1k
オリジナル	https://github.com/facebookresearch/mae

モデルの比較

timm のモデル結果でこのモデルのデータセットと実行時メトリクスを調べることができます。

引用

@Article{MaskedAutoencoders2021,
  author  = {Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Doll{'a}r and Ross Girshick},
  journal = {arXiv:2111.06377},
  title   = {Masked Autoencoders Are Scalable Vision Learners},
  year    = {2021},
}

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}

💻 使用例

基本的な使用法

画像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_huge_patch14_224.mae', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

画像埋め込み

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_huge_patch14_224.mae',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 257, 1280) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor