🚀 vit_large_patch16_224.mae のモデルカード
Vision Transformer (ViT) の画像特徴抽出モデルです。Self-Supervised Masked Autoencoder (MAE) 手法を用いて ImageNet-1k データセットで事前学習されています。
🚀 クイックスタート
このモデルは、画像分類や画像埋め込みのタスクに使用できます。以下に具体的な使用例を示します。
✨ 主な機能
- 画像分類タスクに適用可能
- 画像埋め込みを生成することができる
📦 インストール
このモデルは timm
ライブラリを使用しています。timm
をインストールすることで利用できます。
pip install timm
💻 使用例
基本的な使用法
画像分類
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model('vit_large_patch16_224.mae', pretrained=True)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)
画像埋め込み
from urllib.request import urlopen
from PIL import Image
import timm
img = Image.open(urlopen(
'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
model = timm.create_model(
'vit_large_patch16_224.mae',
pretrained=True,
num_classes=0,
)
model = model.eval()
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
output = model(transforms(img).unsqueeze(0))
output = model.forward_features(transforms(img).unsqueeze(0))
output = model.forward_head(output, pre_logits=True)
📚 ドキュメント
モデル詳細
属性 |
详情 |
モデルタイプ |
画像分類 / 特徴抽出バックボーン |
パラメータ数 (M) |
303.3 |
GMACs |
61.6 |
活性化関数の出力数 (M) |
63.5 |
画像サイズ |
224 x 224 |
関連論文 |
- Masked Autoencoders Are Scalable Vision Learners: https://arxiv.org/abs/2111.06377 - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2 |
事前学習データセット |
ImageNet-1k |
オリジナルリポジトリ |
https://github.com/facebookresearch/mae |
モデル比較
timm の モデル結果 でこのモデルのデータセットと実行時間のメトリクスを確認できます。
📄 ライセンス
このモデルは CC BY-NC 4.0 ライセンスの下で提供されています。
📚 引用
@Article{MaskedAutoencoders2021,
author = {Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Doll{'a}r and Ross Girshick},
journal = {arXiv:2111.06377},
title = {Masked Autoencoders Are Scalable Vision Learners},
year = {2021},
}
@article{dosovitskiy2020vit,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
journal={ICLR},
year={2021}
}
@misc{rw2019timm,
author = {Ross Wightman},
title = {PyTorch Image Models},
year = {2019},
publisher = {GitHub},
journal = {GitHub repository},
doi = {10.5281/zenodo.4414861},
howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}