vit_base_patch8_224.dinoのオープンソース画像特徴モデル - 画像分類と特徴抽出に無料で利用可能

ホーム

Vit Base Patch8 224.dino

timmによって開発

自己教師ありDINO手法で訓練された視覚Transformer（ViT）画像特徴モデルで、画像分類や特徴抽出タスクに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり視覚Transformer #画像特徴抽出 #高精度分類

ダウンロード数 9,287

リリース時間 : 12/22/2022

モデル概要

このモデルは自己教師あり学習DINO手法で訓練された視覚Transformer（ViT）で、主に画像分類や特徴バックボーンネットワークとして使用されます。画像から高品質な特徴表現を抽出でき、様々なコンピュータビジョンタスクに適用可能です。

モデル特徴

自己教師あり学習

DINO自己教師あり学習手法を採用しており、大量の注釈データがなくても効果的な画像表現を学習可能

効率的な特徴抽出

高品質な画像特徴表現を抽出可能で、下流のコンピュータビジョンタスクに適している

ViTアーキテクチャ

視覚Transformerアーキテクチャに基づき、グローバルな受容野と強力なモデリング能力を有する

事前学習モデル

ImageNet-1kデータセットで事前学習済みで、転移学習に直接使用可能

モデル能力

画像分類

画像特徴抽出

コンピュータビジョンタスクのバックボーンネットワーク

使用事例

コンピュータビジョン

画像分類

このモデルを使用して画像を分類

ImageNet-1kなどのベンチマークデータセットで良好な性能

特徴抽出

下流タスク用に画像特徴を抽出

高品質な画像表現を提供

転移学習

特定領域タスクのファインチューニング用の事前学習モデルとして使用

訓練データ要件を減らし、モデル性能を向上

🚀 vit_base_patch8_224.dino モデルカード

Vision Transformer (ViT) を用いた画像特徴抽出モデルです。Self-Supervised DINO 手法で学習されています。

🚀 クイックスタート

このモデルは、画像分類や画像埋め込みなどのタスクに使用できます。以下に具体的な使用例を示します。

✨ 主な機能

画像分類タスクに適用可能
画像埋め込みを生成することができる

📦 インストール

このモデルを使用するには、timm ライブラリが必要です。以下のコマンドでインストールできます。

pip install timm

💻 使用例

基本的な使用法

画像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_patch8_224.dino', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

画像埋め込み

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_patch8_224.dino',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 785, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 ドキュメント

モデル詳細

属性	详情
モデルタイプ	画像分類 / 特徴抽出バックボーン
モデル統計情報	パラメータ数 (M): 85.8 GMACs: 66.9 活性化関数出力 (M): 65.7 画像サイズ: 224 x 224
論文	Emerging Properties in Self-Supervised Vision Transformers: https://arxiv.org/abs/2104.14294 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale: https://arxiv.org/abs/2010.11929v2
事前学習データセット	ImageNet-1k
オリジナル	https://github.com/facebookresearch/dino

モデル比較

timm のモデル結果でこのモデルのデータセットと実行時間のメトリクスを確認できます。

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

📖 引用

@inproceedings{caron2021emerging,
  title={Emerging properties in self-supervised vision transformers},
  author={Caron, Mathilde and Touvron, Hugo and Misra, Ishan and J{'e}gou, Herv{'e} and Mairal, Julien and Bojanowski, Piotr and Joulin, Armand},
  booktitle={Proceedings of the IEEE/CVF international conference on computer vision},
  pages={9650--9660},
  year={2021}
}

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}