vit-base-patch32-224 - in21kオープンソース画像分類モデル

ホーム

Vit Base Patch32 224 In21k

googleによって開発

このビジュアルトランスフォーマー（ViT）モデルは、ImageNet-21kデータセットで224x224解像度で事前学習されており、画像分類タスクに適しています。

画像分類オープンソースライセンス:Apache-2.0 #ImageNet-21k事前学習 #224x224解像度 #ビジュアルトランスフォーマーアーキテクチャ

ダウンロード数 35.10k

リリース時間 : 3/2/2022

モデル概要

ビジュアルトランスフォーマー（ViT）は、BERTに似たトランスフォーマーエンコーダモデルで、教師あり方式で大量の画像で事前学習され、画像特徴を抽出して下流のタスクに適用できます。

モデル特徴

トランスフォーマーベースのビジュアルモデル

BERTに似たトランスフォーマーエンコーダアーキテクチャを採用して画像を処理し、従来のCNNの制限を突破します。

大規模事前学習

ImageNet-21kデータセット（1400万枚の画像、21,843のカテゴリ）で事前学習され、豊富な画像特徴表現を学習します。

柔軟な下流アプリケーション

事前学習された特徴を抽出して、画像分類、物体検出などの様々な下流のビジュアルタスクに使用できます。

モデル能力

画像特徴抽出

画像分類

ビジュアル表現学習

使用事例

コンピュータビジョン

画像分類

事前学習モデルに分類ヘッドを追加することで、様々な画像分類タスクに使用できます。

ImageNetなどのベンチマークデータセットで優れた性能を発揮します

ビジュアル特徴抽出

画像の高度な特徴表現を抽出して、物体検出、画像セグメンテーションなどの他のビジュアルタスクに使用します。

🚀 Vision Transformer (base-sized model)

Vision Transformer (ViT) は、解像度224x224の ImageNet-21k（1400万枚の画像、21,843クラス）で事前学習されたモデルです。このモデルは、Dosovitskiy らによる論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale で導入され、最初はこのリポジトリで公開されました。ただし、重みは Ross Wightman によって timm リポジトリから変換されたもので、彼がすでに重みを JAX から PyTorch に変換しています。彼に感謝します。

免責事項: ViT を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードは Hugging Face チームによって作成されました。

✨ 主な機能

モデルの説明

Vision Transformer (ViT) は、教師あり学習で大量の画像コレクション、具体的には解像度224x224ピクセルの ImageNet-21k で事前学習されたトランスフォーマーエンコーダモデル（BERT のような）です。

画像は固定サイズのパッチ（解像度32x32）のシーケンスとしてモデルに入力され、線形に埋め込まれます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、絶対位置埋め込みも追加されます。

このモデルは、Google の研究者によって微調整されたヘッドを提供していませんが、事前学習されたプーラーを含んでおり、下流のタスク（画像分類など）に使用できます。

モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出することができます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して、標準的な分類器をトレーニングすることができます。通常、[CLS] トークンの最後の隠れ状態は画像全体の表現と見なすことができるため、このトークンの上に線形層を配置することが一般的です。

想定される使用法と制限

生のモデルを画像分類に使用することができます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

📦 インストール

このモデルを使用するには、transformers ライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('google/vit-base-patch32-224-in21k')
model = ViTModel.from_pretrained('google/vit-base-patch32-224-in21k')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state

TensorFlow および JAX/FLAX での使用方法については、ドキュメントを参照してください。

📚 ドキュメント

トレーニングデータ

ViT モデルは、ImageNet-21k という、1400万枚の画像と21k クラスから構成されるデータセットで事前学習されました。

トレーニング手順

前処理

トレーニング/検証時の画像の前処理の正確な詳細は、こちらで確認できます。

画像は同じ解像度（224x224）にリサイズ/リスケールされ、RGB チャネル全体で平均 (0.5, 0.5, 0.5) と標準偏差 (0.5, 0.5, 0.5) で正規化されます。

事前学習

モデルは TPUv3 ハードウェア（8コア）でトレーニングされました。すべてのモデルバリアントは、バッチサイズ4096と学習率ウォームアップ10kステップでトレーニングされます。ImageNet の場合、著者らはグローバルノルム1で勾配クリッピングを追加で適用することが有益であることを発見しました。事前学習の解像度は224です。

評価結果

いくつかの画像分類ベンチマークでの評価結果については、元の論文の表2と表5を参照してください。微調整の場合、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを増やすと、パフォーマンスが向上します。

BibTeX エントリと引用情報

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}