vit-base-patch16-384オープンソース画像分類モデル - 無料で利用可能で高精度な画像分類をサポート

ホーム

Vit Base Patch16 384

googleによって開発

Vision Transformer（ViT）はTransformerアーキテクチャに基づく画像分類モデルで、最初にImageNet-21kで事前トレーニングされ、その後ImageNetでファインチューニングされます。

画像分類オープンソースライセンス:Apache-2.0 #高解像度画像分類 #Transformerアーキテクチャ #ImageNetファインチューニング

ダウンロード数 30.30k

リリース時間 : 3/2/2022

モデル概要

このモデルは画像を固定サイズのパッチに分割し、Transformerエンコーダーを適用して画像分類を行い、1,000のImageNetカテゴリをサポートします。

モデル特徴

Transformerベースの画像処理

画像を16x16のパッチに分割しTransformerエンコーダーを適用することで、従来のCNNの画像処理における限界を突破しました。

大規模事前トレーニング

最初にImageNet-21k（1400万画像）で事前トレーニングし、その後ImageNet（100万画像）でファインチューニングすることで、豊富な画像特徴表現を学習します。

高解像度ファインチューニング

ファインチューニング時には384x384解像度を使用し、事前トレーニング時の224x224解像度と比較してより詳細な画像特徴を捉えることができます。

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

画像分類

入力画像を1,000のImageNetカテゴリのいずれかに分類します。

ImageNetデータセットで優れた性能を発揮します。

🚀 Vision Transformer (base-sized model)

Vision Transformer (ViT) は、解像度224x224の ImageNet-21k（1400万枚の画像、21,843クラス）で事前学習され、解像度384x384の ImageNet 2012（100万枚の画像、1,000クラス）でファインチューニングされたモデルです。このモデルは、Dosovitskiy らによる論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale で紹介され、このリポジトリで最初に公開されました。ただし、重みは Ross Wightman によって timm リポジトリから変換されたもので、彼はすでに重みを JAX から PyTorch に変換しています。彼に感謝します。

免責事項: ViT を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードは Hugging Face チームによって作成されました。

✨ 主な機能

Vision Transformer (ViT) は、教師あり学習で大量の画像コレクション、具体的には解像度224x224ピクセルの ImageNet-21k で事前学習されたトランスフォーマーエンコーダモデル（BERT のような）です。次に、このモデルは、100万枚の画像と1,000クラスから構成されるデータセットである ImageNet（ILSVRC2012 とも呼ばれる）で、解像度384x384でファインチューニングされました。

画像は、固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加します。

モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習させることができます。通常、[CLS] トークンの上に線形レイヤーを配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

🚀 クイックスタート

このモデルは画像分類に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-384')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-384')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

現在、特徴抽出器とモデルの両方が PyTorch をサポートしています。Tensorflow と JAX/FLAX は間もなくサポートされる予定で、ViTFeatureExtractor の API は変更される可能性があります。

📦 インストール

このセクションでは、具体的なインストール手順が原ドキュメントに記載されていないため省略します。

📚 ドキュメント

モデルの説明

想定される用途と制限

このモデルは画像分類に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

学習データ

ViT モデルは、1400万枚の画像と21kクラスから構成される ImageNet-21k で事前学習され、100万枚の画像と1kクラスから構成される ImageNet でファインチューニングされました。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細は、こちらを参照してください。

画像は、同じ解像度（事前学習時は224x224、ファインチューニング時は384x384）にリサイズ/リスケールされ、RGBチャンネル全体で平均 (0.5, 0.5, 0.5) と標準偏差 (0.5, 0.5, 0.5) で正規化されます。

事前学習

モデルは TPUv3 ハードウェア（8コア）で学習されました。すべてのモデルバリアントは、バッチサイズ4096と学習率ウォームアップ10kステップで学習されます。ImageNet の場合、著者らはグローバルノルム1で勾配クリッピングを追加で適用することが有益であることを見出しました。事前学習の解像度は224です。

評価結果

いくつかの画像分類ベンチマークの評価結果については、元の論文の表2と表5を参照してください。ファインチューニングでは、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを増やすと、パフォーマンスが向上します。

BibTeX エントリと引用情報

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}