vit-base-patch16-224オープンソース画像分類モデル - 事前学習と微調整による的確な画像認識サポート

ホーム

Vit Base Patch16 224

googleによって開発

ImageNet - 21kで事前学習し、ImageNetでファインチューニングしたビジュアルトランスフォーマーモデルで、画像分類タスクに使用されます。

画像分類オープンソースライセンス:Apache-2.0 #画像分類 - 千クラス #ViTアーキテクチャ #ImageNetファインチューニング

ダウンロード数 4.8M

リリース時間 : 3/2/2022

モデル概要

ビジュアルトランスフォーマー（ViT）は、BERTに似たトランスフォーマーエンコーダモデルで、画像を固定サイズのパッチシーケンスに分割して処理し、画像分類タスクに適しています。

モデル特徴

トランスフォーマーベースのビジュアルモデル

画像をパッチシーケンスとして処理し、トランスフォーマーアーキテクチャを利用して効率的な特徴抽出を行います。

大規模事前学習

ImageNet - 21k（1400万枚の画像、21kのクラス）で事前学習され、強力な特徴学習能力を持ちます。

高解像度処理

224x224ピクセルの解像度の入力をサポートし、細粒度の画像特徴を捉えることができます。

モデル能力

画像分類

特徴抽出

ビジュアル表現学習

使用事例

汎用画像認識

物体分類

画像を1000のImageNetクラスのいずれかに分類します。

ImageNet検証セットで高い精度を達成します。

特徴抽出

下流タスクのために画像特徴を抽出します。

他のビジョンタスクの事前学習モデルとして使用できます。

🚀 ビジョントランスフォーマー (ベースサイズのモデル)

このモデルは、224x224の解像度でImageNet - 21k（1400万枚の画像、21,843クラス）で事前学習され、同じ解像度でImageNet 2012（100万枚の画像、1,000クラス）でファインチューニングされたVision Transformer (ViT) モデルです。このモデルは、Dosovitskiyらによる論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale で紹介され、このリポジトリで最初に公開されました。ただし、重みはRoss Wightmanによって timmリポジトリから変換され、彼がすでにJAXからPyTorchに重みを変換しています。彼に感謝します。

免責事項: ViTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは画像分類に使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

画像を固定サイズのパッチ列としてモデルに入力し、画像の内部表現を学習します。
事前学習したモデルの上に線形層を配置することで、下流タスクの特徴抽出に利用できます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です。

from transformers import ViTImageProcessor, ViTForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

モデルの説明

Vision Transformer (ViT) は、224x224ピクセルの解像度で、教師あり学習により大量の画像コレクション（ImageNet - 21k）で事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。次に、このモデルは、同じ解像度で100万枚の画像と1,000クラスからなるデータセットであるImageNet（ILSVRC2012とも呼ばれる）でファインチューニングされました。

画像は、固定サイズのパッチ列（解像度16x16）としてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。例えば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して、標準的な分類器を学習できます。通常、[CLS] トークンの上に線形層を配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

想定される用途と制限

このモデルは画像分類に使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

学習データ

ViTモデルは、1400万枚の画像と21kクラスからなる ImageNet - 21k で事前学習され、100万枚の画像と1kクラスからなる ImageNet でファインチューニングされました。

学習手順

前処理

学習/検証中の画像の前処理の詳細は、こちらを参照してください。

画像は同じ解像度（224x224）にリサイズ/リスケールされ、RGBチャネル全体で平均 (0.5, 0.5, 0.5) と標準偏差 (0.5, 0.5, 0.5) で正規化されます。

事前学習

このモデルはTPUv3ハードウェア（8コア）で学習されました。すべてのモデルバリアントは、バッチサイズ4096と学習率ウォームアップ10kステップで学習されます。ImageNetの場合、著者らはグローバルノルム1で勾配クリッピングを追加で適用することが有益であることを見出しました。学習解像度は224です。

評価結果

いくつかの画像分類ベンチマークの評価結果については、元の論文の表2と表5を参照してください。ファインチューニングの場合、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

🔧 技術詳細

モデルタイプ: Vision Transformer (ViT)
学習データ: ImageNet - 21k、ImageNet

属性	详情
モデルタイプ	Vision Transformer (ViT)
学習データ	ImageNet - 21k、ImageNet

BibTeXエントリと引用情報

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}