vit-large-patch16-384オープンソース画像分類モデル - 事前学習と微調整による高精度な画像識別

ホーム

Vit Large Patch16 384

googleによって開発

ビジョントランスフォーマー（ViT）は、トランスフォーマーアーキテクチャに基づく画像分類モデルで、最初にImageNet-21kで事前学習され、その後ImageNetでファインチューニングされます。

画像分類オープンソースライセンス:Apache-2.0 #高解像度画像分類 #ImageNetファインチューニング #トランスフォーマーエンコーダー

ダウンロード数 161.29k

リリース時間 : 3/2/2022

モデル概要

このモデルはトランスフォーマーエンコーダー構造を使用し、画像を固定サイズのパッチに分割して処理します。主に画像分類タスクに使用されます。

モデル特徴

トランスフォーマーベースのビジョンモデル

自然言語処理で成功したトランスフォーマーアーキテクチャをコンピュータビジョンタスクに適用

大規模事前学習

最初にImageNet-21k（1400万画像）で事前学習し、その後ImageNet（100万画像）でファインチューニング

高解像度処理

ファインチューニング段階で384x384解像度を使用し、事前学習の224x224解像度よりも高い

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

画像分類

画像を1000のImageNetカテゴリのいずれかに分類

ImageNetベンチマークで優れた性能を発揮

🚀 ビジョントランスフォーマー (大型モデル)

ビジョントランスフォーマー（ViT）は、画像認識においてTransformerエンコーダを用いたモデルで、大規模な画像データセットで事前学習され、下流タスクに活用できます。

🚀 クイックスタート

ビジョントランスフォーマー（ViT）は、Transformerエンコーダモデル（BERTのような）で、大規模な画像コレクションであるImageNet - 21kを用いて教師あり学習で事前学習され、解像度は224x224ピクセルです。その後、100万枚の画像と1,000クラスからなるImageNet（ILSVRC2012とも呼ばれる）で、解像度384x384でファインチューニングされました。

✨ 主な機能

画像分類タスクに適用可能です。
事前学習により画像の内部表現を学習し、下流タスクの特徴抽出に利用できます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です。

from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-large-patch16-384')
model = ViTForImageClassification.from_pretrained('google/vit-large-patch16-384')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

高度な使用法

現在、特徴抽出器とモデルは両方ともPyTorchをサポートしています。TensorflowとJAX/FLAXは間もなくサポートされる予定で、ViTFeatureExtractorのAPIは変更される可能性があります。

📚 ドキュメント

モデルの説明

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に[CLS]トークンを追加します。シーケンスをTransformerエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を訓練することができます。通常、[CLS]トークンの上に線形レイヤーを配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

想定される用途と制限

生のモデルを画像分類に使用することができます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

🔧 技術詳細

訓練データ

ViTモデルは、1400万枚の画像と21kクラスからなるImageNet - 21kで事前学習され、100万枚の画像と1kクラスからなるImageNetでファインチューニングされました。

訓練手順

前処理

訓練/検証中の画像の前処理の正確な詳細は、こちらにあります。

画像は同じ解像度（事前学習時は224x224、ファインチューニング時は384x384）にリサイズ/リスケールされ、RGBチャンネル全体で平均(0.5, 0.5, 0.5)、標準偏差(0.5, 0.5, 0.5)で正規化されます。

事前学習

モデルはTPUv3ハードウェア（8コア）で訓練されました。すべてのモデルバリアントは、バッチサイズ4096と学習率ウォームアップ10kステップで訓練されます。ImageNetに関しては、著者らはグローバルノルム1で勾配クリッピングを追加で適用することが有益であることを発見しました。事前学習の解像度は224です。

評価結果

いくつかの画像分類ベンチマークにおける評価結果については、元の論文の表2と表5を参照してください。ファインチューニングに関しては、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを増やすと、パフォーマンスが向上します。

BibTeXエントリと引用情報

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}