vit-large-patch16-224-in21kオープンソースビジョンモデル - 画像特徴抽出とタスクの微調整に無料で利用可能

ホーム

Vit Large Patch16 224 In21k

googleによって開発

ImageNet-21kデータセットで事前学習されたVision Transformerモデルで、画像特徴抽出や下流タスクのファインチューニングに適しています。

画像分類オープンソースライセンス:Apache-2.0 #ImageNet-21k事前学習 #224x224解像度 #画像埋め込み抽出

ダウンロード数 92.63k

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTに類似したTransformerエンコーダーで、ImageNet-21kデータセットで教師あり学習により事前学習されており、主に画像特徴抽出や分類タスクに使用されます。

モデル特徴

ImageNet-21k事前学習

1400万枚の画像と21,843クラスを含むImageNet-21kデータセットで事前学習されており、強力な特徴抽出能力を持っています。

16x16画像パッチ分割

画像を16x16ピクセルの固定サイズパッチに分割し、線形埋め込みを通じてTransformerエンコーダーに入力します。

事前学習済みプーラーを含む

モデルには事前学習済みのプーラーが含まれており、下流タスクの特徴抽出に直接使用でき、ゼロから訓練する必要がありません。

モデル能力

画像特徴抽出

画像分類

下流タスクのファインチューニング

使用事例

コンピュータビジョン

画像分類

事前学習モデルに線形層を追加し、特定の画像分類タスクに使用します。

ImageNetなどのベンチマークデータセットで優れた性能を発揮します。

特徴抽出

画像の特徴表現を抽出し、物体検出や画像セグメンテーションなどの他の視覚タスクに使用します。

🚀 ビジョントランスフォーマー (大型モデル)

画像認識のためのトランスフォーマーベースのモデルで、ImageNet-21kデータセットで事前学習されています。

🚀 クイックスタート

Vision Transformer (ViT) は、224x224ピクセルの解像度で、ImageNet-21k（1400万枚の画像、21,843クラス）という大規模な画像コレクションで教師あり学習により事前学習されたトランスフォーマーエンコーダモデル（BERTライク）です。このモデルは、Dosovitskiyらによる論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale で導入され、最初はこのリポジトリで公開されました。ただし、重みはRoss Wightmanによって timmリポジトリから変換されたもので、彼がすでに重みをJAXからPyTorchに変換しています。彼に感謝します。

なお、ViTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

Vision Transformer (ViT) は、画像を固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力し、線形埋め込みを行います。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。そして、トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、絶対位置埋め込みを追加します。

このモデルは、Googleの研究者によって微調整されたヘッドを提供していませんが、事前学習されたプーラーを含んでおり、下流のタスク（画像分類など）に使用できます。

モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出することができます。たとえば、ラベル付きの画像データセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習することができます。通常、[CLS] トークンの最後の隠れ状態を画像全体の表現と見なし、このトークンの上に線形レイヤーを配置します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('google/vit-large-patch16-224-in21k')
model = ViTModel.from_pretrained('google/vit-large-patch16-224-in21k')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。TensorflowとJAX/FLAXも間もなくサポートされる予定で、ViTFeatureExtractorのAPIは変更される可能性があります。

📚 ドキュメント

モデルの説明

Vision Transformer (ViT) は、224x224ピクセルの解像度で、ImageNet-21kという大規模な画像コレクションで教師あり学習により事前学習されたトランスフォーマーエンコーダモデル（BERTライク）です。

想定される使用方法と制限事項

生のモデルを使用して画像を埋め込むこともできますが、主に下流のタスクで微調整することを想定しています。

学習データ

ViTモデルは、ImageNet-21k という1400万枚の画像と21kクラスからなるデータセットで事前学習されています。

学習手順

前処理

学習/検証時の画像の前処理の詳細は、こちらを参照してください。画像は同じ解像度（224x224）にリサイズ/リスケールされ、RGBチャネル全体で平均 (0.5, 0.5, 0.5) と標準偏差 (0.5, 0.5, 0.5) で正規化されます。

事前学習

モデルはTPUv3ハードウェア（8コア）で学習されました。すべてのモデルバリアントは、バッチサイズ4096と学習率ウォームアップ10kステップで学習されます。ImageNetの場合、著者らはグローバルノルム1で勾配クリッピングを追加で適用することが有益であることを見出しました。事前学習の解像度は224です。

評価結果

いくつかの画像分類ベンチマークでの評価結果については、元の論文の表2と表5を参照してください。微調整の場合は、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

BibTeXエントリと引用情報

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}