deit - base - patch16 - 384オープンソース画像分類モデル：効率的な訓練で画像を高精度に識別します

ホーム

Deit Base Patch16 384

facebookによって開発

DeiTは効率的に訓練されたVision Transformerモデルで、ImageNet - 1kデータセット上で384x384の解像度で事前学習と微調整が行われ、画像分類タスクに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #ViTの効率的な訓練 #384の高解像度 #画像分類

ダウンロード数 442

リリース時間 : 3/2/2022

モデル概要

このモデルは、より効率的に訓練されたVision Transformer（ViT）で、アテンション機構と蒸留技術を通じて訓練プロセスを最適化し、主に画像分類タスクに使用されます。

モデル特徴

効率的な訓練

アテンション機構と蒸留技術を通じて訓練プロセスを最適化し、データの必要量を減らします。

高解像度対応

384x384の解像度の入力をサポートし、分類精度を向上させます。

軽量アーキテクチャ

基本モデルのパラメータ数は86Mで、中規模のデプロイに適しています。

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

ImageNet分類

画像を1000のImageNetカテゴリの1つに分類します。

Top - 1精度82.9%、Top - 5精度96.2%。

🚀 データ効率の高い画像トランスフォーマー（ベースサイズのモデル）

データ効率の高い画像トランスフォーマー（DeiT）モデルは、解像度384x384のImageNet - 1k（100万枚の画像、1000クラス）で事前学習および微調整されています。このモデルは、Touvronらによる論文 Training data-efficient image transformers & distillation through attention で初めて紹介され、このリポジトリで最初に公開されました。ただし、重みはRoss Wightmanによる timmリポジトリから変換されています。

免責事項: DeiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、画像分類に使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルは、より効率的に学習されたViTモデルであるため、ViTModelまたはViTForImageClassificationに組み込むことができます。ただし、モデルはDeiTFeatureExtractorを使用してデータが準備されることを期待しています。ここではAutoFeatureExtractorを使用しており、これはモデル名に基づいて適切な特徴抽出器を自動的に使用します。

以下は、このモデルを使用してCOCO 2017データセットの画像を1000のImageNetクラスのいずれかに分類する方法です。

from transformers import AutoFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('facebook/deit-base-patch16-384')
model = ViTForImageClassification.from_pretrained('facebook/deit-base-patch16-384')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。TensorflowとJAX/FLAXは近日公開予定です。

✨ 主な機能

このモデルは、実際にはより効率的に学習されたVision Transformer（ViT）です。

Vision Transformer（ViT）は、トランスフォーマーエンコーダモデル（BERTのような）で、解像度224で事前学習され、解像度384で大規模な画像コレクション（ImageNet - 1k）で教師あり学習により微調整されています。

画像は、固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。分類タスクに使用するために、シーケンスの先頭に [CLS] トークンも追加されます。また、シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。

モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して標準的な分類器をトレーニングすることができます。通常、[CLS] トークンの上に線形層を配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

📦 インストール

このセクションでは、インストールに関する具体的な手順が提供されていません。

📚 ドキュメント

モデルの説明

このモデルは、より効率的に学習されたVision Transformer（ViT）です。

想定される用途と制限

このモデルは、画像分類に使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

🔧 技術詳細

学習データ

ViTモデルは、ImageNet - 1k で事前学習されています。これは、100万枚の画像と1000クラスから構成されるデータセットです。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細は、ここで確認できます。

推論時には、画像は同じ解像度（438x438）にリサイズ/リスケールされ、384x384で中央切り抜きされ、ImageNetの平均と標準偏差を使用してRGBチャンネル全体で正規化されます。

事前学習

このモデルは、単一の8GPUノードで3日間学習されました。事前学習の解像度は224です。すべてのハイパーパラメータ（バッチサイズや学習率など）については、元の論文の表9を参照してください。

評価結果

モデル	ImageNet top - 1精度	ImageNet top - 5精度	パラメータ数	URL
DeiT - tiny	72.2	91.1	5M	https://huggingface.co/facebook/deit - tiny - patch16 - 224
DeiT - small	79.9	95.0	22M	https://huggingface.co/facebook/deit - small - patch16 - 224
DeiT - base	81.8	95.6	86M	https://huggingface.co/facebook/deit - base - patch16 - 224
DeiT - tiny distilled	74.5	91.9	6M	https://huggingface.co/facebook/deit - tiny - distilled - patch16 - 224
DeiT - small distilled	81.2	95.4	22M	https://huggingface.co/facebook/deit - small - distilled - patch16 - 224
DeiT - base distilled	83.4	96.5	87M	https://huggingface.co/facebook/deit - base - distilled - patch16 - 224
DeiT - base 384	82.9	96.2	87M	https://huggingface.co/facebook/deit - base - patch16 - 384
DeiT - base distilled 384 (1000エポック)	85.2	97.2	88M	https://huggingface.co/facebook/deit - base - distilled - patch16 - 384

微調整に関しては、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

BibTeXエントリと引用情報

@misc{touvron2021training,
      title={Training data-efficient image transformers & distillation through attention}, 
      author={Hugo Touvron and Matthieu Cord and Matthijs Douze and Francisco Massa and Alexandre Sablayrolles and Hervé Jégou},
      year={2021},
      eprint={2012.12877},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}