deit-tiny-patch16-224オープンソース画像分類モデル - 無料でデプロイして高効率な画像分類を実現

ホーム

Deit Tiny Patch16 224

facebookによって開発

DeiTは効率的に訓練された視覚Transformerモデルで、ImageNet-1kデータセットで事前学習と微調整が行われ、画像分類タスクに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #効率的な画像分類 #軽量Transformer #ImageNet事前学習

ダウンロード数 29.04k

リリース時間 : 3/2/2022

モデル概要

このモデルはより効率的に訓練された視覚Transformer（ViT）で、ImageNet-1kデータセットで教師あり学習による事前学習と微調整が行われ、画像分類タスクに使用できます。

モデル特徴

効率的な訓練

従来の視覚Transformerと比較し、DeiTは注意メカニズムと蒸留技術により、より効率的な訓練を実現しました。

軽量

小型モデルはわずか5Mパラメータで、リソースが限られた環境に適しています。

高精度

ImageNet-1kで72.2%のtop-1精度を達成し、優れた性能を示しています。

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

画像分類

画像を1000のImageNetカテゴリのいずれかに分類します。

ImageNet-1kで72.2%のtop-1精度を達成しました。

🚀 データ効率の高い画像トランスフォーマー (小規模モデル)

データ効率の高い画像トランスフォーマー（DeiT）モデルは、解像度224x224のImageNet - 1k（100万枚の画像、1000クラス）で事前学習および微調整されています。このモデルは、Touvronらによる論文 Training data - efficient image transformers & distillation through attention で初めて紹介され、このリポジトリで最初に公開されました。ただし、重みはRoss Wightmanによる [timmリポジトリ](https://github.com/rwightman/pytorch - image - models) から変換されています。

免責事項: DeiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは画像分類に使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

# このモデルを使ってCOCO 2017データセットの画像を1000のImageNetクラスのいずれかに分類する方法
from transformers import AutoFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained('facebook/deit-tiny-patch16-224')
model = ViTForImageClassification.from_pretrained('facebook/deit-tiny-patch16-224')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# モデルは1000のImageNetクラスのいずれかを予測する
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。TensorflowとJAX/FLAXは近日サポート予定です。

✨ 主な機能

このモデルは、より効率的に学習されたビジョントランスフォーマー（ViT）です。ビジョントランスフォーマー（ViT）は、教師あり学習で大量の画像コレクション、具体的には解像度224x224ピクセルのImageNet - 1kで事前学習および微調整されたトランスフォーマーエンコーダモデル（BERTのような）です。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加します。

モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して標準的な分類器を学習させることができます。通常、[CLS] トークンの上に線形レイヤーを配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

📚 ドキュメント

モデルの説明

想定される用途と制限

このモデルは画像分類に使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

学習データ

ViTモデルは、100万枚の画像と1000クラスから構成される [ImageNet - 1k](http://www.image - net.org/challenges/LSVRC/2012/) で事前学習されています。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細は、ここで確認できます。

推論時には、画像は同じ解像度（256x256）にリサイズ/リスケールされ、224x224で中央クロップされ、ImageNetの平均と標準偏差を使用してRGBチャネル全体で正規化されます。

事前学習

モデルは、単一の8GPUノードで3日間学習されました。学習解像度は224です。すべてのハイパーパラメータ（バッチサイズや学習率など）については、元の論文の表9を参照してください。

評価結果

モデル	ImageNetトップ1精度	ImageNetトップ5精度	パラメータ数	URL
DeiT - tiny	72.2	91.1	5M	https://huggingface.co/facebook/deit - tiny - patch16 - 224
DeiT - small	79.9	95.0	22M	https://huggingface.co/facebook/deit - small - patch16 - 224
DeiT - base	81.8	95.6	86M	https://huggingface.co/facebook/deit - base - patch16 - 224
DeiT - tiny distilled	74.5	91.9	6M	https://huggingface.co/facebook/deit - tiny - distilled - patch16 - 224
DeiT - small distilled	81.2	95.4	22M	https://huggingface.co/facebook/deit - small - distilled - patch16 - 224
DeiT - base distilled	83.4	96.5	87M	https://huggingface.co/facebook/deit - base - distilled - patch16 - 224
DeiT - base 384	82.9	96.2	87M	https://huggingface.co/facebook/deit - base - patch16 - 384
DeiT - base distilled 384 (1000エポック)	85.2	97.2	88M	https://huggingface.co/facebook/deit - base - distilled - patch16 - 384

微調整に関しては、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

🔧 技術詳細

BibTeXエントリと引用情報

@misc{touvron2021training,
      title={Training data - efficient image transformers & distillation through attention}, 
      author={Hugo Touvron and Matthieu Cord and Matthijs Douze and Francisco Massa and Alexandre Sablayrolles and Hervé Jégou},
      year={2021},
      eprint={2012.12877},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@misc{wu2020visual,
      title={Visual Transformers: Token - based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large - scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li - Jia and Li, Kai and Fei - Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}