beit-large-patch16-224オープンソース画像分類モデル - 高精度な画像識別で効率的なアプリケーションをサポート

ホーム

Beit Large Patch16 224

microsoftによって開発

BEiTはVision Transformer(ViT)アーキテクチャに基づく画像分類モデルで、自己教師あり学習によりImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされています。

画像分類オープンソースライセンス:Apache-2.0 #自己教師あり事前学習 #Vision Transformer #ImageNet分類

ダウンロード数 222.46k

リリース時間 : 3/2/2022

モデル概要

BEiTモデルはBERTに似たTransformerエンコーダーアーキテクチャを採用し、マスクされた画像パッチのビジュアルトークンを予測する自己教師あり事前学習を行い、最終的に画像分類タスクに使用されます。

モデル特徴

自己教師あり事前学習

BERTに似たマスク予測手法を用いてImageNet-21kで自己教師あり事前学習を実施

相対位置エンコーディング

絶対位置エンコーディングではなくT5に似た相対位置エンコーディングを使用

効率的な特徴抽出

[CLS]トークンに依存せず、全ての画像パッチの最終隠れ状態を平均プーリングして分類

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

ImageNet画像分類

入力画像を1000のImageNetカテゴリのいずれかに分類

ImageNetベンチマークで優れた性能を発揮

🚀 BEiT (大規模モデル、ImageNet-1kでファインチューニング済み)

BEiTモデルは、解像度224x224のImageNet-21k（1400万枚の画像、21,841クラス）で自己教師あり学習方式で事前学習され、解像度224x224のImageNet 2012（100万枚の画像、1,000クラス）でファインチューニングされました。このモデルは、Hangbo Bao、Li Dong、Furu Weiによる論文 BEIT: BERT Pre-Training of Image Transformers で紹介され、このリポジトリで最初に公開されました。

免責事項: BEiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

BEiTモデルは、事前学習により画像の内部表現を学習し、下流タスクに有用な特徴を抽出することができます。以下のコード例を参考に、画像分類タスクで使用することができます。

✨ 主な機能

自己教師あり事前学習：BEiTは、大規模な画像コレクションであるImageNet-21kを使用して自己教師あり学習方式で事前学習されています。
相対位置埋め込み：元のViTモデルとは異なり、BEiTは相対位置埋め込みを使用しています。
平均プーリングによる分類：BEiTは、パッチの最終隠れ状態を平均プーリングすることで画像分類を行います。

📚 ドキュメント

モデルの説明

BEiTモデルはVision Transformer (ViT) であり、Transformerエンコーダモデル（BERTのような）です。元のViTモデルとは異なり、BEiTは解像度224x224ピクセルの大規模な画像コレクションであるImageNet-21kを使用して自己教師あり学習方式で事前学習されています。このモデルの事前学習の目的は、マスクされたパッチに基づいて、OpenAIのDALL-EのVQ-VAEのエンコーダから視覚トークンを予測することです。次に、このモデルは、100万枚の画像と1,000クラスから構成されるデータセットであるImageNet（ILSVRC2012とも呼ばれる）で、解像度224x224で教師あり学習方式でファインチューニングされました。

画像は、固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。元のViTモデルとは異なり、BEiTモデルは絶対位置埋め込みではなく相対位置埋め込み（T5に似た）を使用し、[CLS]トークンの最終隠れ状態の上に線形層を配置する代わりに、パッチの最終隠れ状態を平均プーリングすることで画像分類を行います。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに有用な特徴を抽出することができます。例えば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して標準的な分類器を訓練することができます。通常、[CLS]トークンの最終隠れ状態は画像全体の表現と見なすことができるため、このトークンの上に線形層を配置します。あるいは、パッチ埋め込みの最終隠れ状態を平均プーリングし、その上に線形層を配置することもできます。

想定される用途と制限

この生モデルは画像分類に使用することができます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルを使用してCOCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です。

from transformers import BeitFeatureExtractor, BeitForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = BeitFeatureExtractor.from_pretrained('microsoft/beit-large-patch16-224')
model = BeitForImageClassification.from_pretrained('microsoft/beit-large-patch16-224')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

学習データ

BEiTモデルは、1400万枚の画像と21kクラスから構成されるデータセットである ImageNet-21k で事前学習され、100万枚の画像と1kクラスから構成されるデータセットである ImageNet でファインチューニングされました。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細は、ここで確認できます。

画像は同じ解像度（224x224）にリサイズ/リスケールされ、RGBチャンネル全体で平均（0.5, 0.5, 0.5）と標準偏差（0.5, 0.5, 0.5）で正規化されます。

事前学習

すべての事前学習関連のハイパーパラメータについては、元の論文の15ページを参照してください。

評価結果

いくつかの画像分類ベンチマークにおける評価結果については、元の論文の表1と表2を参照してください。ファインチューニングでは、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2106-08254,
  author    = {Hangbo Bao and
               Li Dong and
               Furu Wei},
  title     = {BEiT: {BERT} Pre-Training of Image Transformers},
  journal   = {CoRR},
  volume    = {abs/2106.08254},
  year      = {2021},
  url       = {https://arxiv.org/abs/2106.08254},
  archivePrefix = {arXiv},
  eprint    = {2106.08254},
  timestamp = {Tue, 29 Jun 2021 16:55:04 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2106-08254.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}