Swin Transformer v2オープンソースビジュアルモデル - 高効率な画像分類と密集識別に無料で利用可能

ホーム

Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft

microsoftによって開発

Swin Transformer v2は、階層的特徴マップとローカルウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現するビジョントランスフォーマーモデルです。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #階層型ビジョントランスフォーマー #高解像度画像分類 #コサイン注意メカニズム

ダウンロード数 812

リリース時間 : 6/16/2022

モデル概要

このモデルはImageNet-21kで事前学習され、256x256解像度のImageNet-1kでファインチューニングされており、画像分類タスクに適しています。

モデル特徴

階層的特徴マップ

深い層で画像パッチを統合して階層的特徴マップを構築し、特徴抽出の効率を向上させます。

ローカルウィンドウ自己注意

ローカルウィンドウ内でのみ自己注意を計算し、計算複雑度を入力画像サイズに対して線形に保ちます。

残差後正規化

残差後正規化手法とコサイン注意を組み合わせ、トレーニングの安定性を向上させます。

対数間隔連続位置バイアス

低解像度画像で事前学習したモデルを高解像度入力の下流タスクに効果的に転移させます。

自己教師あり事前学習

SimMIM自己教師あり事前学習手法を採用し、大量の注釈付き画像の必要性を軽減します。

モデル能力

画像分類

視覚的特徴抽出

使用事例

画像認識

動物認識

画像中の動物種を識別します（例：トラ）。

物体認識

日常的な物体を識別します（例：ティーポット）。

シーン認識

複雑なシーンを識別します（例：宮殿）。

🚀 Swin Transformer v2 (ベースサイズのモデル)

Swin Transformer v2は、ImageNet - 21kで事前学習され、解像度256x256のImageNet - 1kでファインチューニングされたモデルです。画像分類タスクに役立ちます。

🚀 クイックスタート

Swin Transformer v2モデルは、ImageNet - 21kで事前学習され、解像度256x256のImageNet - 1kでファインチューニングされています。このモデルは、Liuらによる論文 Swin Transformer V2: Scaling Up Capacity and Resolution で紹介され、このリポジトリで最初に公開されました。

なお、Swin Transformer v2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

モデルの概要

Swin TransformerはVision Transformerの一種です。より深い層で画像パッチ（灰色で表示）をマージすることで階層的な特徴マップを構築し、自己注意を各ローカルウィンドウ（赤色で表示）内でのみ計算するため、入力画像サイズに対して線形の計算量を持ちます。このため、画像分類と密な認識タスクの両方の汎用バックボーンとして機能します。これに対し、以前のVision Transformerは単一の低解像度の特徴マップを生成し、自己注意をグローバルに計算するため、入力画像サイズに対して2次の計算量を持ちます。

Swin Transformer v2には3つの主な改良が加えられています：

トレーニングの安定性を向上させるための、残差事後正規化法とコサイン注意の組み合わせ。
低解像度画像で事前学習されたモデルを高解像度入力の下流タスクに効果的に転送するための、対数間隔の連続的な位置バイアス法。
大量のラベル付き画像の必要性を減らすための自己教師付き事前学習法、SimMIM。

モデル画像

出典

想定される用途と制限

この生モデルは画像分類に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# モデルは1000のImageNetクラスのいずれかを予測します
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

BibTeX引用

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}