Swinv2-baseオープンソースビジョンTransformerモデル - 無料でデプロイして効率的な画像処理を実現

Home

Swinv2 Base Patch4 Window12 192 22k

Developed by microsoft

Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより効率的な画像処理を実現する視覚Transformerモデルです。

画像分類

Transformers

Open Source License:Apache-2.0 #階層型視覚Transformer #高解像度転移 #画像分類バックボーン

Downloads 8,603

Release Time : 6/15/2022

Model Overview

このモデルはImageNet-21kデータセットで192x192解像度で事前学習されており、画像分類タスクに適しています。残差後正規化、コサインアテンション、対数間隔連続位置バイアスなどの改良技術を採用しています。

Model Features

階層的特徴マップ構築

深層で画像パッチを統合して階層的特徴マップを構築し、特徴抽出効率を向上させます。

局所ウィンドウ自己注意

局所ウィンドウ内でのみ自己注意を計算し、計算複雑度を入力画像サイズに対して線形に保ちます。

訓練安定性の改善

残差後正規化とコサインアテンションメカニズムを採用し、訓練の安定性を向上させます。

高解像度転移能力

対数間隔連続位置バイアス手法を使用し、低解像度から高解像度入力への転移を効果的にサポートします。

Model Capabilities

画像分類

視覚的特徴抽出

Use Cases

コンピュータビジョン

ImageNet画像分類

入力画像を21kのImageNetカテゴリのいずれかに分類します。

🚀 Swin Transformer v2 (tiny-sized model)

Swin Transformer v2モデルは、解像度192x192のImageNet - 21kで事前学習されています。このモデルは、Liuらによる論文 Swin Transformer V2: Scaling Up Capacity and Resolution で紹介され、このリポジトリで最初に公開されました。

免責事項: Swin Transformer v2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは画像分類に使用できます。興味のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

Swin TransformerはVision Transformerの一種です。より深い層で画像パッチ（灰色で表示）をマージすることで階層的な特徴マップを構築し、自己注意を各ローカルウィンドウ（赤色で表示）内でのみ計算するため、入力画像サイズに対して線形の計算量を持ちます。このため、画像分類と密な認識タスクの両方の汎用バックボーンとして機能することができます。これに対し、以前のビジョンTransformerは単一の低解像度の特徴マップを生成し、自己注意をグローバルに計算するため、入力画像サイズに対して2次の計算量を持ちます。

Swin Transformer v2には3つの主な改良点があります。

トレーニングの安定性を向上させるための、残差事後正規化手法とコサイン注意の組み合わせ。
低解像度画像で事前学習されたモデルを高解像度入力の下流タスクに効果的に転送するための、対数間隔の連続的な位置バイアス手法。
大量のラベル付き画像の必要性を減らすための自己教師付き事前学習手法、SimMIM。

model image

出典

📚 ドキュメント

想定される用途と制限

生のモデルを画像分類に使用することができます。興味のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルを使用してCOCO 2017データセットの画像を21kのImageNetクラスのいずれかに分類する方法です。

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-base-patch4-window12-192-22k")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-base-patch4-window12-192-22k")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 21k ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}