Swin Transformer v2オープンソースビジュアルモデル - 無料でデプロイして効率的な画像分類を実現

ホーム

Swinv2 Base Patch4 Window12to16 192to256 22kto1k Ft

microsoftによって開発

Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意機構により効率的な画像分類を実現する視覚Transformerモデルです。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #階層型視覚Transformer #高解像度画像分類 #ウィンドウ自己注意機構

ダウンロード数 459

リリース時間 : 6/16/2022

モデル概要

このモデルはImageNet-21kで事前学習され、ImageNet-1kでファインチューニングされており、画像分類タスクに適しています。残差後正規化、コサイン注意、対数間隔連続位置バイアスなどの改良技術を採用しています。

モデル特徴

階層的特徴マップ

より深い層で画像パッチを統合して階層的特徴マップを構築し、画像分類や密な認識タスクに適しています。

局所ウィンドウ自己注意

局所ウィンドウ内でのみ自己注意を計算し、計算複雑度が入力画像サイズに対して線形関係にあります。

訓練安定性の向上

残差後正規化とコサイン注意を組み合わせて訓練安定性を向上させます。

高解像度転移能力

対数間隔連続位置バイアス法を採用し、低解像度事前学習モデルを高解像度入力タスクに効果的に転移させます。

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

ImageNet画像分類

画像を1000のImageNetカテゴリのいずれかに分類します。

🚀 Swin Transformer v2 (ベースサイズのモデル)

Swin Transformer v2は、画像認識タスクに特化したモデルです。ImageNet-21kで事前学習され、ImageNet-1kで解像度256x256でファインチューニングされています。画像分類や密な認識タスクの汎用バックボーンとして機能します。

🚀 クイックスタート

Swin Transformer v2モデルを使って、画像分類タスクを実行できます。以下のコード例を参考に、モデルを使い始めましょう。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-base-patch4-window12to16-192to256-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-base-patch4-window12to16-192to256-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

✨ 主な機能

モデルの特徴

Swin TransformerはVision Transformerの一種で、深い層で画像パッチをマージすることで階層的な特徴マップを構築します。自己注意を各ローカルウィンドウ内でのみ計算するため、入力画像サイズに対して線形の計算量を持ちます。これにより、画像分類と密な認識タスクの両方の汎用バックボーンとして機能します。

Swin Transformer v2の改良点

学習の安定性向上：残差事後正規化法とコサイン注意を組み合わせて、学習の安定性を向上させます。
高解像度入力への転移：対数間隔の連続位置バイアス法を使用して、低解像度画像で事前学習されたモデルを高解像度入力の下流タスクに効果的に転移させます。
自己教師あり事前学習：自己教師あり事前学習法であるSimMIMを使用して、大量のラベル付き画像の必要性を減らします。

モデル画像

出典

📚 ドキュメント

想定される用途と制限

このモデルは画像分類に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

BibTeX引用

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}