Swin Transformer v2オープンソースビジョンモデル - 画像認識のファインチューニング最適化、無料で画像分析をサポート

Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft

microsoftによって開発

Swin Transformer v2はImageNet-21kで事前学習され、384x384解像度でImageNet-1kに対してファインチューニングされたビジョントランスフォーマーモデルで、階層的特徴マップと局所ウィンドウ自己注意機構を備えています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #階層型ビジョントランスフォーマー #高解像度画像分類 #コサイン注意機構

ダウンロード数 3,048

リリース時間 : 6/16/2022

モデル概要

このモデルは主に画像分類タスクに使用され、階層的特徴マップと局所ウィンドウ自己注意機構を構築することで計算複雑性を効果的に低減し、様々な視覚認識タスクに適用可能です。

モデル特徴

階層的特徴マップ

より深い層で画像パッチを統合することで階層的特徴マップを構築し、異なる解像度の画像処理に適応します。

局所ウィンドウ自己注意

局所ウィンドウ内でのみ自己注意を計算し、計算複雑性を入力画像サイズに対して線形に保つことで効率を向上させます。

訓練安定性の改善

残差接続後の正規化とコサイン注意を組み合わせることで、訓練の安定性を向上させます。

高解像度転移能力

対数間隔連続位置バイアス手法を採用し、低解像度事前学習モデルを高解像度入力タスクに効果的に転移させます。

自己教師付き事前学習

SimMIM自己教師付き事前学習手法を導入し、大量の注釈付き画像の必要性を軽減します。

モデル能力

画像分類

視覚的特徴抽出

高解像度画像処理

使用事例

汎用画像分類

ImageNet分類

画像を1000のImageNetカテゴリのいずれかに分類します。

高精度な画像分類能力。

視覚認識

物体認識

画像中の特定の物体（動物、日用品など）を識別します。

様々な一般的な物体を正確に認識。

🚀 Swin Transformer v2 (大型モデル)

Swin Transformer v2は、ImageNet - 21kで事前学習され、解像度384x384のImageNet - 1kで微調整されたモデルです。このモデルは、Liuらによる論文 Swin Transformer V2: Scaling Up Capacity and Resolution で紹介され、最初は [このリポジトリ](https://github.com/microsoft/Swin - Transformer) で公開されました。

なお、Swin Transformer v2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、画像分類に使用できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

モデルの概要

Swin TransformerはVision Transformerの一種です。より深い層で画像パッチ（灰色で表示）をマージすることで階層的な特徴マップを構築し、自己注意を各局所ウィンドウ（赤色で表示）内でのみ計算するため、入力画像サイズに対して線形の計算量を持ちます。このため、画像分類と密な認識タスクの両方の汎用バックボーンとして機能することができます。これに対し、以前のVision Transformerは単一の低解像度の特徴マップを生成し、自己注意をグローバルに計算するため、入力画像サイズに対して2次の計算量を持ちます。

Swin Transformer v2は3つの主要な改良点を追加しています。

トレーニングの安定性を向上させるために、残差事後正規化法とコサイン注意を組み合わせた方法。
低解像度画像で事前学習されたモデルを高解像度入力の下流タスクに効果的に転送するための対数間隔の連続位置バイアス法。
大量のラベル付き画像の必要性を減らすための自己教師付き事前学習法、SimMIM。

モデル画像

出典

想定される用途と制限

生のモデルを画像分類に使用できます。詳細はモデルハブを参照してください。

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を1000種類のImageNetクラスのいずれかに分類する方法です。

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12to24-192to384-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12to24-192to384-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

BibTeX引用

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}