Swinv2-largeオープンソースビジュアルモデル - 画像分類と密集認識タスクに無料で使用可能请你注意，如果你要将上述句子用于网站推广等SEO相关用途，建议结合真实具体的语境和页面内容进行调整，确保既符合搜索引擎优化要求，也能准确传达信息给用户。

ホーム

Swinv2 Large Patch4 Window12 192 22k

microsoftによって開発

Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #高解像度画像分類 #階層的特徴マップ #ウィンドウ自己注意

ダウンロード数 3,816

リリース時間 : 6/15/2022

モデル概要

このモデルはImageNet-21kデータセットで192x192解像度で事前学習され、改良された残差後正規化とコサイン注意メカニズムを採用しており、画像分類タスクに適しています。

モデル特徴

階層的特徴マップ

より深い層で画像パッチを統合して階層的特徴マップを構築し、特徴抽出の効率を向上させます。

局所ウィンドウ自己注意

局所ウィンドウ内でのみ自己注意を計算し、計算複雑度を入力画像サイズに対して線形に保ちます。

訓練安定性の向上

残差後正規化とコサイン注意メカニズムを組み合わせ、訓練の安定性を高めます。

高解像度転移

対数間隔連続位置バイアス法を用いて、低解像度事前学習モデルを高解像度タスクに効果的に転移させます。

モデル能力

画像分類

視覚的特徴抽出

使用事例

画像認識

動物認識

画像中の動物の種類（トラなど）を識別します。

物体認識

ティーポットなどの日常的な物体を識別します。

シーン認識

宮殿などの建築物や自然景観を識別します。

🚀 Swin Transformer v2 (大型モデル)

Swin Transformer v2は、解像度192x192のImageNet - 21kで事前学習されたモデルです。このモデルは、Liuらによる論文 Swin Transformer V2: Scaling Up Capacity and Resolution で紹介され、[このリポジトリ](https://github.com/microsoft/Swin - Transformer) で最初に公開されました。

なお、Swin Transformer v2をリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは画像分類に使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

Swin Transformerの特徴

Swin TransformerはVision Transformerの一種です。より深いレイヤーで画像パッチ（灰色で表示）をマージすることで階層的な特徴マップを構築し、自己注意を各ローカルウィンドウ（赤色で表示）内でのみ計算するため、入力画像サイズに対して線形の計算量を持ちます。これにより、画像分類と密な認識タスクの両方の汎用バックボーンとして機能することができます。これに対し、以前のビジョンTransformerは単一の低解像度の特徴マップを生成し、自己注意をグローバルに計算するため、入力画像サイズに対して2次の計算量を持ちます。

Swin Transformer v2の改良点

Swin Transformer v2は3つの主要な改良点を追加しています。

トレーニングの安定性を向上させるための、残差事後正規化法とコサイン注意の組み合わせ。
低解像度画像で事前学習されたモデルを高解像度入力の下流タスクに効果的に転送するための、対数間隔の連続位置バイアス法。
大量のラベル付き画像の必要性を減らすための自己教師付き事前学習法、SimMIM。

モデル画像

出典

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を21kのImageNetクラスのいずれかに分類する方法です。

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# モデルは21kのImageNetクラスのいずれかを予測します
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

想定される使用法と制限

このモデルは画像分類に使用できますが、特定のタスクに最適化されたバージョンを探す場合は、モデルハブを参照してください。

BibTeX引用

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}