Swinv2-tiny-patch4-window16-256オープンソースモデル - 画像分類機能を効率的に実現！

ホーム

Swinv2 Tiny Patch4 Window16 256

microsoftによって開発

Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意機構により効率的な画像分類を実現する視覚トランスフォーマーモデルです。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #階層型視覚トランスフォーマー #ウィンドウアテンション機構 #高解像度転移

ダウンロード数 403.69k

リリース時間 : 6/14/2022

モデル概要

このモデルはImageNet-1kデータセットで256x256解像度で事前学習されており、画像分類タスクに適しています。残差後正規化とコサイン注意機構により学習安定性を向上させ、低解像度から高解像度入力への転移学習をサポートします。

モデル特徴

階層的特徴マップ

画像パッチを統合して階層的特徴マップを構築し、異なる解像度の画像処理に対応します。

局所ウィンドウ自己注意

局所ウィンドウ内でのみ自己注意を計算し、入力画像サイズに対して線形な計算複雑度で効率を向上させます。

学習安定性の改善

残差後正規化手法とコサイン注意機構を採用し、学習安定性を大幅に向上させます。

転移学習サポート

対数間隔連続位置バイアス手法により、低解像度から高解像度入力への転移学習をサポートします。

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

ImageNet画像分類

画像を1000のImageNetカテゴリのいずれかに分類します。

高精度な画像分類結果。

🚀 Swin Transformer v2 (tiny-sized model)

Swin Transformer v2モデルは、解像度256x256のImageNet-1kで事前学習されています。このモデルは、Liuらによる論文Swin Transformer V2: Scaling Up Capacity and Resolutionで紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

Swin Transformer v2モデルは、ImageNet-1kデータセットで解像度256x256で事前学習されています。このモデルは、画像分類や密な認識タスクの汎用バックボーンとして使用できます。

✨ 主な機能

モデルの概要

Swin TransformerはVision Transformerの一種です。深い層で画像パッチ（灰色で表示）をマージすることで階層的な特徴マップを構築し、自己注意を各ローカルウィンドウ（赤色で表示）内でのみ計算するため、入力画像サイズに対して線形の計算量を持ちます。これにより、画像分類と密な認識タスクの両方の汎用バックボーンとして機能します。これに対し、以前のVision Transformerは単一の低解像度の特徴マップを生成し、自己注意をグローバルに計算するため、入力画像サイズに対して2次の計算量を持ちます。

Swin Transformer v2は3つの主要な改良点を追加しています：

トレーニングの安定性を向上させるための、コサイン注意と組み合わせた残差事後正規化手法。
低解像度画像で事前学習されたモデルを高解像度入力の下流タスクに効果的に転送するための、対数間隔の連続的位置バイアス手法。
大量のラベル付き画像の必要性を減らすための自己教師付き事前学習手法、SimMIM。

モデル画像出典

想定される用途と制限

この生モデルを画像分類に使用できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window16-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-tiny-patch4-window16-256")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# モデルは1000のImageNetクラスのいずれかを予測します
predicted_class_idx = logits.argmax(-1).item()
print("予測されたクラス:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}