S

Swinv2 Large Patch4 Window12 192 22k

Developed by microsoft
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
Downloads 3,816
Release Time : 6/15/2022

Model Overview

このモデルはImageNet-21kデータセットで192x192解像度で事前学習され、改良された残差後正規化とコサイン注意メカニズムを採用しており、画像分類タスクに適しています。

Model Features

階層的特徴マップ
より深い層で画像パッチを統合して階層的特徴マップを構築し、特徴抽出の効率を向上させます。
局所ウィンドウ自己注意
局所ウィンドウ内でのみ自己注意を計算し、計算複雑度を入力画像サイズに対して線形に保ちます。
訓練安定性の向上
残差後正規化とコサイン注意メカニズムを組み合わせ、訓練の安定性を高めます。
高解像度転移
対数間隔連続位置バイアス法を用いて、低解像度事前学習モデルを高解像度タスクに効果的に転移させます。

Model Capabilities

画像分類
視覚的特徴抽出

Use Cases

画像認識
動物認識
画像中の動物の種類(トラなど)を識別します。
物体認識
ティーポットなどの日常的な物体を識別します。
シーン認識
宮殿などの建築物や自然景観を識別します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase