S

Swinv2 Small Patch4 Window16 256

Developed by microsoft
Swin Transformer v2 は階層的特徴マップと局所ウィンドウ自己注意機構により効率的な画像処理を実現する視覚Transformerモデルです。
Downloads 315
Release Time : 6/15/2022

Model Overview

このモデルはImageNet-1kデータセットで256x256解像度で事前学習されており、画像分類タスクに適しています。残差後正規化、コサインアテンション、対数間隔連続位置バイアスなどの改良技術を採用しています。

Model Features

階層的特徴マップ
画像パッチを統合して階層的特徴マップを構築し、様々なスケールの視覚タスクに対応します。
局所ウィンドウ自己注意
局所ウィンドウ内でのみ自己注意を計算し、計算複雑度が入力画像サイズに対して線形関係になります。
訓練安定性の改善
残差後正規化とコサインアテンションを組み合わせ、訓練の安定性を向上させます。
高解像度転移
対数間隔連続位置バイアス手法を採用し、高解像度入力を効果的にサポートします。

Model Capabilities

画像分類
視覚的特徴抽出

Use Cases

コンピュータビジョン
物体認識
画像中の物体カテゴリ(動物、日用品など)を識別します。
1000種類のImageNetカテゴリを分類可能
シーン分類
建築物、自然景観など画像のシーンを分類します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase