S

Swinv2 Small Patch4 Window8 256

microsoftによって開発
Swin Transformer v2は、階層的特徴マップとローカルウィンドウ自己注意メカニズムを通じて効率的な画像処理を実現する視覚Transformerモデルです。
ダウンロード数 1,836
リリース時間 : 6/15/2022

モデル概要

このモデルはImageNet-1kデータセットで256x256解像度で事前学習されており、画像分類タスクに適しています。

モデル特徴

階層的特徴マップ
より深い層で画像パッチを統合して階層的特徴マップを構築し、特徴抽出の効率を向上させます。
ローカルウィンドウ自己注意
ローカルウィンドウ内でのみ自己注意を計算し、計算複雑度を入力画像サイズに対して線形に保ちます。
訓練安定性の改善
残差後正規化とコサイン注意を採用して訓練の安定性を向上させます。
高解像度転移能力
対数間隔連続位置バイアス手法を使用し、低解像度から高解像度入力への効果的な転移をサポートします。

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を1000のImageNetカテゴリのいずれかに分類します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase