S

Swinv2 Base Patch4 Window8 256

microsoftによって開発
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意機構により効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
ダウンロード数 16.61k
リリース時間 : 6/15/2022

モデル概要

このモデルはImageNet-1kデータセットで256x256解像度で事前学習され、改良された訓練安定性と高解像度転移技術を採用しており、画像分類タスクに適しています。

モデル特徴

階層的特徴マップ
画像パッチを統合して階層的特徴マップを構築し、異なる解像度の画像処理に対応します。
局所ウィンドウ自己注意
局所ウィンドウ内でのみ自己注意を計算し、計算複雑度が入力画像サイズに対して線形関係となり効率が向上します。
訓練安定性の改善
残差後正規化手法とコサイン注意を組み合わせ、訓練安定性を向上させました。
高解像度転移
対数間隔連続位置バイアス手法を採用し、低解像度事前学習モデルを高解像度入力の下流タスクに効果的に転移させます。

モデル能力

画像分類
密な認識タスク

使用事例

コンピュータビジョン
ImageNet画像分類
画像をImageNetの1,000クラスのいずれかに分類します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase