S

Swinv2 Tiny Patch4 Window8 256

microsoftによって開発
Swin Transformer v2はImageNet-1kで事前学習された視覚Transformerモデルで、階層的特徴マップと局所ウィンドウ自己注意機構を採用し、線形計算複雑性を持ちます。
ダウンロード数 25.04k
リリース時間 : 6/14/2022

モデル概要

このモデルはSwin Transformer v2のマイクロ版で、画像分類タスク向けに設計され、256x256解像度で事前学習されており、コンピュータビジョンタスクの汎用バックボーンとして使用可能です。

モデル特徴

階層的特徴マップ
深層画像パッチを統合して階層的特徴マップを構築し、様々なスケールの視覚タスクに対応
局所ウィンドウ自己注意
局所ウィンドウ内のみで自己注意を計算し、入力画像サイズに対する線形計算複雑性を実現
残差後正規化
残差後正規化とコサイン注意を組み合わせ、訓練の安定性を向上
位置バイアス転移
対数間隔連続位置バイアス法を使用し、低解像度事前学習モデルから高解像度タスクへ効果的に転移

モデル能力

画像分類
視覚特徴抽出
コンピュータビジョンタスクのバックボーン

使用事例

コンピュータビジョン
画像分類
入力画像を1000のImageNetカテゴリのいずれかに分類
ImageNet-1kデータセットで良好な性能
視覚特徴抽出
他のコンピュータビジョンタスクの事前学習特徴抽出器として使用
物体検出、セマンティックセグメンテーションなどの下流タスクに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase