S

Swin Large Patch4 Window12 384

microsoftによって開発
Swin Transformerは、シフトウィンドウに基づく階層型ビジュアルTransformerモデルで、画像分類タスク用に設計されています。
ダウンロード数 22.77k
リリース時間 : 3/2/2022

モデル概要

このモデルは、ImageNet - 1kデータセットを384x384解像度で学習し、局所ウィンドウで自己アテンション機構を計算することで線形計算複雑度を実現し、画像分類や密集認識タスクのバックボーンネットワークとして適しています。

モデル特徴

階層型特徴マップ
深層の画像パッチを結合することで階層型特徴マップを構築し、モデルの異なる尺度の特徴を捕捉する能力を強化します。
局所ウィンドウ自己アテンション
局所ウィンドウ内でのみ自己アテンション機構を計算することで、計算複雑度を入力画像サイズに対して線形にし、効率を向上させます。
高解像度処理
384x384の高解像度画像入力をサポートし、細かい画像分類タスクに適しています。

モデル能力

画像分類
ビジュアル特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
画像を1000のImageNetカテゴリの1つに分類します。
高い精度の分類結果(具体的な指標は提供されていません)。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase