S

Swin Base Patch4 Window12 384

microsoftによって開発
Swin Transformerは、シフトウィンドウに基づく階層型視覚Transformerで、画像分類タスク向けに設計されており、計算複雑度が入力画像サイズに対して線形関係にあります。
ダウンロード数 1,421
リリース時間 : 3/2/2022

モデル概要

このモデルはImageNet-1kデータセットで384x384解像度で学習されており、画像分類や密な認識タスクの汎用バックボーンとして使用できます。

モデル特徴

階層的特徴マップ
深層で画像パッチを統合することで階層的特徴マップを構築し、異なるスケールの特徴を捉える能力を強化します。
局所ウィンドウ自己注意
局所ウィンドウ内でのみ自己注意を計算し、計算複雑度を入力画像サイズに対して線形に保つことで計算効率を向上させます。
シフトウィンドウ機構
シフトウィンドウ設計を採用し、ウィンドウ間の情報交換を可能にしながら計算効率を維持します。

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
入力画像を1000のImageNetカテゴリのいずれかに分類します。
密な認識タスク
バックボーンとして物体検出やセマンティックセグメンテーションなどの密な認識タスクをサポートします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase