S

Swin Large Patch4 Window7 224 In22k

microsoftによって開発
Swin Transformerは移動ウィンドウに基づく階層型視覚Transformerで、ImageNet-21kデータセットで事前学習されており、画像分類タスクに適しています。
ダウンロード数 387
リリース時間 : 3/2/2022

モデル概要

このモデルは、深層で画像パッチを統合して階層的特徴マップを構築し、局所ウィンドウ内でのみ自己注意を計算することで、入力画像サイズと線形関係にある計算複雑度を実現しています。

モデル特徴

階層的特徴マップ
画像パッチを統合して階層的特徴マップを構築し、異なるスケールの視覚情報を処理するのに適しています
局所ウィンドウアテンション
局所ウィンドウ内でのみ自己注意を計算し、計算複雑度が入力画像サイズと線形関係にあります
汎用バックボーンネットワーク
画像分類や密な認識タスクの汎用バックボーンネットワークとして使用できます

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
画像を21,841のImageNet-21kカテゴリのいずれかに分類します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase