S

Swin Small Patch4 Window7 224

由microsoft開發
Swin Transformer是一種基於分層窗口的視覺Transformer模型,專為圖像分類任務設計,計算複雜度與輸入圖像大小呈線性關係。
下載量 2,028
發布時間 : 3/2/2022

模型概述

該模型在ImageNet-1k數據集上以224x224分辨率訓練,可作為圖像分類和密集識別任務的通用骨幹網絡。

模型特點

分層窗口注意力機制
通過局部窗口計算自注意力,顯著降低計算複雜度,使其與輸入圖像大小呈線性關係。
層次化特徵圖
通過合併圖像塊構建層次化特徵圖,適合處理不同尺度的視覺信息。
高效計算
相比全局計算自注意力的傳統視覺Transformer,計算效率更高。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將輸入圖像分類為1000個ImageNet類別之一
在ImageNet-1k數據集上訓練
密集識別任務
作為骨幹網絡支持物體檢測、語義分割等任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase