S

Swin Large Patch4 Window12 384

由microsoft開發
Swin Transformer是一種基於移位窗口的分層視覺Transformer模型,專為圖像分類任務設計。
下載量 22.77k
發布時間 : 3/2/2022

模型概述

該模型在ImageNet-1k數據集上以384x384分辨率訓練,通過局部窗口計算自注意力機制,實現線性計算複雜度,適合作為圖像分類和密集識別任務的骨幹網絡。

模型特點

分層特徵圖
通過合併深層圖像塊構建分層特徵圖,增強模型對不同尺度特徵的捕捉能力。
局部窗口自注意力
僅在局部窗口內計算自注意力機制,使計算複雜度與輸入圖像大小呈線性關係,提高效率。
高分辨率處理
支持384x384高分辨率圖像輸入,適合精細圖像分類任務。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將圖像分類為1000個ImageNet類別之一。
高準確率的分類效果(具體指標未提供)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase