S

Swin Large Patch4 Window12 384 In22k

由microsoft開發
Swin Transformer是一種基於分層窗口的視覺Transformer模型,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
下載量 1,063
發布時間 : 3/2/2022

模型概述

該模型通過在局部窗口內計算自注意力來構建分層特徵圖,計算複雜度與輸入圖像大小呈線性關係,適合作為圖像分類和密集識別任務的骨幹網絡。

模型特點

分層窗口注意力機制
通過局部窗口計算自注意力,顯著降低計算複雜度,實現線性複雜度與圖像大小的關係。
分層特徵圖構建
在更深層次合併圖像塊,構建多分辨率特徵圖,優於傳統視覺Transformer的單一低分辨率特徵圖。
高分辨率支持
支持384x384高分辨率輸入,在ImageNet-21k大規模數據集上預訓練。

模型能力

圖像分類
視覺特徵提取
大規模圖像識別

使用案例

計算機視覺
通用圖像分類
將圖像分類為21,841個ImageNet-21k類別之一
視覺骨幹網絡
可作為下游視覺任務(如目標檢測、分割)的特徵提取器
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase