S

Swinv2 Base Patch4 Window12to24 192to384 22kto1k Ft

由microsoft開發
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
下載量 1,824
發布時間 : 6/16/2022

模型概述

該模型基於ImageNet-21k預訓練,並在384x384分辨率下對ImageNet-1k進行微調,可直接用於圖像分類任務。

模型特點

分層特徵圖
通過在深層合併圖像塊構建分層特徵圖,適用於不同分辨率的圖像處理。
局部窗口自注意力
僅在局部窗口內計算自注意力,計算複雜度與輸入圖像大小呈線性關係,提高效率。
訓練穩定性改進
結合殘差後歸一化與餘弦注意力提升訓練穩定性。
高分辨率遷移能力
採用對數間隔連續位置偏置方法,有效將低分辨率預訓練模型遷移至高分辨率下游任務。
自監督預訓練
引入自監督預訓練方法SimMIM,減少對大量標註圖像的依賴。

模型能力

圖像分類
密集識別

使用案例

圖像識別
動物識別
識別圖像中的動物類別,如老虎。
準確分類為ImageNet-1k中的1000個類別之一。
物體識別
識別日常物體,如茶壺。
準確分類為ImageNet-1k中的1000個類別之一。
場景識別
識別建築或自然場景,如宮殿。
準確分類為ImageNet-1k中的1000個類別之一。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase