S

Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft

由microsoft開發
Swin Transformer v2是基於ImageNet-21k預訓練並在384x384分辨率下對ImageNet-1k進行微調的視覺Transformer模型,具有分層特徵圖和局部窗口自注意力機制。
下載量 3,048
發布時間 : 6/16/2022

模型概述

該模型主要用於圖像分類任務,通過構建分層特徵圖和局部窗口自注意力機制,有效降低計算複雜度,適用於各種視覺識別任務。

模型特點

分層特徵圖
通過在更深層合併圖像塊構建分層特徵圖,適用於不同分辨率的圖像處理。
局部窗口自注意力
僅在局部窗口內計算自注意力,計算複雜度與輸入圖像大小呈線性關係,提高效率。
訓練穩定性改進
結合殘差後歸一化與餘弦注意力,提高訓練穩定性。
高分辨率遷移能力
採用對數間隔連續位置偏置方法,有效將低分辨率預訓練模型遷移至高分辨率輸入任務。
自監督預訓練
引入SimMIM自監督預訓練方法,減少對大量標註圖像的需求。

模型能力

圖像分類
視覺特徵提取
高分辨率圖像處理

使用案例

通用圖像分類
ImageNet分類
將圖像分類為1000個ImageNet類別之一。
高準確率的圖像分類能力。
視覺識別
物體識別
識別圖像中的特定物體,如動物、日常用品等。
準確識別多種常見物體。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase