S

Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft

由microsoft開發
Swin Transformer v2是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。
下載量 812
發布時間 : 6/16/2022

模型概述

該模型在ImageNet-21k上進行了預訓練,並在256x256分辨率的ImageNet-1k上進行了微調,適用於圖像分類任務。

模型特點

分層特徵圖
通過在更深層合併圖像塊構建分層特徵圖,提高特徵提取效率。
局部窗口自注意力
僅在局部窗口內計算自注意力,計算複雜度與輸入圖像大小呈線性關係。
殘差後歸一化
採用殘差後歸一化方法結合餘弦注意力,提高訓練穩定性。
對數間隔連續位置偏置
有效將低分辨率圖像預訓練的模型遷移到高分辨率輸入的下游任務。
自監督預訓練
採用SimMIM自監督預訓練方法,減少對大量標註圖像的需求。

模型能力

圖像分類
視覺特徵提取

使用案例

圖像識別
動物識別
識別圖像中的動物種類,如老虎。
物體識別
識別日常物體,如茶壺。
場景識別
識別複雜場景,如宮殿。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase