S

Swinv2 Tiny Patch4 Window16 256

由microsoft開發
Swin Transformer v2 是一種視覺Transformer模型,通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類。
下載量 403.69k
發布時間 : 6/14/2022

模型概述

該模型在ImageNet-1k數據集上以256x256分辨率進行了預訓練,適用於圖像分類任務。通過殘差後歸一化和餘弦注意力機制提高訓練穩定性,支持從低分辨率到高分辨率輸入的遷移學習。

模型特點

分層特徵圖
通過合併圖像塊構建分層特徵圖,適用於不同分辨率的圖像處理。
局部窗口自注意力
僅在局部窗口內計算自注意力,計算複雜度與輸入圖像大小呈線性關係,提高效率。
訓練穩定性改進
採用殘差後歸一化方法和餘弦注意力機制,顯著提高訓練穩定性。
遷移學習支持
通過對數間隔連續位置偏置方法,支持從低分辨率到高分辨率輸入的遷移學習。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將圖像分類為1000個ImageNet類別之一。
高準確率的圖像分類結果。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase