S

Swinv2 Tiny Patch4 Window8 256

由microsoft開發
Swin Transformer v2是基於ImageNet-1k預訓練的視覺Transformer模型,採用分層特徵圖和局部窗口自注意力機制,具有線性計算複雜度。
下載量 25.04k
發布時間 : 6/14/2022

模型概述

該模型是Swin Transformer v2的微型版本,專為圖像分類任務設計,在256x256分辨率下預訓練,可作為計算機視覺任務的通用骨幹網絡。

模型特點

分層特徵圖
通過合併深層圖像塊構建分層特徵圖,適合不同尺度的視覺任務
局部窗口自注意力
僅在局部窗口內計算自注意力,實現與輸入圖像大小的線性計算複雜度
殘差後歸一化
採用殘差後歸一化結合餘弦注意力,提升訓練穩定性
位置偏置遷移
使用對數間隔連續位置偏置方法,有效遷移低分辨率預訓練模型至高分辨率任務

模型能力

圖像分類
視覺特徵提取
計算機視覺任務骨幹網絡

使用案例

計算機視覺
圖像分類
將輸入圖像分類為1000個ImageNet類別之一
在ImageNet-1k數據集上表現良好
視覺特徵提取
作為其他計算機視覺任務的預訓練特徵提取器
可用於目標檢測、語義分割等下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase