S

Swin Base Patch4 Window12 384 In22k

由microsoft開發
Swin Transformer是一種基於移位窗口的分層視覺Transformer模型,專為圖像分類任務設計。
下載量 2,431
發布時間 : 3/2/2022

模型概述

該模型在ImageNet-21k數據集上預訓練,採用分層特徵圖和局部窗口自注意力機制,顯著降低了計算複雜度。

模型特點

分層特徵圖
通過合併深層圖像塊構建分層特徵圖,適合處理不同尺度的視覺信息。
局部窗口自注意力
僅在局部窗口內計算自注意力,計算複雜度與輸入圖像尺寸成線性關係。
高效架構
相比傳統視覺Transformer,顯著降低了計算複雜度,適合作為通用骨幹網絡。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
將輸入圖像分類為ImageNet-21k數據集的21,841個類別之一。
密集識別任務
可作為目標檢測、語義分割等密集識別任務的骨幹網絡。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase