S

Swin Base Patch4 Window7 224 In22k

由microsoft開發
Swin Transformer是一種基於分層窗口計算的視覺Transformer模型,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
下載量 13.30k
發布時間 : 3/2/2022

模型概述

該模型通過在局部窗口內計算自注意力來構建分層特徵圖,計算複雜度與輸入圖像大小呈線性關係,適合作為圖像分類和密集識別任務的通用骨幹網絡。

模型特點

分層特徵圖
通過在更深層次合併圖像塊來構建分層特徵圖,提高特徵提取能力
局部窗口注意力
僅在局部窗口內計算自注意力,使計算複雜度與輸入圖像大小呈線性關係
高效計算
相比全局計算自注意力的傳統視覺Transformer,計算效率更高

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
將圖像分類為ImageNet-21k數據集中的21,841個類別之一
視覺特徵提取
作為骨幹網絡為其他視覺任務提供特徵表示
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase