S

Swin Large Patch4 Window7 224 In22k

由microsoft開發
Swin Transformer是一種基於移動窗口的分層視覺Transformer,在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
下載量 387
發布時間 : 3/2/2022

模型概述

該模型通過在深層合併圖像塊構建分層特徵圖,並僅在局部窗口內計算自注意力,實現了與輸入圖像大小成線性關係的計算複雜度。

模型特點

分層特徵圖
通過合併圖像塊構建分層特徵圖,適合處理不同尺度的視覺信息
局部窗口注意力
僅在局部窗口內計算自注意力,計算複雜度與輸入圖像大小成線性關係
通用骨幹網絡
可作為圖像分類和密集識別任務的通用骨幹網絡

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將圖像分類為21,841個ImageNet-21k類別之一
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase