S

Swin Base Patch4 Window12 384

由microsoft開發
Swin Transformer是一種基於移位窗口的分層視覺Transformer,專為圖像分類任務設計,計算複雜度與輸入圖像大小呈線性關係。
下載量 1,421
發布時間 : 3/2/2022

模型概述

該模型在ImageNet-1k數據集上以384x384分辨率訓練而成,可作為圖像分類和密集識別任務的通用骨幹網絡。

模型特點

分層特徵圖
通過在深層合併圖像塊構建分層特徵圖,增強模型對不同尺度特徵的捕捉能力。
局部窗口自注意力
僅在局部窗口內計算自注意力,使計算複雜度與輸入圖像大小呈線性關係,提高計算效率。
移位窗口機制
採用移位窗口設計,允許跨窗口信息交互,同時保持計算效率。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將輸入圖像分類為1000個ImageNet類別之一。
密集識別任務
作為骨幹網絡支持目標檢測、語義分割等密集識別任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase