S

Swin Tiny Patch4 Window7 224

由microsoft開發
Swin Transformer是一種分層視覺Transformer,通過局部窗口計算自注意力實現線性計算複雜度,適合圖像分類任務。
下載量 98.00k
發布時間 : 3/2/2022

模型概述

該模型是基於Swin Transformer架構的微型版本,在ImageNet-1k數據集上訓練,用於圖像分類任務。它採用分層設計和移位窗口機制,有效降低了計算複雜度。

模型特點

分層設計
通過深層合併圖像塊構建分層特徵圖,適合處理不同尺度的視覺特徵
移位窗口機制
僅在局部窗口內計算自注意力,使計算複雜度與輸入圖像大小呈線性關係
高效計算
相比傳統視覺Transformer,顯著降低了計算複雜度,同時保持高性能

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
將輸入圖像分類為1000個ImageNet類別之一
在ImageNet-1k數據集上達到良好性能
視覺特徵提取
作為骨幹網絡提取圖像特徵,用於下游視覺任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase