S

Swin Large Patch4 Window7 224

由microsoft開發
Swin Transformer是一種層次化視覺Transformer,通過局部窗口計算自注意力實現線性計算複雜度,適合圖像分類和密集識別任務。
下載量 2,079
發布時間 : 3/2/2022

模型概述

該模型是基於Swin Transformer架構的大尺寸視覺模型,在ImageNet-1k數據集上以224x224分辨率訓練而成,可用於圖像分類任務。

模型特點

層次化特徵圖
通過合併圖像塊構建層次化特徵圖,適合處理不同尺度的視覺信息
局部窗口注意力
僅在局部窗口內計算自注意力,使計算複雜度與輸入圖像大小呈線性關係
高效架構
相比傳統視覺Transformer,計算效率更高,適合作為通用骨幹網絡

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
圖像分類
將輸入圖像分類為ImageNet的1,000個類別之一
在ImageNet-1k數據集上表現優異
視覺特徵提取
作為骨幹網絡提取圖像特徵,用於下游視覺任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase