Swin Transformer v2開源視覺模型 - 免費用於高效圖像分類與密集識別

首頁

Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft

由microsoft開發

Swin Transformer v2是一種視覺Transformer模型，通過分層特徵圖和局部窗口自注意力機制實現高效的圖像分類和密集識別任務。

圖像分類

Transformers

開源協議:Apache-2.0 #分層視覺Transformer #高分辨率圖像分類 #餘弦注意力機制

下載量 812

發布時間 : 6/16/2022

模型概述

該模型在ImageNet-21k上進行了預訓練，並在256x256分辨率的ImageNet-1k上進行了微調，適用於圖像分類任務。

模型特點

分層特徵圖

通過在更深層合併圖像塊構建分層特徵圖，提高特徵提取效率。

局部窗口自注意力

僅在局部窗口內計算自注意力，計算複雜度與輸入圖像大小呈線性關係。

殘差後歸一化

採用殘差後歸一化方法結合餘弦注意力，提高訓練穩定性。

對數間隔連續位置偏置

有效將低分辨率圖像預訓練的模型遷移到高分辨率輸入的下游任務。

自監督預訓練

採用SimMIM自監督預訓練方法，減少對大量標註圖像的需求。

模型能力

圖像分類

視覺特徵提取

使用案例

圖像識別

動物識別

識別圖像中的動物種類，如老虎。

物體識別

識別日常物體，如茶壺。

場景識別

識別複雜場景，如宮殿。

🚀 Swin Transformer v2 (基礎尺寸模型)

Swin Transformer v2是基於Transformer架構的視覺模型，適用於圖像分類等視覺任務，在ImageNet數據集上有出色表現。

🚀 快速開始

Swin Transformer v2模型在ImageNet - 21k上進行預訓練，並在分辨率為256x256的ImageNet - 1k上進行微調。它由Liu等人在論文Swin Transformer V2: Scaling Up Capacity and Resolution中提出，並首次在[此代碼庫](https://github.com/microsoft/Swin - Transformer)中發佈。

免責聲明：發佈Swin Transformer v2的團隊未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

分層特徵圖構建：Swin Transformer是一種視覺Transformer，它通過在更深的層中合併圖像塊（灰色部分所示）來構建分層特徵圖，並且由於僅在每個局部窗口（紅色部分所示）內計算自注意力，因此對輸入圖像大小具有線性計算複雜度。這使得它可以作為圖像分類和密集識別任務的通用主幹網絡。相比之下，之前的視覺Transformer產生單一低分辨率的特徵圖，並且由於全局計算自注意力，對輸入圖像大小具有二次計算複雜度。
三大改進：Swin Transformer v2進行了三項主要改進：
1. 採用殘差後歸一化方法與餘弦注意力相結合，提高訓練穩定性。
2. 引入對數間隔連續位置偏置方法，有效地將使用低分辨率圖像預訓練的模型遷移到高分辨率輸入的下游任務中。
3. 採用自監督預訓練方法SimMIM，減少對大量標註圖像的需求。

模型圖像

來源

📚 詳細文檔

預期用途與限制

可以使用原始模型進行圖像分類。可查看模型中心，尋找針對你感興趣任務的微調版本。

如何使用

以下是如何使用此模型將COCO 2017數據集中的圖像分類為1000個ImageNet類別之一的示例：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# 模型預測1000個ImageNet類別之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代碼示例，請參考文檔。

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}