Swinv2-small-patch4-window8-256開源視覺模型 - 高效處理各類圖像任務

首頁

Swinv2 Small Patch4 Window8 256

由microsoft開發

Swin Transformer v2 是一種視覺Transformer模型，通過分層特徵圖和局部窗口自注意力機制實現高效的圖像處理。

圖像分類

Transformers

開源協議:Apache-2.0 #高分辨率圖像分類 #分層特徵提取 #局部窗口注意力

下載量 1,836

發布時間 : 6/15/2022

模型概述

該模型在ImageNet-1k數據集上以256x256分辨率進行了預訓練，適用於圖像分類任務。

模型特點

分層特徵圖

通過在更深層合併圖像塊構建分層特徵圖，提高特徵提取效率。

局部窗口自注意力

僅在局部窗口內計算自注意力，使計算複雜度與輸入圖像大小呈線性關係。

訓練穩定性改進

採用殘差後歸一化和餘弦注意力提高訓練穩定性。

高分辨率遷移能力

使用對數間隔連續位置偏置方法，有效支持從低分辨率到高分辨率輸入的遷移。

模型能力

圖像分類

視覺特徵提取

使用案例

計算機視覺

圖像分類

將圖像分類為1000個ImageNet類別之一。

🚀 Swin Transformer v2（小型模型）

Swin Transformer v2 是一個在 ImageNet - 1k 數據集上以 256x256 分辨率預訓練的模型。它能夠作為圖像分類和密集識別任務的通用骨幹網絡，為計算機視覺領域的相關任務提供強大支持。

🚀 快速開始

你可以使用原始模型進行圖像分類。你可以在模型中心中查找針對你感興趣的任務進行微調後的版本。

以下是如何使用此模型將 COCO 2017 數據集中的圖像分類為 1000 個 ImageNet 類別之一的示例：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-small-patch4-window8-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-small-patch4-window8-256")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代碼示例，請參考文檔。

✨ 主要特性

模型改進

Swin Transformer v2 在原有的 Swin Transformer 基礎上進行了 3 項主要改進：

採用殘差後歸一化方法並結合餘弦注意力機制，提高了訓練穩定性。
引入對數間隔連續位置偏置方法，能夠有效地將使用低分辨率圖像預訓練的模型遷移到高分辨率輸入的下游任務中。
採用自監督預訓練方法 SimMIM，減少了對大量標註圖像的需求。

模型優勢

Swin Transformer 是一種視覺變換器，它通過在更深的層中合併圖像塊（灰色部分）來構建分層特徵圖，並且由於僅在每個局部窗口（紅色部分）內計算自注意力，因此對輸入圖像大小具有線性計算複雜度。這使得它可以作為圖像分類和密集識別任務的通用骨幹網絡。相比之下，以前的視覺變換器只能生成單一低分辨率的特徵圖，並且由於全局自注意力計算，對輸入圖像大小具有二次計算複雜度。

模型架構圖來源

📚 詳細文檔

模型描述

Swin Transformer v2 模型在 ImageNet - 1k 數據集上以 256x256 分辨率進行了預訓練。該模型由 Liu 等人在論文 Swin Transformer V2: Scaling Up Capacity and Resolution 中提出，並首次在 [此倉庫](https://github.com/microsoft/Swin - Transformer) 中發佈。

預期用途和限制

你可以使用原始模型進行圖像分類。你可以在模型中心中查找針對你感興趣的任務進行微調後的版本。

BibTeX 引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}