🚀 Swin Transformer v2(大型模型)
Swin Transformer v2 是在分辨率為 192x192 的 ImageNet - 21k 數據集上預訓練的模型。它由 Liu 等人在論文 Swin Transformer V2: Scaling Up Capacity and Resolution 中提出,並首次在 此倉庫 發佈。
⚠️ 重要提示
發佈 Swin Transformer v2 的團隊並未為此模型編寫模型卡片,此卡片由 Hugging Face 團隊編寫。
✨ 主要特性
- 層次化特徵圖:Swin Transformer 通過在更深的層中合併圖像塊(灰色部分)來構建層次化特徵圖,並且由於僅在每個局部窗口(紅色部分)內計算自注意力,其計算複雜度與輸入圖像大小呈線性關係,可作為圖像分類和密集識別任務的通用主幹網絡。
- 改進訓練穩定性:Swin Transformer v2 採用殘差後歸一化方法結合餘弦注意力,提高了訓練穩定性。
- 有效遷移模型:使用對數間隔連續位置偏置方法,能將低分辨率圖像預訓練的模型有效遷移到高分辨率輸入的下游任務。
- 減少標註需求:採用自監督預訓練方法 SimMIM,減少了對大量標註圖像的需求。

來源
🚀 快速開始
你可以使用該原始模型進行圖像分類。查看 模型中心 以查找針對你感興趣任務的微調版本。
💻 使用示例
基礎用法
以下是如何使用該模型將 COCO 2017 數據集中的圖像分類到 21k ImageNet 類別之一的示例:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代碼示例請參考 文檔。
📚 詳細文檔
模型描述
Swin Transformer 是一種視覺變換器。它通過在更深的層中合併圖像塊(灰色部分)來構建層次化特徵圖,並且由於僅在每個局部窗口(紅色部分)內計算自注意力,其計算複雜度與輸入圖像大小呈線性關係。因此,它可以作為圖像分類和密集識別任務的通用主幹網絡。相比之下,之前的視覺變換器僅產生單一低分辨率的特徵圖,並且由於全局計算自注意力,其計算複雜度與輸入圖像大小呈二次關係。
Swin Transformer v2 主要有 3 點改進:
- 採用殘差後歸一化方法結合餘弦注意力,提高訓練穩定性。
- 使用對數間隔連續位置偏置方法,能有效將低分辨率圖像預訓練的模型遷移到高分辨率輸入的下游任務。
- 採用自監督預訓練方法 SimMIM,減少對大量標註圖像的需求。
預期用途和限制
可以使用原始模型進行圖像分類。
BibTeX 引用信息
@article{DBLP:journals/corr/abs-2111-09883,
author = {Ze Liu and
Han Hu and
Yutong Lin and
Zhuliang Yao and
Zhenda Xie and
Yixuan Wei and
Jia Ning and
Yue Cao and
Zheng Zhang and
Li Dong and
Furu Wei and
Baining Guo},
title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
journal = {CoRR},
volume = {abs/2111.09883},
year = {2021},
url = {https://arxiv.org/abs/2111.09883},
eprinttype = {arXiv},
eprint = {2111.09883},
timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 許可證
本項目採用 Apache - 2.0 許可證。
屬性 |
詳情 |
模型類型 |
視覺變換器,用於圖像分類 |
訓練數據 |
ImageNet - 21k 數據集 |
標籤示例 |
可在模型預測中分類到 21k ImageNet 類別之一 |