🚀 Swin Transformer v2(基礎尺寸模型)
Swin Transformer v2是一個在圖像分類領域表現出色的模型。它先在ImageNet - 21k數據集上進行預訓練,再在分辨率為384x384的ImageNet - 1k數據集上進行微調,能夠高效準確地完成圖像分類任務。
🚀 快速開始
你可以使用這個原始模型進行圖像分類。若想尋找在特定任務上微調過的版本,可查看模型中心。
以下是如何使用該模型將COCO 2017數據集中的圖像分類為1000個ImageNet類別之一的示例:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-base-patch4-window12to24-192to384-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-base-patch4-window12to24-192to384-22kto1k-ft")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代碼示例,請參考文檔。
✨ 主要特性
模型基礎特性
Swin Transformer是一種視覺Transformer。它通過在更深的層中合併圖像塊(灰色部分)來構建分層特徵圖,並且由於僅在每個局部窗口(紅色部分)內計算自注意力,因此對輸入圖像大小具有線性計算複雜度。這使得它既可以作為圖像分類的主幹網絡,也適用於密集識別任務。而之前的視覺Transformer只能生成單一低分辨率的特徵圖,並且由於全局計算自注意力,對輸入圖像大小具有二次計算複雜度。
Swin Transformer v2的改進
- 訓練穩定性提升:採用殘差後歸一化方法與餘弦注意力相結合,提高了訓練的穩定性。
- 跨分辨率遷移能力增強:使用對數間隔連續位置偏置方法,能有效地將使用低分辨率圖像預訓練的模型遷移到高分辨率輸入的下游任務中。
- 減少標註數據依賴:引入自監督預訓練方法SimMIM,降低了對大量標註圖像的需求。
來源
📚 詳細文檔
模型描述
Swin Transformer v2模型先在ImageNet - 21k數據集上預訓練,然後在分辨率為384x384的ImageNet - 1k數據集上進行微調。該模型由Liu等人在論文Swin Transformer V2: Scaling Up Capacity and Resolution中提出,並首次在[此倉庫](https://github.com/microsoft/Swin - Transformer)中發佈。
需要說明的是,發佈Swin Transformer v2的團隊並未為此模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
預期用途和侷限性
該模型可用於圖像分類任務。
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-2111-09883,
author = {Ze Liu and
Han Hu and
Yutong Lin and
Zhuliang Yao and
Zhenda Xie and
Yixuan Wei and
Jia Ning and
Yue Cao and
Zheng Zhang and
Li Dong and
Furu Wei and
Baining Guo},
title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
journal = {CoRR},
volume = {abs/2111.09883},
year = {2021},
url = {https://arxiv.org/abs/2111.09883},
eprinttype = {arXiv},
eprint = {2111.09883},
timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 許可證
本模型採用Apache - 2.0許可證。
屬性 |
詳情 |
模型類型 |
視覺Transformer,用於圖像分類 |
訓練數據 |
ImageNet - 21k預訓練,ImageNet - 1k微調 |
標籤 |
視覺、圖像分類 |