Swin Transformer v2开源视觉模型 - 图像识别微调优化，免费助力图像分析

Home

Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft

Developed by microsoft

Swin Transformer v2是基于ImageNet-21k预训练并在384x384分辨率下对ImageNet-1k进行微调的视觉Transformer模型，具有分层特征图和局部窗口自注意力机制。

图像分类

Transformers

Open Source License:Apache-2.0 #分层视觉Transformer #高分辨率图像分类 #余弦注意力机制

Downloads 3,048

Release Time : 6/16/2022

Model Overview

该模型主要用于图像分类任务，通过构建分层特征图和局部窗口自注意力机制，有效降低计算复杂度，适用于各种视觉识别任务。

Model Features

分层特征图

通过在更深层合并图像块构建分层特征图，适用于不同分辨率的图像处理。

局部窗口自注意力

仅在局部窗口内计算自注意力，计算复杂度与输入图像大小呈线性关系，提高效率。

训练稳定性改进

结合残差后归一化与余弦注意力，提高训练稳定性。

高分辨率迁移能力

采用对数间隔连续位置偏置方法，有效将低分辨率预训练模型迁移至高分辨率输入任务。

自监督预训练

引入SimMIM自监督预训练方法，减少对大量标注图像的需求。

Model Capabilities

图像分类

视觉特征提取

高分辨率图像处理

Use Cases

通用图像分类

ImageNet分类

将图像分类为1000个ImageNet类别之一。

高准确率的图像分类能力。

视觉识别

物体识别

识别图像中的特定物体，如动物、日常用品等。

准确识别多种常见物体。

🚀 Swin Transformer v2（大型模型）

Swin Transformer v2是一个在图像分类领域表现出色的模型。它先在ImageNet - 21k数据集上进行预训练，然后在分辨率为384x384的ImageNet - 1k数据集上进行微调，能有效处理图像分类等视觉任务。

🚀 快速开始

本模型可用于图像分类任务。你可以在模型中心查找针对你感兴趣任务的微调版本。

以下是使用该模型将COCO 2017数据集中的图像分类为1000个ImageNet类之一的示例代码：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12to24-192to384-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12to24-192to384-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例请参考文档。

✨ 主要特性

模型基础特性

Swin Transformer是一种视觉Transformer。它通过在更深的层中合并图像块（灰色部分）来构建分层特征图，并且由于仅在每个局部窗口（红色部分）内计算自注意力，因此对输入图像大小具有线性计算复杂度。这使得它可以作为图像分类和密集识别任务的通用主干网络。相比之下，之前的视觉Transformer只能生成单一低分辨率的特征图，并且由于全局计算自注意力，对输入图像大小具有二次计算复杂度。

Swin Transformer v2的改进

Swin Transformer v2主要有3点改进：

采用残差后归一化方法结合余弦注意力，提高训练稳定性；
引入对数间隔连续位置偏置方法，有效将低分辨率图像预训练的模型迁移到高分辨率输入的下游任务；
采用自监督预训练方法SimMIM，减少对大量标记图像的需求。

模型架构图

来源

📚 详细文档

预期用途和限制

你可以使用原始模型进行图像分类。

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}