Swin Transformer v2开源视觉模型 - 免费用于高效图像分类与密集识别

首页

Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft

由 microsoft 开发

Swin Transformer v2是一种视觉Transformer模型，通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。

图像分类

Transformers

开源协议:Apache-2.0 #分层视觉Transformer #高分辨率图像分类 #余弦注意力机制

下载量 812

发布时间 : 6/16/2022

模型简介

该模型在ImageNet-21k上进行了预训练，并在256x256分辨率的ImageNet-1k上进行了微调，适用于图像分类任务。

模型特点

分层特征图

通过在更深层合并图像块构建分层特征图，提高特征提取效率。

局部窗口自注意力

仅在局部窗口内计算自注意力，计算复杂度与输入图像大小呈线性关系。

残差后归一化

采用残差后归一化方法结合余弦注意力，提高训练稳定性。

对数间隔连续位置偏置

有效将低分辨率图像预训练的模型迁移到高分辨率输入的下游任务。

自监督预训练

采用SimMIM自监督预训练方法，减少对大量标注图像的需求。

模型能力

图像分类

视觉特征提取

使用案例

图像识别

动物识别

识别图像中的动物种类，如老虎。

物体识别

识别日常物体，如茶壶。

场景识别

识别复杂场景，如宫殿。

🚀 Swin Transformer v2 (基础尺寸模型)

Swin Transformer v2是基于Transformer架构的视觉模型，适用于图像分类等视觉任务，在ImageNet数据集上有出色表现。

🚀 快速开始

Swin Transformer v2模型在ImageNet - 21k上进行预训练，并在分辨率为256x256的ImageNet - 1k上进行微调。它由Liu等人在论文Swin Transformer V2: Scaling Up Capacity and Resolution中提出，并首次在[此代码库](https://github.com/microsoft/Swin - Transformer)中发布。

免责声明：发布Swin Transformer v2的团队未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

分层特征图构建：Swin Transformer是一种视觉Transformer，它通过在更深的层中合并图像块（灰色部分所示）来构建分层特征图，并且由于仅在每个局部窗口（红色部分所示）内计算自注意力，因此对输入图像大小具有线性计算复杂度。这使得它可以作为图像分类和密集识别任务的通用主干网络。相比之下，之前的视觉Transformer产生单一低分辨率的特征图，并且由于全局计算自注意力，对输入图像大小具有二次计算复杂度。
三大改进：Swin Transformer v2进行了三项主要改进：
1. 采用残差后归一化方法与余弦注意力相结合，提高训练稳定性。
2. 引入对数间隔连续位置偏置方法，有效地将使用低分辨率图像预训练的模型迁移到高分辨率输入的下游任务中。
3. 采用自监督预训练方法SimMIM，减少对大量标注图像的需求。

模型图像

来源

📚 详细文档

预期用途与限制

可以使用原始模型进行图像分类。可查看模型中心，寻找针对你感兴趣任务的微调版本。

如何使用

以下是如何使用此模型将COCO 2017数据集中的图像分类为1000个ImageNet类别之一的示例：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12to16-192to256-22kto1k-ft")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# 模型预测1000个ImageNet类别之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例，请参考文档。

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}