Swinv2-small-patch4-window8-256开源视觉模型 - 高效处理各类图像任务

首页

Swinv2 Small Patch4 Window8 256

由 microsoft 开发

Swin Transformer v2 是一种视觉Transformer模型，通过分层特征图和局部窗口自注意力机制实现高效的图像处理。

图像分类

Transformers

开源协议:Apache-2.0 #高分辨率图像分类 #分层特征提取 #局部窗口注意力

下载量 1,836

发布时间 : 6/15/2022

模型简介

该模型在ImageNet-1k数据集上以256x256分辨率进行了预训练，适用于图像分类任务。

模型特点

分层特征图

通过在更深层合并图像块构建分层特征图，提高特征提取效率。

局部窗口自注意力

仅在局部窗口内计算自注意力，使计算复杂度与输入图像大小呈线性关系。

训练稳定性改进

采用残差后归一化和余弦注意力提高训练稳定性。

高分辨率迁移能力

使用对数间隔连续位置偏置方法，有效支持从低分辨率到高分辨率输入的迁移。

模型能力

图像分类

视觉特征提取

使用案例

计算机视觉

图像分类

将图像分类为1000个ImageNet类别之一。

🚀 Swin Transformer v2（小型模型）

Swin Transformer v2 是一个在 ImageNet - 1k 数据集上以 256x256 分辨率预训练的模型。它能够作为图像分类和密集识别任务的通用骨干网络，为计算机视觉领域的相关任务提供强大支持。

🚀 快速开始

你可以使用原始模型进行图像分类。你可以在模型中心中查找针对你感兴趣的任务进行微调后的版本。

以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 1000 个 ImageNet 类别之一的示例：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-small-patch4-window8-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-small-patch4-window8-256")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例，请参考文档。

✨ 主要特性

模型改进

Swin Transformer v2 在原有的 Swin Transformer 基础上进行了 3 项主要改进：

采用残差后归一化方法并结合余弦注意力机制，提高了训练稳定性。
引入对数间隔连续位置偏置方法，能够有效地将使用低分辨率图像预训练的模型迁移到高分辨率输入的下游任务中。
采用自监督预训练方法 SimMIM，减少了对大量标注图像的需求。

模型优势

Swin Transformer 是一种视觉变换器，它通过在更深的层中合并图像块（灰色部分）来构建分层特征图，并且由于仅在每个局部窗口（红色部分）内计算自注意力，因此对输入图像大小具有线性计算复杂度。这使得它可以作为图像分类和密集识别任务的通用骨干网络。相比之下，以前的视觉变换器只能生成单一低分辨率的特征图，并且由于全局自注意力计算，对输入图像大小具有二次计算复杂度。

模型架构图来源

📚 详细文档

模型描述

Swin Transformer v2 模型在 ImageNet - 1k 数据集上以 256x256 分辨率进行了预训练。该模型由 Liu 等人在论文 Swin Transformer V2: Scaling Up Capacity and Resolution 中提出，并首次在 [此仓库](https://github.com/microsoft/Swin - Transformer) 中发布。

预期用途和限制

你可以使用原始模型进行图像分类。你可以在模型中心中查找针对你感兴趣的任务进行微调后的版本。

BibTeX 引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}