Swinv2-large开源视觉模型 - 免费用于高效图像分类与密集识别任务

首页

Swinv2 Large Patch4 Window12 192 22k

由 microsoft 开发

Swin Transformer v2是一种视觉Transformer模型，通过分层特征图和局部窗口自注意力机制实现高效的图像分类和密集识别任务。

图像分类

Transformers

开源协议:Apache-2.0 #高分辨率图像分类 #分层特征图 #窗口自注意力

下载量 3,816

发布时间 : 6/15/2022

模型简介

该模型在ImageNet-21k数据集上以192x192分辨率进行了预训练，采用改进的残差后归一化和余弦注意力机制，适用于图像分类任务。

模型特点

分层特征图

通过在更深层合并图像块构建分层特征图，提高特征提取效率。

局部窗口自注意力

仅在局部窗口内计算自注意力，使计算复杂度与输入图像大小呈线性关系。

训练稳定性改进

结合残差后归一化和余弦注意力机制，提高训练稳定性。

高分辨率迁移

采用对数间隔连续位置偏置方法，有效将低分辨率预训练模型迁移到高分辨率任务。

模型能力

图像分类

视觉特征提取

使用案例

图像识别

动物识别

识别图像中的动物种类，如老虎等。

物体识别

识别日常物体，如茶壶等。

场景识别

识别建筑或自然场景，如宫殿等。

🚀 Swin Transformer v2（大型模型）

Swin Transformer v2 是在分辨率为 192x192 的 ImageNet - 21k 数据集上预训练的模型。它由 Liu 等人在论文 Swin Transformer V2: Scaling Up Capacity and Resolution 中提出，并首次在此仓库发布。

⚠️ 重要提示

发布 Swin Transformer v2 的团队并未为此模型编写模型卡片，此卡片由 Hugging Face 团队编写。

✨ 主要特性

层次化特征图：Swin Transformer 通过在更深的层中合并图像块（灰色部分）来构建层次化特征图，并且由于仅在每个局部窗口（红色部分）内计算自注意力，其计算复杂度与输入图像大小呈线性关系，可作为图像分类和密集识别任务的通用主干网络。
改进训练稳定性：Swin Transformer v2 采用残差后归一化方法结合余弦注意力，提高了训练稳定性。
有效迁移模型：使用对数间隔连续位置偏置方法，能将低分辨率图像预训练的模型有效迁移到高分辨率输入的下游任务。
减少标注需求：采用自监督预训练方法 SimMIM，减少了对大量标注图像的需求。

模型架构图

来源

🚀 快速开始

你可以使用该原始模型进行图像分类。查看模型中心以查找针对你感兴趣任务的微调版本。

💻 使用示例

基础用法

以下是如何使用该模型将 COCO 2017 数据集中的图像分类到 21k ImageNet 类别之一的示例：

from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-large-patch4-window12-192-22k")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 21k ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例请参考文档。

📚 详细文档

模型描述

Swin Transformer 是一种视觉变换器。它通过在更深的层中合并图像块（灰色部分）来构建层次化特征图，并且由于仅在每个局部窗口（红色部分）内计算自注意力，其计算复杂度与输入图像大小呈线性关系。因此，它可以作为图像分类和密集识别任务的通用主干网络。相比之下，之前的视觉变换器仅产生单一低分辨率的特征图，并且由于全局计算自注意力，其计算复杂度与输入图像大小呈二次关系。

Swin Transformer v2 主要有 3 点改进：

采用残差后归一化方法结合余弦注意力，提高训练稳定性。
使用对数间隔连续位置偏置方法，能有效将低分辨率图像预训练的模型迁移到高分辨率输入的下游任务。
采用自监督预训练方法 SimMIM，减少对大量标注图像的需求。

预期用途和限制

可以使用原始模型进行图像分类。

BibTeX 引用信息

@article{DBLP:journals/corr/abs-2111-09883,
  author    = {Ze Liu and
               Han Hu and
               Yutong Lin and
               Zhuliang Yao and
               Zhenda Xie and
               Yixuan Wei and
               Jia Ning and
               Yue Cao and
               Zheng Zhang and
               Li Dong and
               Furu Wei and
               Baining Guo},
  title     = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
  journal   = {CoRR},
  volume    = {abs/2111.09883},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09883},
  eprinttype = {arXiv},
  eprint    = {2111.09883},
  timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

📄 许可证

本项目采用 Apache - 2.0 许可证。

属性	详情
模型类型	视觉变换器，用于图像分类
训练数据	ImageNet - 21k 数据集
标签示例	可在模型预测中分类到 21k ImageNet 类别之一