🚀 Swin Transformer v2(小型模型)
Swin Transformer v2 是在 ImageNet - 1k 数据集上以 256x256 分辨率预训练的模型。它由 Liu 等人在论文 Swin Transformer V2: Scaling Up Capacity and Resolution 中提出,并首次在 [此仓库](https://github.com/microsoft/Swin - Transformer) 发布。
⚠️ 重要提示
本模型的原团队并未编写模型卡片,此模型卡片由 Hugging Face 团队编写。
📚 详细文档
模型描述
Swin Transformer 是一种视觉变换器(Vision Transformer)。它通过在更深的层中合并图像块(灰色部分所示)来构建分层特征图,并且由于仅在每个局部窗口(红色部分所示)内计算自注意力,因此对输入图像大小具有线性计算复杂度。因此,它可以作为图像分类和密集识别任务的通用骨干网络。相比之下,之前的视觉变换器仅生成单一低分辨率的特征图,并且由于全局计算自注意力,对输入图像大小具有二次计算复杂度。
Swin Transformer v2 主要有 3 项改进:
- 结合余弦注意力的残差后归一化(residual - post - norm)方法,以提高训练稳定性;
- 对数间隔连续位置偏置(log - spaced continuous position bias)方法,以有效地将使用低分辨率图像预训练的模型迁移到高分辨率输入的下游任务;
- 自监督预训练方法 SimMIM,以减少对大量标记图像的需求。

来源
预期用途与限制
你可以使用原始模型进行图像分类。请查看 模型中心 以查找针对你感兴趣的任务进行微调的版本。
💻 使用示例
基础用法
以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 1000 个 ImageNet 类别之一的示例:
from transformers import AutoImageProcessor, AutoModelForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-small-patch4-window16-256")
model = AutoModelForImageClassification.from_pretrained("microsoft/swinv2-small-patch4-window16-256")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代码示例请参考 文档。
BibTeX 引用
@article{DBLP:journals/corr/abs-2111-09883,
author = {Ze Liu and
Han Hu and
Yutong Lin and
Zhuliang Yao and
Zhenda Xie and
Yixuan Wei and
Jia Ning and
Yue Cao and
Zheng Zhang and
Li Dong and
Furu Wei and
Baining Guo},
title = {Swin Transformer {V2:} Scaling Up Capacity and Resolution},
journal = {CoRR},
volume = {abs/2111.09883},
year = {2021},
url = {https://arxiv.org/abs/2111.09883},
eprinttype = {arXiv},
eprint = {2111.09883},
timestamp = {Thu, 02 Dec 2021 15:54:22 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-09883.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 许可证
本项目采用 Apache - 2.0 许可证。
属性 |
详情 |
模型类型 |
视觉变换器(用于图像分类) |
训练数据 |
ImageNet - 1k |