Swin Transformer开源图像分类模型 - 免费部署精准完成图像分类任务

首页

Swin Large Patch4 Window12 384

由 microsoft 开发

Swin Transformer是一种基于移位窗口的分层视觉Transformer模型，专为图像分类任务设计。

图像分类

Transformers

开源协议:Apache-2.0 #分层视觉Transformer #高分辨率图像分类 #局部窗口注意力

下载量 22.77k

发布时间 : 3/2/2022

模型简介

该模型在ImageNet-1k数据集上以384x384分辨率训练，通过局部窗口计算自注意力机制，实现线性计算复杂度，适合作为图像分类和密集识别任务的骨干网络。

模型特点

分层特征图

通过合并深层图像块构建分层特征图，增强模型对不同尺度特征的捕捉能力。

局部窗口自注意力

仅在局部窗口内计算自注意力机制，使计算复杂度与输入图像大小呈线性关系，提高效率。

高分辨率处理

支持384x384高分辨率图像输入，适合精细图像分类任务。

模型能力

图像分类

视觉特征提取

使用案例

计算机视觉

ImageNet图像分类

将图像分类为1000个ImageNet类别之一。

高准确率的分类效果（具体指标未提供）。

🚀 Swin Transformer（大型模型）

Swin Transformer是一个在ImageNet - 1k数据集上以384x384分辨率训练的模型。它由Liu等人在论文 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 中提出，并首次在此仓库发布。

⚠️ 重要提示 该模型的原团队并未编写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

Swin Transformer是一种视觉Transformer模型。它通过在更深的层中合并图像块（灰色部分）来构建分层特征图，并且由于仅在每个局部窗口（红色部分）内计算自注意力，因此对输入图像大小具有线性计算复杂度。这使得它可以作为图像分类和密集识别任务的通用主干网络。相比之下，之前的视觉Transformer只能生成单一低分辨率的特征图，并且由于全局计算自注意力，对输入图像大小具有二次计算复杂度。

模型架构图

来源

🚀 快速开始

你可以使用该原始模型进行图像分类。你可以在模型中心中查找针对你感兴趣的任务进行微调的版本。

💻 使用示例

基础用法

以下是如何使用此模型将COCO 2017数据集中的图像分类为1000个ImageNet类别之一：

from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-large-patch4-window12-384")
model = SwinForImageClassification.from_pretrained("microsoft/swin-large-patch4-window12-3844")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代码示例请参考文档。

📚 详细文档

BibTeX引用和引用信息

@article{DBLP:journals/corr/abs-2103-14030,
  author    = {Ze Liu and
               Yutong Lin and
               Yue Cao and
               Han Hu and
               Yixuan Wei and
               Zheng Zhang and
               Stephen Lin and
               Baining Guo},
  title     = {Swin Transformer: Hierarchical Vision Transformer using Shifted Windows},
  journal   = {CoRR},
  volume    = {abs/2103.14030},
  year      = {2021},
  url       = {https://arxiv.org/abs/2103.14030},
  eprinttype = {arXiv},
  eprint    = {2103.14030},
  timestamp = {Thu, 08 Apr 2021 07:53:26 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2103-14030.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}