S

Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft

Developed by microsoft
Swin Transformer v2是基于ImageNet-21k预训练并在384x384分辨率下对ImageNet-1k进行微调的视觉Transformer模型,具有分层特征图和局部窗口自注意力机制。
Downloads 3,048
Release Time : 6/16/2022

Model Overview

该模型主要用于图像分类任务,通过构建分层特征图和局部窗口自注意力机制,有效降低计算复杂度,适用于各种视觉识别任务。

Model Features

分层特征图
通过在更深层合并图像块构建分层特征图,适用于不同分辨率的图像处理。
局部窗口自注意力
仅在局部窗口内计算自注意力,计算复杂度与输入图像大小呈线性关系,提高效率。
训练稳定性改进
结合残差后归一化与余弦注意力,提高训练稳定性。
高分辨率迁移能力
采用对数间隔连续位置偏置方法,有效将低分辨率预训练模型迁移至高分辨率输入任务。
自监督预训练
引入SimMIM自监督预训练方法,减少对大量标注图像的需求。

Model Capabilities

图像分类
视觉特征提取
高分辨率图像处理

Use Cases

通用图像分类
ImageNet分类
将图像分类为1000个ImageNet类别之一。
高准确率的图像分类能力。
视觉识别
物体识别
识别图像中的特定物体,如动物、日常用品等。
准确识别多种常见物体。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase