MambaVision-L-21K开源视觉模型 - 用于图像分类等视觉任务超出色

首页

Mambavision L 21K

由 nvidia 开发

MambaVision是一种混合曼巴-Transformer视觉骨干网络，专为视觉应用设计，结合了曼巴公式和视觉Transformer的优势，在图像分类和下游视觉任务中表现出色。

图像分类

Transformers

开源协议:其他 #混合曼巴-Transformer #高效视觉建模 #长距离空间依赖

下载量 571

发布时间 : 3/24/2025

模型简介

MambaVision是一种新颖的混合曼巴-Transformer骨干网络，通过重新设计曼巴公式增强视觉特征建模能力，并在最后一层加入自注意力块以捕捉长距离空间依赖关系。该模型在ImageNet-1K分类任务中达到SOTA性能，并在目标检测、实例分割和语义分割等下游任务中表现优异。

模型特点

混合架构设计

结合曼巴公式和视觉Transformer的优势，重新设计曼巴公式以增强视觉特征建模能力

分层结构

采用分层架构设计，满足不同设计标准，最后一层加入自注意力块以捕捉长距离空间依赖关系

高性能

在ImageNet-1K分类任务中达到86.1%的Top-1准确率，在下游视觉任务中表现优异

高效推理

在准确率和吞吐量方面实现SOTA帕累托前沿，平衡性能与效率

模型能力

图像分类

特征提取

目标检测

实例分割

语义分割

使用案例

计算机视觉

图像分类

对输入图像进行分类，识别图像中的主要对象类别

在ImageNet-1K上达到86.1%的Top-1准确率

特征提取

提取图像的多层次特征，可用于下游视觉任务

可提取4个阶段的特征和最终平均池化特征

目标检测

作为骨干网络用于目标检测任务

在MS COCO数据集上表现优于同等规模骨干网络

语义分割

作为骨干网络用于语义分割任务

在ADE20K数据集上表现优于同等规模骨干网络

🚀 MambaVision：混合Mamba-Transformer视觉主干网络

MambaVision是一种专门为视觉应用设计的新型混合Mamba-Transformer主干网络。它重新设计了Mamba公式，增强了对视觉特征的高效建模能力，在图像分类和下游任务中表现出色。

🚀 快速开始

安装

强烈建议通过运行以下命令来安装MambaVision的依赖项：

pip install mambavision

✨ 主要特性

提出了一种新颖的混合Mamba-Transformer主干网络MambaVision，专为视觉应用量身定制。
重新设计Mamba公式，增强其对视觉特征的高效建模能力。
对Vision Transformers (ViT) 与Mamba集成的可行性进行了全面的消融研究。
在Mamba架构的最后几层配备几个自注意力块，大大提高了捕捉长距离空间依赖的建模能力。
引入了具有分层架构的MambaVision模型家族，以满足各种设计标准。
在ImageNet - 1K数据集的图像分类任务中，MambaVision模型变体在Top - 1准确率和图像吞吐量方面达到了新的最优性能。
在MS COCO和ADE20K数据集的目标检测、实例分割和语义分割等下游任务中，MambaVision优于同等规模的主干网络。

📚 详细文档

模型描述

我们提出了一种新颖的混合Mamba - Transformer主干网络，称为MambaVision，专门用于视觉应用。我们的核心贡献包括重新设计Mamba公式，以增强其对视觉特征的高效建模能力。此外，我们对Vision Transformers (ViT) 与Mamba集成的可行性进行了全面的消融研究。结果表明，在Mamba架构的最后几层配备几个自注意力块，大大提高了捕捉长距离空间依赖的建模能力。基于这些发现，我们引入了具有分层架构的MambaVision模型家族，以满足各种设计标准。在ImageNet - 1K数据集的图像分类任务中，MambaVision模型变体在Top - 1准确率和图像吞吐量方面达到了新的最优 (SOTA) 性能。在MS COCO和ADE20K数据集的目标检测、实例分割和语义分割等下游任务中，MambaVision优于同等规模的主干网络，表现更出色。代码链接：https://github.com/NVlabs/MambaVision 。

模型性能

MambaVision - L - 21K在ImageNet - 21K数据集上进行预训练，并在ImageNet - 1K上进行微调。

名称	准确率@1(%)	准确率@5(%)	参数数量(M)	浮点运算次数(G)	分辨率
MambaVision - L - 21K	86.1	97.9	227.9	34.9	224x224

此外，MambaVision模型在Top - 1准确率和吞吐量方面达到了新的SOTA帕累托前沿，表现强劲。

模型使用

基础用法

图像分类

以下示例展示了如何使用MambaVision进行图像分类。给定来自COCO数据集验证集的图像作为输入：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L-21K", trust_remote_code=True)

# 推理时使用评估模式
model.cuda().eval()

# 为模型准备图像
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision支持任何输入分辨率

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# 模型推理
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("预测类别:", model.config.id2label[predicted_class_idx])

预测标签为brown bear, bruin, Ursus arctos.

特征提取

MambaVision也可用作通用特征提取器。具体来说，我们可以提取模型每个阶段（4个阶段）的输出以及最终的平均池化特征（已展平）。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L-21K", trust_remote_code=True)

# 推理时使用评估模式
model.cuda().eval()

# 为模型准备图像
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision支持任何输入分辨率

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# 模型推理
out_avg_pool, features = model(inputs)
print("平均池化特征的大小:", out_avg_pool.size())  # torch.Size([1, 640])
print("提取特征的阶段数:", len(features)) # 4个阶段
print("第1阶段提取特征的大小:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("第4阶段提取特征的大小:", features[3].size()) # torch.Size([1, 640, 7, 7])

许可证

NVIDIA源代码许可协议 - 非商业用途

信息表格

属性	详情
数据集	ILSVRC/imagenet - 21k
许可证	其他（NVIDIA Source Code License - NC）
许可证名称	nvclv1
许可证链接	LICENSE
任务类型	图像分类
库名称	transformers