Mambavision L3 512 21K

由 nvidia 开发

MambaVision是首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型，通过重新设计曼巴公式增强视觉特征建模能力，并在曼巴架构最后几层加入自注意力模块提升长距离空间依赖建模能力。

图像分类

Transformers

开源协议:其他 #混合曼巴-Transformer架构 #高分辨率图像分类 #长距离空间建模

下载量 7,548

发布时间 : 3/24/2025

模型简介

MambaVision系列模型是专为计算机视觉任务设计的混合架构，结合了曼巴(Mamba)的高效序列建模能力和Transformer的自注意力机制，适用于图像分类和特征提取等任务。

模型特点

混合架构设计

结合曼巴(Mamba)的高效序列建模能力和Transformer的自注意力机制，在曼巴架构最后几层加入自注意力模块以提升长距离空间依赖建模能力。

层级结构

提供具有层级结构的模型系列，包括不同规模的模型以满足不同计算资源和性能需求。

高性能

在Top1准确率与吞吐量方面实现了新的SOTA帕累托前沿，平衡了模型性能和计算效率。

模型能力

图像分类

特征提取

使用案例

计算机视觉

图像分类

使用MambaVision对图像进行分类，如识别动物种类、物体类别等。

在ImageNet-1K上达到88.1%的Top1准确率。

特征提取

提取图像的四阶段特征图及全局池化特征，可用于下游任务如目标检测、图像分割等。

🚀 MambaVision：混合Mamba-Transformer视觉骨干网络

MambaVision是首个结合Mamba和Transformer优势的计算机视觉混合模型，重新设计Mamba公式以高效建模视觉特征，在图像分类任务中表现出色。

🚀 快速开始

安装依赖

我们提供了一个 Docker文件。此外，假设已经安装了最新的 PyTorch 包，可以通过运行以下命令来安装依赖项：

pip install -r requirements.txt

也可以直接运行以下命令安装MambaVision所需的依赖：

pip install mambavision

✨ 主要特性

我们开发了首个用于计算机视觉的混合模型，充分利用了Mamba和Transformer的优势。具体而言，我们的核心贡献包括重新设计Mamba公式，以增强其对视觉特征进行高效建模的能力。此外，我们对将视觉Transformer（ViT）与Mamba集成的可行性进行了全面的消融研究。结果表明，在Mamba架构的最后几层配备几个自注意力块，可以大大提高其捕捉长距离空间依赖关系的建模能力。基于这些发现，我们推出了一系列具有分层架构的MambaVision模型，以满足各种设计标准。

💻 使用示例

基础用法

图像分类

在以下示例中，我们展示了如何使用MambaVision进行图像分类。以 COCO数据集验证集中的一张图像作为输入：

可以使用以下代码片段进行图像分类： ```python from transformers import AutoModelForImageClassification from PIL import Image from timm.data.transforms_factory import create_transform import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L3-512-21K", trust_remote_code=True)

eval mode for inference

model.cuda().eval()

prepare image for the model

url = 'http://images.cocodataset.org/val2017/000000020247.jpg' image = Image.open(requests.get(url, stream=True).raw) input_resolution = (3, 512, 512) # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution, is_training=False, mean=model.config.mean, std=model.config.std, crop_mode=model.config.crop_mode, crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()

model inference

outputs = model(inputs) logits = outputs['logits'] predicted_class_idx = logits.argmax(-1).item() print("Predicted class:", model.config.id2label[predicted_class_idx])

预测的标签是 ```brown bear, bruin, Ursus arctos.```

#### 特征提取
MambaVision还可以用作通用特征提取器。具体来说，我们可以提取模型每个阶段（共4个阶段）的输出以及最终的平均池化特征（已展平）。可以使用以下代码片段进行特征提取：
```python
from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L3-512-21K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 512, 512)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 1568])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 196, 128, 128])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 1568, 16, 16])

📚 详细文档

模型性能

MambaVision-L3-512-21K在ImageNet-21K数据集上进行预训练，并在512 x 512分辨率的ImageNet-1K数据集上进行微调。

名称	准确率@1(%)	准确率@5(%)	参数数量(M)	浮点运算次数(G)	分辨率
MambaVision-L3-512-21K	88.1	98.6	739.6	489.1	512x512

此外，MambaVision模型在Top-1准确率和吞吐量方面达到了新的SOTA帕累托前沿，表现出色。

预训练模型结果

ImageNet-21K

名称	准确率@1(%)	准确率@5(%)	参数数量(M)	浮点运算次数(G)	分辨率	Hugging Face链接	下载链接
MambaVision-B-21K	84.9	97.5	97.7	15.0	224x224	链接	模型
MambaVision-L-21K	86.1	97.9	227.9	34.9	224x224	链接	模型
MambaVision-L2-512-21K	87.3	98.4	241.5	196.3	512x512	链接	模型
MambaVision-L3-256-21K	87.3	98.3	739.6	122.3	256x256	链接	模型
MambaVision-L3-512-21K	88.1	98.6	739.6	489.1	512x512	链接	模型

ImageNet-1K

名称	准确率@1(%)	准确率@5(%)	吞吐量(图像/秒)	分辨率	参数数量(M)	浮点运算次数(G)	Hugging Face链接	下载链接
MambaVision-T	82.3	96.2	6298	224x224	31.8	4.4	链接	模型
MambaVision-T2	82.7	96.3	5990	224x224	35.1	5.1	链接	模型
MambaVision-S	83.3	96.5	4700	224x224	50.1	7.5	链接	模型
MambaVision-B	84.2	96.9	3670	224x224	97.7	15.0	链接	模型
MambaVision-L	85.0	97.1	2190	224x224	227.9	34.9	链接	模型
MambaVision-L2	85.3	97.2	1021	224x224	241.5	37.5	链接	模型