MambaVision-L3-256-21K开源视觉模型 - 融合优势提升视觉特征与长程空间建模能力

首页

Mambavision L3 256 21K

由 nvidia 开发

首个结合Mamba与Transformer优势的计算机视觉混合模型，通过重构Mamba公式增强视觉特征建模效率，在Mamba架构最后几层引入自注意力模块提升长程空间依赖建模能力。

图像分类

Transformers

开源协议:其他 #混合Mamba-Transformer #长程空间建模 #高精度图像分类

下载量 510

发布时间 : 3/24/2025

模型简介

MambaVision是一个混合Mamba-Transformer视觉骨干网络，专为图像分类和特征提取设计，在ImageNet-21K数据集上预训练，并在ImageNet-1K上微调。

模型特点

混合架构

结合Mamba的高效序列建模和Transformer的长程依赖捕捉能力，优化视觉特征提取。

层级结构

采用层级设计，满足多样化视觉任务需求，支持多阶段特征提取。

性能优化

在Top-1准确率与吞吐量方面实现了新的SOTA帕累托前沿。

模型能力

图像分类

视觉特征提取

多阶段特征图输出

使用案例

计算机视觉

图像分类

对输入图像进行分类，识别图像中的主要对象。

在ImageNet-1K上达到87.3%的Top-1准确率。

特征提取

提取图像的多阶段特征图，用于下游视觉任务。

支持4个阶段的特征图输出，适用于不同粒度的视觉分析。

🚀 MambaVision：混合Mamba-Transformer视觉骨干网络

MambaVision是首个用于计算机视觉的混合模型，结合了Mamba和Transformer的优势，能高效建模视觉特征，在图像分类任务中表现出色。

🚀 快速开始

安装

强烈建议通过运行以下命令来安装MambaVision所需的依赖：

pip install mambavision

✨ 主要特性

开发了首个结合Mamba和Transformer优势的计算机视觉混合模型。
重新设计Mamba公式，增强其对视觉特征的高效建模能力。
对Vision Transformers (ViT) 与Mamba集成的可行性进行了全面的消融研究。
在Mamba架构的最后几层配备多个自注意力块，显著提高了捕捉长距离空间依赖的建模能力。
引入了具有分层架构的MambaVision模型家族，以满足各种设计标准。

📚 详细文档

模型概述

我们开发了首个用于计算机视觉的混合模型，充分利用了Mamba和Transformer的优势。具体而言，我们的核心贡献包括重新设计Mamba公式，以增强其对视觉特征进行高效建模的能力。此外，我们对将视觉Transformer（ViT）与Mamba集成的可行性进行了全面的消融研究。结果表明，在Mamba架构的最后几层配备多个自注意力块，极大地提高了捕捉长距离空间依赖的建模能力。基于这些发现，我们引入了具有分层架构的MambaVision模型家族，以满足各种设计标准。

模型性能

MambaVision-L3-256-21K在ImageNet-21K数据集上进行预训练，并在ImageNet-1K上进行微调。预训练和微调均在256 x 256分辨率下进行。

名称	准确率@1(%)	准确率@5(%)	参数数量(M)	浮点运算次数(G)	分辨率
MambaVision-L3-256-21K	87.3	98.3	739.6	122.3	256x256

此外，MambaVision模型在Top-1准确率和吞吐量方面达到了新的最优帕累托前沿，表现出色。

💻 使用示例

基础用法 - 图像分类

以下示例展示了如何使用MambaVision进行图像分类：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L3-256-21K", trust_remote_code=True)

# 评估模式用于推理
model.cuda().eval()

# 为模型准备图像
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 256, 256)  # MambaVision支持任何输入分辨率

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# 模型推理
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("预测类别:", model.config.id2label[predicted_class_idx])

预测标签为 棕熊，bruin，Ursus arctos。

高级用法 - 特征提取

MambaVision还可以用作通用特征提取器。具体来说，我们可以提取模型每个阶段（4个阶段）的输出以及最终的平均池化特征（已展平）。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L3-256-21K", trust_remote_code=True)

# 评估模式用于推理
model.cuda().eval()

# 为模型准备图像
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 256, 256)  # MambaVision支持任何输入分辨率

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# 模型推理
out_avg_pool, features = model(inputs)
print("平均池化特征的大小:", out_avg_pool.size())  # torch.Size([1, 1568])
print("提取特征的阶段数:", len(features)) # 4个阶段
print("第1阶段提取特征的大小:", features[0].size()) # torch.Size([1, 196, 128, 128])
print("第4阶段提取特征的大小:", features[3].size()) # torch.Size([1, 1568, 16, 16])

📄 许可证

本项目遵循 NVIDIA源代码许可协议 - 非商业用途。

Mambavision L3 256 21K

模型简介

模型特点

模型能力

使用案例

🚀 MambaVision：混合Mamba-Transformer视觉骨干网络

🚀 快速开始

安装

✨ 主要特性

📚 详细文档

模型概述

模型性能

💻 使用示例

基础用法 - 图像分类

高级用法 - 特征提取

📄 许可证

相关链接