MambaVision-T-1K开源计算机视觉模型 - 结合优势提升长距离空间建模能力

首页

Mambavision T 1K

由 nvidia 开发

MambaVision是首个结合Mamba和Transformer优势的计算机视觉混合模型，通过重新设计Mamba公式并集成ViT模块，显著提升了长距离空间依赖关系的建模能力。

图像分类

Transformers

开源协议:其他 #混合Mamba-Transformer #高效视觉建模 #长距离空间依赖

下载量 2,323

发布时间 : 7/14/2024

模型简介

MambaVision是一种混合Mamba-Transformer视觉骨干网络，专为图像分类和特征提取任务设计。它结合了Mamba的高效建模能力和Transformer的长距离依赖捕捉能力，在Top-1准确率和吞吐量方面达到了新的SOTA水平。

模型特点

混合架构创新

首次将Mamba和Transformer优势结合，重新设计Mamba公式以增强视觉特征建模能力

层次化设计

提供一系列具有层次化架构的模型，满足不同设计需求

高效长距离依赖建模

在Mamba架构最后一层加入多个自注意力模块，显著提升长距离空间依赖关系捕捉能力

模型能力

图像分类

图像特征提取

多阶段特征输出

使用案例

计算机视觉

图像分类

对输入图像进行分类识别，如识别动物种类

示例中成功识别出棕熊

特征提取

提取图像的多层次特征表示，可用于下游任务

可输出4个阶段的特征图及平均池化特征

🚀 MambaVision：混合Mamba - Transformer视觉骨干网络

MambaVision是首个用于计算机视觉的混合模型，结合了Mamba和Transformer的优势，可高效进行图像分类和特征提取，在精度和吞吐量上表现出色。

🚀 快速开始

安装

强烈建议通过运行以下命令来安装MambaVision的依赖项：

pip install mambavision

使用示例

基础用法

对于每个模型，我们提供了用于图像分类和特征提取的两种变体，只需一行代码即可导入。

图像分类

以下示例展示了如何使用MambaVision进行图像分类。以COCO数据集验证集中的一张图像作为输入：

可以使用以下代码片段进行图像分类：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-T-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# model inference
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

预测的标签是 brown bear, bruin, Ursus arctos.

特征提取

MambaVision还可以用作通用特征提取器。具体来说，我们可以提取模型每个阶段（共4个阶段）的输出以及最终的平均池化特征（已展平）。

可以使用以下代码片段进行特征提取：

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-T-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 640])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 640, 7, 7])

✨ 主要特性

混合架构：开发了首个结合Mamba和Transformer优势的计算机视觉混合模型。
性能优越：在Top - 1准确率和吞吐量方面达到了新的SOTA帕累托前沿。
灵活变体：每个模型提供图像分类和特征提取两种变体，导入简单。

📦 安装指南

通过以下命令安装MambaVision：

pip install mambavision

📚 详细文档

模型概述

我们开发了首个用于计算机视觉的混合模型，充分利用了Mamba和Transformer的优势。具体而言，我们的核心贡献包括重新设计Mamba公式，以增强其对视觉特征进行高效建模的能力。此外，我们对将视觉Transformer（ViT）与Mamba集成的可行性进行了全面的消融研究。结果表明，在Mamba架构的最后几层配备几个自注意力块，可以极大地提高捕捉长距离空间依赖关系的建模能力。基于这些发现，我们推出了一系列具有分层架构的MambaVision模型，以满足各种设计标准。