MambaVision-L3-256-21K開源視覺模型 - 融合優勢提升視覺特徵與長程空間建模能力

首頁

Mambavision L3 256 21K

由nvidia開發

首個結合Mamba與Transformer優勢的計算機視覺混合模型，通過重構Mamba公式增強視覺特徵建模效率，在Mamba架構最後幾層引入自注意力模塊提升長程空間依賴建模能力。

圖像分類

Transformers

開源協議:其他 #混合Mamba-Transformer #長程空間建模 #高精度圖像分類

下載量 510

發布時間 : 3/24/2025

模型概述

MambaVision是一個混合Mamba-Transformer視覺骨幹網絡，專為圖像分類和特徵提取設計，在ImageNet-21K數據集上預訓練，並在ImageNet-1K上微調。

模型特點

混合架構

結合Mamba的高效序列建模和Transformer的長程依賴捕捉能力，優化視覺特徵提取。

層級結構

採用層級設計，滿足多樣化視覺任務需求，支持多階段特徵提取。

性能優化

在Top-1準確率與吞吐量方面實現了新的SOTA帕累託前沿。

模型能力

圖像分類

視覺特徵提取

多階段特徵圖輸出

使用案例

計算機視覺

圖像分類

對輸入圖像進行分類，識別圖像中的主要對象。

在ImageNet-1K上達到87.3%的Top-1準確率。

特徵提取

提取圖像的多階段特徵圖，用於下游視覺任務。

支持4個階段的特徵圖輸出，適用於不同粒度的視覺分析。

🚀 MambaVision：混合Mamba-Transformer視覺骨幹網絡

MambaVision是首個用於計算機視覺的混合模型，結合了Mamba和Transformer的優勢，能高效建模視覺特徵，在圖像分類任務中表現出色。

🚀 快速開始

安裝

強烈建議通過運行以下命令來安裝MambaVision所需的依賴：

pip install mambavision

✨ 主要特性

開發了首個結合Mamba和Transformer優勢的計算機視覺混合模型。
重新設計Mamba公式，增強其對視覺特徵的高效建模能力。
對Vision Transformers (ViT) 與Mamba集成的可行性進行了全面的消融研究。
在Mamba架構的最後幾層配備多個自注意力塊，顯著提高了捕捉長距離空間依賴的建模能力。
引入了具有分層架構的MambaVision模型家族，以滿足各種設計標準。

📚 詳細文檔

模型概述

我們開發了首個用於計算機視覺的混合模型，充分利用了Mamba和Transformer的優勢。具體而言，我們的核心貢獻包括重新設計Mamba公式，以增強其對視覺特徵進行高效建模的能力。此外，我們對將視覺Transformer（ViT）與Mamba集成的可行性進行了全面的消融研究。結果表明，在Mamba架構的最後幾層配備多個自注意力塊，極大地提高了捕捉長距離空間依賴的建模能力。基於這些發現，我們引入了具有分層架構的MambaVision模型家族，以滿足各種設計標準。

模型性能

MambaVision-L3-256-21K在ImageNet-21K數據集上進行預訓練，並在ImageNet-1K上進行微調。預訓練和微調均在256 x 256分辨率下進行。

名稱	準確率@1(%)	準確率@5(%)	參數數量(M)	浮點運算次數(G)	分辨率
MambaVision-L3-256-21K	87.3	98.3	739.6	122.3	256x256

此外，MambaVision模型在Top-1準確率和吞吐量方面達到了新的最優帕累託前沿，表現出色。

💻 使用示例

基礎用法 - 圖像分類

以下示例展示瞭如何使用MambaVision進行圖像分類：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L3-256-21K", trust_remote_code=True)

# 評估模式用於推理
model.cuda().eval()

# 為模型準備圖像
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 256, 256)  # MambaVision支持任何輸入分辨率

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# 模型推理
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("預測類別:", model.config.id2label[predicted_class_idx])

預測標籤為 棕熊，bruin，Ursus arctos。

高級用法 - 特徵提取

MambaVision還可以用作通用特徵提取器。具體來說，我們可以提取模型每個階段（4個階段）的輸出以及最終的平均池化特徵（已展平）。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L3-256-21K", trust_remote_code=True)

# 評估模式用於推理
model.cuda().eval()

# 為模型準備圖像
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 256, 256)  # MambaVision支持任何輸入分辨率

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# 模型推理
out_avg_pool, features = model(inputs)
print("平均池化特徵的大小:", out_avg_pool.size())  # torch.Size([1, 1568])
print("提取特徵的階段數:", len(features)) # 4個階段
print("第1階段提取特徵的大小:", features[0].size()) # torch.Size([1, 196, 128, 128])
print("第4階段提取特徵的大小:", features[3].size()) # torch.Size([1, 1568, 16, 16])

📄 許可證

本項目遵循 NVIDIA源代碼許可協議 - 非商業用途。

Mambavision L3 256 21K

模型概述

模型特點

模型能力

使用案例

🚀 MambaVision：混合Mamba-Transformer視覺骨幹網絡

🚀 快速開始

安裝

✨ 主要特性

📚 詳細文檔

模型概述

模型性能

💻 使用示例

基礎用法 - 圖像分類

高級用法 - 特徵提取

📄 許可證

相關鏈接