MambaVision-T-1K開源計算機視覺模型 - 結合優勢提升長距離空間建模能力

首頁

Mambavision T 1K

由nvidia開發

MambaVision是首個結合Mamba和Transformer優勢的計算機視覺混合模型，通過重新設計Mamba公式並集成ViT模塊，顯著提升了長距離空間依賴關係的建模能力。

圖像分類

Transformers

開源協議:其他 #混合Mamba-Transformer #高效視覺建模 #長距離空間依賴

下載量 2,323

發布時間 : 7/14/2024

模型概述

MambaVision是一種混合Mamba-Transformer視覺骨幹網絡，專為圖像分類和特徵提取任務設計。它結合了Mamba的高效建模能力和Transformer的長距離依賴捕捉能力，在Top-1準確率和吞吐量方面達到了新的SOTA水平。

模型特點

混合架構創新

首次將Mamba和Transformer優勢結合，重新設計Mamba公式以增強視覺特徵建模能力

層次化設計

提供一系列具有層次化架構的模型，滿足不同設計需求

高效長距離依賴建模

在Mamba架構最後一層加入多個自注意力模塊，顯著提升長距離空間依賴關係捕捉能力

模型能力

圖像分類

圖像特徵提取

多階段特徵輸出

使用案例

計算機視覺

圖像分類

對輸入圖像進行分類識別，如識別動物種類

示例中成功識別出棕熊

特徵提取

提取圖像的多層次特徵表示，可用於下游任務

可輸出4個階段的特徵圖及平均池化特徵

🚀 MambaVision：混合Mamba - Transformer視覺骨幹網絡

MambaVision是首個用於計算機視覺的混合模型，結合了Mamba和Transformer的優勢，可高效進行圖像分類和特徵提取，在精度和吞吐量上表現出色。

🚀 快速開始

安裝

強烈建議通過運行以下命令來安裝MambaVision的依賴項：

pip install mambavision

使用示例

基礎用法

對於每個模型，我們提供了用於圖像分類和特徵提取的兩種變體，只需一行代碼即可導入。

圖像分類

以下示例展示瞭如何使用MambaVision進行圖像分類。以COCO數據集驗證集中的一張圖像作為輸入：

可以使用以下代碼片段進行圖像分類：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-T-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# model inference
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

預測的標籤是 brown bear, bruin, Ursus arctos.

特徵提取

MambaVision還可以用作通用特徵提取器。具體來說，我們可以提取模型每個階段（共4個階段）的輸出以及最終的平均池化特徵（已展平）。

可以使用以下代碼片段進行特徵提取：

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-T-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 640])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 640, 7, 7])

✨ 主要特性

混合架構：開發了首個結合Mamba和Transformer優勢的計算機視覺混合模型。
性能優越：在Top - 1準確率和吞吐量方面達到了新的SOTA帕累託前沿。
靈活變體：每個模型提供圖像分類和特徵提取兩種變體，導入簡單。

📦 安裝指南

通過以下命令安裝MambaVision：

pip install mambavision

📚 詳細文檔

模型概述

我們開發了首個用於計算機視覺的混合模型，充分利用了Mamba和Transformer的優勢。具體而言，我們的核心貢獻包括重新設計Mamba公式，以增強其對視覺特徵進行高效建模的能力。此外，我們對將視覺Transformer（ViT）與Mamba集成的可行性進行了全面的消融研究。結果表明，在Mamba架構的最後幾層配備幾個自注意力塊，可以極大地提高捕捉長距離空間依賴關係的建模能力。基於這些發現，我們推出了一系列具有分層架構的MambaVision模型，以滿足各種設計標準。