M

Mambavision L2 1K

由nvidia開發
MambaVision是首個融合Mamba與Transformer優勢的計算機視覺混合模型,通過重構Mamba公式增強視覺特徵建模能力,並在Mamba架構最後幾層加入自注意力模塊提升長程空間依賴建模能力。
下載量 56
發布時間 : 7/14/2024

模型概述

MambaVision是一個混合型視覺骨幹網絡,結合了Mamba和Transformer的優勢,主要用於圖像分類和特徵提取任務。

模型特點

混合架構
結合Mamba的高效序列建模能力和Transformer的長程依賴建模能力,提升視覺特徵提取效果。
分層架構
採用分層架構設計,滿足不同計算資源和性能需求的應用場景。
高性能
在Top-1準確率與計算吞吐量方面創造了新的SOTA帕累託前沿。

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,輸出類別標籤。
在ImageNet-1K數據集上達到高準確率。
特徵提取
提取圖像的層級特徵,可用於下游任務如目標檢測、圖像分割等。
支持提取四個階段的層級特徵和最終平均池化後的扁平化特徵。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase