M

Mambavision L3 256 21K

由nvidia開發
首個結合Mamba與Transformer優勢的計算機視覺混合模型,通過重構Mamba公式增強視覺特徵建模效率,在Mamba架構最後幾層引入自注意力模塊提升長程空間依賴建模能力。
下載量 510
發布時間 : 3/24/2025

模型概述

MambaVision是一個混合Mamba-Transformer視覺骨幹網絡,專為圖像分類和特徵提取設計,在ImageNet-21K數據集上預訓練,並在ImageNet-1K上微調。

模型特點

混合架構
結合Mamba的高效序列建模和Transformer的長程依賴捕捉能力,優化視覺特徵提取。
層級結構
採用層級設計,滿足多樣化視覺任務需求,支持多階段特徵提取。
性能優化
在Top-1準確率與吞吐量方面實現了新的SOTA帕累託前沿。

模型能力

圖像分類
視覺特徵提取
多階段特徵圖輸出

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,識別圖像中的主要對象。
在ImageNet-1K上達到87.3%的Top-1準確率。
特徵提取
提取圖像的多階段特徵圖,用於下游視覺任務。
支持4個階段的特徵圖輸出,適用於不同粒度的視覺分析。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase