M

Mambavision L2 512 21K

由nvidia開發
首個結合曼巴(Mamba)與Transformer優勢的混合計算機視覺模型,通過重構曼巴公式增強視覺特徵建模能力
下載量 2,678
發布時間 : 3/24/2025

模型概述

MambaVision是一種混合計算機視覺模型,結合了曼巴和Transformer架構的優勢,特別優化了視覺特徵建模能力。該模型在ImageNet-21K上預訓練,並在512×512分辨率下對ImageNet-1K進行微調,實現了優異的圖像分類性能。

模型特點

混合架構創新
首次成功結合曼巴(Mamba)與Transformer架構優勢,重構曼巴公式以增強視覺特徵建模能力
分層架構設計
採用分層架構設計,在曼巴架構最後幾層加入自注意力模塊,顯著提升長距離空間依賴關係建模能力
高性能表現
在Top-1準確率與吞吐量方面實現了新的SOTA帕累託前沿,達到87.3%的Top-1準確率

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
對輸入圖像進行分類,識別圖像中的主要物體或場景
在ImageNet-1K上達到87.3%的Top-1準確率
視覺特徵提取
作為通用特徵提取器,獲取四個階段的特徵圖及最終平均池化特徵
支持獲取不同層次的特徵表示,適用於下游視覺任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase