M

Mambavision L 21K

由nvidia開發
MambaVision是一種混合曼巴-Transformer視覺骨幹網絡,專為視覺應用設計,結合了曼巴公式和視覺Transformer的優勢,在圖像分類和下游視覺任務中表現出色。
下載量 571
發布時間 : 3/24/2025

模型概述

MambaVision是一種新穎的混合曼巴-Transformer骨幹網絡,通過重新設計曼巴公式增強視覺特徵建模能力,並在最後一層加入自注意力塊以捕捉長距離空間依賴關係。該模型在ImageNet-1K分類任務中達到SOTA性能,並在目標檢測、實例分割和語義分割等下游任務中表現優異。

模型特點

混合架構設計
結合曼巴公式和視覺Transformer的優勢,重新設計曼巴公式以增強視覺特徵建模能力
分層結構
採用分層架構設計,滿足不同設計標準,最後一層加入自注意力塊以捕捉長距離空間依賴關係
高性能
在ImageNet-1K分類任務中達到86.1%的Top-1準確率,在下游視覺任務中表現優異
高效推理
在準確率和吞吐量方面實現SOTA帕累託前沿,平衡性能與效率

模型能力

圖像分類
特徵提取
目標檢測
實例分割
語義分割

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,識別圖像中的主要對象類別
在ImageNet-1K上達到86.1%的Top-1準確率
特徵提取
提取圖像的多層次特徵,可用於下游視覺任務
可提取4個階段的特徵和最終平均池化特徵
目標檢測
作為骨幹網絡用於目標檢測任務
在MS COCO數據集上表現優於同等規模骨幹網絡
語義分割
作為骨幹網絡用於語義分割任務
在ADE20K數據集上表現優於同等規模骨幹網絡
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase