M

Mambavision T 1K

由nvidia開發
MambaVision是首個結合Mamba和Transformer優勢的計算機視覺混合模型,通過重新設計Mamba公式並集成ViT模塊,顯著提升了長距離空間依賴關係的建模能力。
下載量 2,323
發布時間 : 7/14/2024

模型概述

MambaVision是一種混合Mamba-Transformer視覺骨幹網絡,專為圖像分類和特徵提取任務設計。它結合了Mamba的高效建模能力和Transformer的長距離依賴捕捉能力,在Top-1準確率和吞吐量方面達到了新的SOTA水平。

模型特點

混合架構創新
首次將Mamba和Transformer優勢結合,重新設計Mamba公式以增強視覺特徵建模能力
層次化設計
提供一系列具有層次化架構的模型,滿足不同設計需求
高效長距離依賴建模
在Mamba架構最後一層加入多個自注意力模塊,顯著提升長距離空間依賴關係捕捉能力

模型能力

圖像分類
圖像特徵提取
多階段特徵輸出

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類識別,如識別動物種類
示例中成功識別出棕熊
特徵提取
提取圖像的多層次特徵表示,可用於下游任務
可輸出4個階段的特徵圖及平均池化特徵
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase