M

Mambavision L 21K

由 nvidia 开发
MambaVision是一种混合曼巴-Transformer视觉骨干网络,专为视觉应用设计,结合了曼巴公式和视觉Transformer的优势,在图像分类和下游视觉任务中表现出色。
下载量 571
发布时间 : 3/24/2025

模型简介

MambaVision是一种新颖的混合曼巴-Transformer骨干网络,通过重新设计曼巴公式增强视觉特征建模能力,并在最后一层加入自注意力块以捕捉长距离空间依赖关系。该模型在ImageNet-1K分类任务中达到SOTA性能,并在目标检测、实例分割和语义分割等下游任务中表现优异。

模型特点

混合架构设计
结合曼巴公式和视觉Transformer的优势,重新设计曼巴公式以增强视觉特征建模能力
分层结构
采用分层架构设计,满足不同设计标准,最后一层加入自注意力块以捕捉长距离空间依赖关系
高性能
在ImageNet-1K分类任务中达到86.1%的Top-1准确率,在下游视觉任务中表现优异
高效推理
在准确率和吞吐量方面实现SOTA帕累托前沿,平衡性能与效率

模型能力

图像分类
特征提取
目标检测
实例分割
语义分割

使用案例

计算机视觉
图像分类
对输入图像进行分类,识别图像中的主要对象类别
在ImageNet-1K上达到86.1%的Top-1准确率
特征提取
提取图像的多层次特征,可用于下游视觉任务
可提取4个阶段的特征和最终平均池化特征
目标检测
作为骨干网络用于目标检测任务
在MS COCO数据集上表现优于同等规模骨干网络
语义分割
作为骨干网络用于语义分割任务
在ADE20K数据集上表现优于同等规模骨干网络
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase