M

Mambavision L 21K

nvidiaによって開発
MambaVisionは、マンバ式と視覚Transformerの利点を組み合わせたハイブリッドマンバ-Transformer視覚バックボーンネットワークで、画像分類や下流視覚タスクで優れた性能を発揮します。
ダウンロード数 571
リリース時間 : 3/24/2025

モデル概要

MambaVisionは、視覚特徴モデリング能力を強化するためにマンバ式を再設計し、最後の層に自己注意ブロックを追加して長距離空間依存関係を捕捉する新しいハイブリッドマンバ-Transformerバックボーンネットワークです。このモデルはImageNet-1K分類タスクでSOTA性能を達成し、物体検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクでも優れた性能を示します。

モデル特徴

ハイブリッドアーキテクチャ設計
マンバ式と視覚Transformerの利点を組み合わせ、視覚特徴モデリング能力を強化するためにマンバ式を再設計
階層構造
階層型アーキテクチャ設計を採用し、異なる設計基準を満たし、最後の層に自己注意ブロックを追加して長距離空間依存関係を捕捉
高性能
ImageNet-1K分類タスクで86.1%のTop-1精度を達成し、下流視覚タスクでも優れた性能を発揮
効率的な推論
精度とスループットの面でSOTAパレートフロンティアを実現し、性能と効率のバランスを取る

モデル能力

画像分類
特徴抽出
物体検出
インスタンスセグメンテーション
セマンティックセグメンテーション

使用事例

コンピュータビジョン
画像分類
入力画像を分類し、画像内の主要なオブジェクトカテゴリを識別
ImageNet-1Kで86.1%のTop-1精度を達成
特徴抽出
画像の多層特徴を抽出し、下流視覚タスクに利用可能
4段階の特徴と最終平均プーリング特徴を抽出可能
物体検出
バックボーンネットワークとして物体検出タスクに使用
MS COCOデータセットで同等規模のバックボーンネットワークを上回る性能
セマンティックセグメンテーション
バックボーンネットワークとしてセマンティックセグメンテーションタスクに使用
ADE20Kデータセットで同等規模のバックボーンネットワークを上回る性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase