M

Mambavision L3 256 21K

nvidiaによって開発
MambaとTransformerの利点を組み合わせた初のコンピュータビジョンハイブリッドモデルで、Mambaの式を再構築して視覚特徴モデリングの効率を向上させ、Mambaアーキテクチャの最後の数層に自己注意モジュールを導入して長距離空間依存関係のモデリング能力を強化しました。
ダウンロード数 510
リリース時間 : 3/24/2025

モデル概要

MambaVisionは、画像分類と特徴抽出のために設計されたハイブリッドMamba-Transformer視覚バックボーンネットワークで、ImageNet-21Kデータセットで事前トレーニングされ、ImageNet-1Kでファインチューニングされています。

モデル特徴

ハイブリッドアーキテクチャ
Mambaの効率的なシーケンスモデリングとTransformerの長距離依存関係捕捉能力を組み合わせ、視覚特徴抽出を最適化します。
階層構造
階層設計を採用し、多様な視覚タスクのニーズに対応し、多段階特徴抽出をサポートします。
性能最適化
Top-1精度とスループットの両方で新しいSOTAパレートフロンティアを実現しました。

モデル能力

画像分類
視覚特徴抽出
多段階特徴マップ出力

使用事例

コンピュータビジョン
画像分類
入力画像を分類し、画像内の主要なオブジェクトを識別します。
ImageNet-1Kで87.3%のTop-1精度を達成しました。
特徴抽出
画像の多段階特徴マップを抽出し、下流の視覚タスクに使用します。
4段階の特徴マップ出力をサポートし、異なる粒度の視覚分析に適しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase