マンバビジョン - L3 - 512 - 21Kオープンソースビジョンモデル - 融合の利点を生かし、特徴と長距離空間モデリング能力を向上させる

Mambavision L3 512 21K

nvidiaによって開発

MambaVisionは、マンバ(Mamba)とTransformerの利点を組み合わせた初のコンピュータビジョンハイブリッドモデルです。再設計されたマンバ式により視覚特徴モデリング能力を強化し、マンバアーキテクチャの最後の数層にセルフアテンションモジュールを追加することで、長距離空間依存関係のモデリング能力を向上させています。

画像分類

Transformers

オープンソースライセンス:その他 #ハイブリッドマンバ-Transformerアーキテクチャ #高解像度画像分類 #長距離空間モデリング

ダウンロード数 7,548

リリース時間 : 3/24/2025

モデル概要

MambaVisionシリーズは、コンピュータビジョンタスク向けに設計されたハイブリッドアーキテクチャで、マンバ(Mamba)の効率的なシーケンスモデリング能力とTransformerのセルフアテンションメカニズムを組み合わせており、画像分類や特徴抽出などのタスクに適しています。

モデル特徴

ハイブリッドアーキテクチャ設計

マンバ(Mamba)の効率的なシーケンスモデリング能力とTransformerのセルフアテンションメカニズムを組み合わせ、マンバアーキテクチャの最後の数層にセルフアテンションモジュールを追加することで、長距離空間依存関係のモデリング能力を向上させています。

階層構造

異なる計算リソースと性能要件に対応するため、さまざまな規模のモデルを含む階層構造を持つモデルシリーズを提供します。

高性能

Top1精度とスループットの両面で新しいSOTAパレートフロンティアを達成し、モデル性能と計算効率のバランスを実現しています。

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

画像分類

MambaVisionを使用して画像を分類します。例えば、動物の種類や物体のカテゴリを識別します。

ImageNet-1Kで88.1%のTop1精度を達成。

特徴抽出

画像の4段階特徴マップとグローバルプーリング特徴を抽出し、物体検出や画像セグメンテーションなどの下流タスクに利用できます。

datasets:

ILSVRC/imagenet-21k license: other license_name: nvclv1 license_link: LICENSE pipeline_tag: image-classification library_name: transformers

MambaVision: ハイブリッドMamba-Transformer視覚バックボーン.

プロジェクトページ

モデル概要

私たちは、MambaとTransformerの強みを活かした初のハイブリッドコンピュータビジョンモデルを開発しました。具体的には、視覚特徴の効率的なモデリング能力を強化するためにMambaの定式化を再設計しました。さらに、Vision Transformer（ViT）とMambaを統合する可能性について包括的なアブレーション研究を実施しました。結果として、最終層にいくつかのセルフアテンションブロックを備えたMambaアーキテクチャが、長距離空間依存関係を捉えるモデリング能力を大幅に向上させることが示されました。これらの発見に基づき、様々な設計基準を満たす階層型アーキテクチャのMambaVisionモデルファミリーを導入します。

モデル性能

MambaVision-L3-512-21KはImageNet-21Kデータセットで事前学習され、512 x 512解像度でImageNet-1Kでファインチューニングされました。

名前	Acc@1(%)	Acc@5(%)	#Params(M)	FLOPs(G)	解像度
MambaVision-L3-512-21K	88.1	98.6	739.6	489.1	512x512

さらに、MambaVisionモデルはTop-1精度とスループットの面で新しいSOTAパレートフロントを達成し、強力な性能を発揮しています。

モデルの使用方法

MambaVisionの要件をインストールするために、以下を実行することを強く推奨します：

pip install mambavision

各モデルについて、画像分類と特徴抽出の2つのバリアントを提供しており、1行のコードでインポートできます。

画像分類

以下の例では、MambaVisionを画像分類に使用する方法を示します。

COCOデータセットのvalセットから次の画像を入力として与えます：

以下のスニペットを画像分類に使用できます：

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L3-512-21K", trust_remote_code=True)

# 推論用にevalモードに設定
model.cuda().eval()

# モデルのための画像を準備
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 512, 512)  # MambaVisionは任意の入力解像度をサポート

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# モデル推論
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("予測クラス:", model.config.id2label[predicted_class_idx])

予測ラベルはヒグマ、ブラウン・ベア、Ursus arctosです。

特徴抽出

MambaVisionは汎用的な特徴抽出器としても使用できます。

具体的には、モデルの各ステージ（4ステージ）の出力と、最終的な平均プール特徴量を平坦化して抽出できます。

以下のスニペットを特徴抽出に使用できます：

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L3-512-21K", trust_remote_code=True)

# 推論用にevalモードに設定
model.cuda().eval()

# モデルのための画像を準備
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 512, 512)  # MambaVisionは任意の入力解像度をサポート

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# モデル推論
out_avg_pool, features = model(inputs)
print("平均プール特徴量のサイズ:", out_avg_pool.size())  # torch.Size([1, 1568])
print("抽出された特徴量のステージ数:", len(features)) # 4ステージ
print("ステージ1の抽出特徴量サイズ:", features[0].size()) # torch.Size([1, 196, 128, 128])
print("ステージ4の抽出特徴量サイズ:", features[3].size()) # torch.Size([1, 1568, 16, 16])

ライセンス:

NVIDIA Source Code License-NC

結果 + 事前学習済みモデル

ImageNet-21K

名前	Acc@1(%)	Acc@5(%)	#Params(M)	FLOPs(G)	解像度	HF	ダウンロード
MambaVision-B-21K	84.9	97.5	97.7	15.0	224x224	リンク	モデル
MambaVision-L-21K	86.1	97.9	227.9	34.9	224x224	リンク	モデル
MambaVision-L2-512-21K	87.3	98.4	241.5	196.3	512x512	リンク	モデル
MambaVision-L3-256-21K	87.3	98.3	739.6	122.3	256x256	リンク	モデル
MambaVision-L3-512-21K	88.1	98.6	739.6	489.1	512x512	リンク	モデル

ImageNet-1K

名前	Acc@1(%)	Acc@5(%)	スループット(Img/Sec)	解像度	#Params(M)	FLOPs(G)	HF	ダウンロード
MambaVision-T	82.3	96.2	6298	224x224	31.8	4.4	リンク	モデル
MambaVision-T2	82.7	96.3	5990	224x224	35.1	5.1	リンク	モデル
MambaVision-S	83.3	96.5	4700	224x224	50.1	7.5	リンク	モデル
MambaVision-B	84.2	96.9	3670	224x224	97.7	15.0	リンク	モデル
MambaVision-L	85.0	97.1	2190	224x224	227.9	34.9	リンク	モデル
MambaVision-L2	85.3	97.2	1021	224x224	241.5	37.5	リンク	モデル