MambaVision-L-1Kオープンソースビジョンモデル - 二つの優位性を結合してビジョン特徴モデリング能力を強化する

ホーム

Mambavision L 1K

nvidiaによって開発

MambaとTransformerの利点を初めて組み合わせたコンピュータビジョンの混合モデルで、Mambaの式を再設計することでビジュアル特徴のモデリング能力を強化しました。

画像分類

Transformers

オープンソースライセンス:その他 #混合アーキテクチャのビジョンモデル #長距離空間モデリング #階層的特徴抽出

ダウンロード数 1,542

リリース時間 : 7/14/2024

モデル概要

MambaVisionはMambaとTransformerを組み合わせた混合ビジョンモデルで、階層的アーキテクチャを持ち、画像分類と特徴抽出タスクをサポートします。

モデル特徴

混合アーキテクチャの革新

初めてMambaとTransformerを組み合わせ、Mambaの式を再設計してビジュアル特徴のモデリング能力を強化しました。

階層的アーキテクチャ設計

階層的アーキテクチャのモデルシリーズを提供し、さまざまな設計要件を満たします。

性能優位性

Top - 1精度とスループットの面で新しいSOTAパレートフロンティアを築きました。

多段階特徴抽出

4つの段階の階層特徴と最終的な平均プーリング特徴の取得をサポートします。

モデル能力

画像分類

ビジュアル特徴抽出

長距離空間依存モデリング

使用事例

コンピュータビジョン

汎用画像分類

入力画像を分類識別します。

サンプル出力：「クマ」

ビジュアル特徴抽出

画像の多層特徴表現を抽出します。

4つの段階の階層特徴と平均プーリング特徴を取得できます。

🚀 MambaVision: ハイブリッドMamba-Transformerビジョンバックボーン

コンピュータビジョンのための、MambaとTransformerの強みを活用した初のハイブリッドモデルです。画像分類タスクで高い性能を発揮します。

🚀 クイックスタート

モデル概要

私たちは、コンピュータビジョンのための最初のハイブリッドモデルを開発しました。このモデルは、MambaとTransformerの強みを活用しています。具体的には、視覚的特徴を効率的にモデリングする能力を高めるために、Mambaの定式化を再設計することが、私たちの主要な貢献です。また、Vision Transformers (ViT) とMambaを統合する実現可能性について包括的なアブレーション研究を行いました。結果として、Mambaアーキテクチャの最終層にいくつかの自己注意ブロックを備えることで、長距離の空間依存関係を捉えるモデリング能力が大幅に向上することが示されました。これらの知見に基づき、様々な設計基準を満たすために階層的アーキテクチャを持つMambaVisionモデルファミリーを導入しました。

モデル性能

MambaVisionは、Top-1精度とスループットの面で新しいSOTAパレートフロントを達成することで、強力な性能を示しています。

モデルの使用方法

MambaVisionの要件をインストールするには、以下のコマンドを実行することを強くおすすめします。

pip install mambavision

各モデルについて、画像分類と特徴抽出の2つのバリアントを提供しており、1行のコードでインポートできます。

基本的な使用法

画像分類

以下の例では、MambaVisionを画像分類に使用する方法を示します。

COCOデータセットの検証セットからの次の画像を入力として与えます。

次のコードスニペットを画像分類に使用できます。

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# model inference
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

予測されたラベルは brown bear, bruin, Ursus arctos. です。

特徴抽出

MambaVisionは、一般的な特徴抽出器としても使用できます。

具体的には、モデルの各段階（4段階）の出力と、最終的な平均プーリングされた特徴を抽出することができます。

次のコードスニペットを特徴抽出に使用できます。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 640])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 640, 7, 7])

📄 ライセンス

NVIDIA Source Code License-NC

📚 詳細ドキュメント

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

📦 詳細情報

属性	详情
データセット	ILSVRC/imagenet-1k
パイプラインタグ	画像分類
ライブラリ名	transformers
ライセンス	other
ライセンス名	nvclv1
ライセンスリンク	LICENSE