MambaVision-L2-1Kオープンソースコンピュータビジョンモデル - 融合優位性で特徴を強化し、長距離空間モデリングを行う

Mambavision L2 1K

nvidiaによって開発

MambaVisionはMambaとTransformerの利点を融合した初のコンピュータビジョンハイブリッドモデルで、Mambaの式を再構築して視覚的特徴モデリング能力を強化し、Mambaアーキテクチャの最後の数層にセルフアテンションモジュールを追加して長距離空間依存関係のモデリング能力を向上させています。

画像分類

Transformers

オープンソースライセンス:その他 #混合Mamba-Transformerアーキテクチャ #階層的特徴抽出 #動的解像度サポート

ダウンロード数 56

リリース時間 : 7/14/2024

モデル概要

MambaVisionはMambaとTransformerの利点を組み合わせたハイブリッド型視覚バックボーンネットワークで、主に画像分類と特徴抽出タスクに使用されます。

モデル特徴

ハイブリッドアーキテクチャ

Mambaの効率的なシーケンスモデリング能力とTransformerの長距離依存関係モデリング能力を組み合わせ、視覚的特徴抽出効果を向上させます。

階層型アーキテクチャ

階層型アーキテクチャ設計を採用し、さまざまな計算リソースと性能要件に対応するアプリケーションシナリオを満たします。

高性能

Top-1精度と計算スループットの両方で新しいSOTAパレートフロンティアを確立しました。

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

画像分類

入力画像を分類し、クラスラベルを出力します。

ImageNet-1Kデータセットで高い精度を達成しました。

特徴抽出

画像の階層的特徴を抽出し、物体検出や画像セグメンテーションなどの下流タスクに使用できます。

4段階の階層的特徴と最終的な平均プーリング後の平坦化された特徴の抽出をサポートします。

🚀 MambaVision: ハイブリッドMamba-Transformerビジョンバックボーン

このプロジェクトは、MambaとTransformerの強みを生かしたコンピュータビジョン用のハイブリッドモデルを開発しています。画像分類タスクにおいて高い性能を発揮します。

データセットとライセンス情報

属性	详情
データセット	ILSVRC/imagenet - 1k
ライセンス	other
ライセンス名	nvclv1
ライセンスリンク	LICENSE
パイプラインタグ	画像分類
ライブラリ名	transformers

論文: MambaVision: A Hybrid Mamba - Transformer Vision Backbone コード: https://github.com/NVlabs/MambaVision

🚀 クイックスタート

MambaVisionを使用するには、まず必要なパッケージをインストールすることをおすすめします。

pip install mambavision

✨ 主な機能

モデル概要

コンピュータビジョン用の最初のハイブリッドモデルを開発しました。これはMambaとTransformerの強みを活用したものです。具体的には、Mambaの定式化を再設計し、視覚的特徴を効率的にモデリングする能力を向上させました。また、Vision Transformers (ViT) とMambaの統合の実現可能性について包括的なアブレーション研究を行いました。結果として、Mambaアーキテクチャの最終層にいくつかの自己注意ブロックを備えることで、長距離の空間依存関係を捉えるモデリング能力が大幅に向上することがわかりました。これらの知見に基づき、様々な設計基準を満たす階層的アーキテクチャのMambaVisionモデルファミリーを導入しました。

モデル性能

MambaVisionは、Top - 1精度とスループットの面で新しいSOTAパレートフロントを達成し、強力な性能を示しています。

💻 使用例

基本的な使用法

画像分類

次の例では、MambaVisionを画像分類に使用する方法を示します。

COCOデータセットの検証セットからの画像を入力として使用します。

次のコードスニペットを使用して画像分類を行うことができます。

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-L2-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_pct,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# model inference
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

予測されるラベルは brown bear, bruin, Ursus arctos. です。

特徴抽出

MambaVisionは、汎用的な特徴抽出器としても使用できます。具体的には、モデルの各ステージ（4つのステージ）の出力と、最終的な平均プーリングされた平坦化された特徴を抽出することができます。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-L2-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_pct,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 640])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 640, 7, 7])