MambaVision-T-1Kオープンソースコンピュータビジョンモデル - 長距離空間モデリング能力を向上させるための優位性を融合

Mambavision T 1K

nvidiaによって開発

MambaVisionは、MambaとTransformerの利点を組み合わせた初のコンピュータビジョンハイブリッドモデルで、Mambaの式を再設計しViTモジュールを統合することで、長距離空間依存関係のモデリング能力を大幅に向上させました。

画像分類

Transformers

オープンソースライセンス:その他 #ハイブリッドMamba-Transformer #効率的な視覚モデリング #長距離空間依存性

ダウンロード数 2,323

リリース時間 : 7/14/2024

モデル概要

MambaVisionは、画像分類と特徴抽出タスクのために設計されたハイブリッドMamba-Transformer視覚バックボーンネットワークです。Mambaの効率的なモデリング能力とTransformerの長距離依存性捕捉能力を組み合わせ、Top-1精度とスループットの両方で新しいSOTAレベルを達成しました。

モデル特徴

ハイブリッドアーキテクチャの革新

初めてMambaとTransformerの利点を組み合わせ、視覚特徴モデリング能力を強化するためにMambaの式を再設計

階層的設計

さまざまな設計ニーズに対応する階層的アーキテクチャを持つ一連のモデルを提供

効率的な長距離依存性モデリング

Mambaアーキテクチャの最終層に複数の自己注意モジュールを追加し、長距離空間依存関係の捕捉能力を大幅に向上

モデル能力

画像分類

画像特徴抽出

多段階特徴出力

使用事例

コンピュータビジョン

画像分類

入力画像を分類識別する（例：動物の種類を識別）

例ではヒグマを正しく識別

特徴抽出

画像の多層的特徴表現を抽出し、下流タスクに利用可能

4段階の特徴マップと平均プーリング特徴を出力可能

🚀 MambaVision: A Hybrid Mamba - Transformer Vision Backbone

MambaとTransformerの強みを生かしたコンピュータビジョン用のハイブリッドモデルで、視覚特徴の効率的なモデリング能力を向上させます。

🚀 クイックスタート

このモデルに関する論文「MambaVision: A Hybrid Mamba-Transformer Vision Backbone」を参照してください。

✨ 主な機能

MambaとTransformerの強みを生かした初のコンピュータビジョン用ハイブリッドモデルを開発。
Mambaの定式化を再設計し、視覚特徴の効率的なモデリング能力を向上。
Vision Transformers (ViT) とMambaの統合の実現可能性について包括的なアブレーション研究を実施。
Mambaアーキテクチャの最終層にいくつかの自己注意ブロックを備えることで、長距離の空間依存関係を捉えるモデリング能力を大幅に向上。
階層的なアーキテクチャを持つMambaVisionモデルファミリーを導入し、様々な設計基準を満たす。

📦 インストール

MambaVisionの要件をインストールするには、以下のコマンドを実行することを強くおすすめします。

pip install mambavision

💻 使用例

基本的な使用法

各モデルには、画像分類と特徴抽出の2つのバリアントがあり、1行のコードでインポートできます。

画像分類

以下の例では、MambaVisionを画像分類に使用する方法を示します。

COCOデータセットの検証セットからの画像を入力として与えます。

以下のコードスニペットを画像分類に使用できます。

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-T-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)

inputs = transform(image).unsqueeze(0).cuda()
# model inference
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

予測されたラベルは brown bear, bruin, Ursus arctos. です。

特徴抽出

MambaVisionは、汎用的な特徴抽出器としても使用できます。

具体的には、モデルの各段階（4段階）の出力と、最終的な平均プーリングされた平坦化された特徴を抽出できます。

以下のコードスニペットを特徴抽出に使用できます。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-T-1K", trust_remote_code=True)

# eval mode for inference
model.cuda().eval()

# prepare image for the model
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVision supports any input resolutions

transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# model inference
out_avg_pool, features = model(inputs)
print("Size of the averaged pool features:", out_avg_pool.size())  # torch.Size([1, 640])
print("Number of stages in extracted features:", len(features)) # 4 stages
print("Size of extracted features in stage 1:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("Size of extracted features in stage 4:", features[3].size()) # torch.Size([1, 640, 7, 7])

📚 ドキュメント

モデルの性能

MambaVisionは、Top - 1精度とスループットの面で新たなSOTAパレートフロントを達成し、強力な性能を示しています。

📄 ライセンス

このモデルは NVIDIA Source Code License - NC の下で提供されています。

属性	详情
データセット	ILSVRC/imagenet - 1k
ライセンス	other (NVCLv1)
ライブラリ名	transformers
パイプラインタグ	image - classification
タグ	image - feature - extraction