MambaVision-T2-1Kオープンソースビジョンモデル - 双方向の優位性を結合してビジョンと長距離空間モデリング能力を向上させる

Mambavision T2 1K

nvidiaによって開発

MambaとTransformerの利点を組み合わせた初のコンピュータビジョンハイブリッドモデルで、Mambaの式を再設計して視覚特徴モデリング能力を強化し、Mambaアーキテクチャにセルフアテンションモジュールを組み込むことで長距離空間依存関係のモデリングを向上させています。

画像分類

Transformers

オープンソースライセンス:その他 #ハイブリッドMamba-Transformer #画像特徴抽出 #長距離空間モデリング

ダウンロード数 597

リリース時間 : 7/14/2024

モデル概要

MambaVisionはMambaとTransformerを組み合わせたハイブリッド視覚モデルで、画像特徴抽出と分類のために設計されており、効率的な視覚特徴モデリング能力と優れた性能を発揮します。

モデル特徴

ハイブリッドアーキテクチャ設計

Mambaの効率的なモデリング能力とTransformerの長距離依存関係モデリングの利点を組み合わせ、より優れた視覚特徴抽出を実現します。

階層型アーキテクチャ

多様な視覚タスクのニーズに対応する階層型アーキテクチャを提供し、さまざまな規模と複雑さのアプリケーションシナリオをサポートします。

高性能

Top-1精度とスループットの両方で新しいSOTAパレートフロンティアを達成し、優れた性能を発揮します。

モデル能力

画像特徴抽出

画像分類

使用事例

コンピュータビジョン

画像分類

入力画像を分類します。例えば、COCOデータセット内の物体認識など。

画像内の物体カテゴリ（ヒグマなど）を正確に識別します。

特徴抽出

物体検出や画像セグメンテーションなどの下流タスクに使用するための多段階の画像特徴を抽出します。

4段階の特徴と最終的な平均プーリング特徴を出力し、さまざまな視覚タスクに適用可能です。

🚀 MambaVision: ハイブリッドMamba-Transformerビジョンバックボーン

MambaとTransformerの強みを活用したコンピュータビジョン用の最初のハイブリッドモデルです。

📚 ドキュメント

モデル概要

私たちは、MambaとTransformerの強みを活用した、コンピュータビジョン用の最初のハイブリッドモデルを開発しました。具体的には、視覚特徴を効率的にモデル化する能力を高めるために、Mambaの定式化を再設計することが、私たちの核心的な貢献です。さらに、Vision Transformers (ViT) とMambaを統合する実現可能性について、包括的なアブレーション研究を行いました。結果として、Mambaアーキテクチャの最終層にいくつかの自己注意ブロックを備えることで、長距離の空間依存関係を捉えるモデリング能力が大幅に向上することがわかりました。これらの知見に基づき、様々な設計基準を満たす階層的アーキテクチャを持つMambaVisionモデルファミリーを導入します。

モデルの性能

MambaVisionは、Top-1精度とスループットの点で新しいSOTAパレートフロントを達成することで、強力な性能を示しています。

📦 インストール

MambaVisionの必要なパッケージをインストールするには、以下のコマンドを実行することを強くおすすめします。

pip install mambavision

💻 使用例

基本的な使用法

各モデルについて、画像分類と特徴抽出の2つのバリアントを提供しており、1行のコードでインポートできます。

画像分類

次の例では、MambaVisionを画像分類に使用する方法を示します。 COCOデータセットの検証セットからの次の画像を入力として与えます。

次のコードスニペットを画像分類に使用できます。

from transformers import AutoModelForImageClassification
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModelForImageClassification.from_pretrained("nvidia/MambaVision-T2-1K", trust_remote_code=True)

# 推論用の評価モード
model.cuda().eval()

# モデル用に画像を準備
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVisionは任意の入力解像度をサポート
transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# モデル推論
outputs = model(inputs)
logits = outputs['logits'] 
predicted_class_idx = logits.argmax(-1).item()
print("予測されたクラス:", model.config.id2label[predicted_class_idx])

予測されたラベルは brown bear, bruin, Ursus arctos. です。

特徴抽出

MambaVisionは、汎用的な特徴抽出器としても使用できます。具体的には、モデルの各ステージ（4つのステージ）の出力と、最終的な平均プーリングされた特徴を平坦化したものを抽出できます。

次のコードスニペットを特徴抽出に使用できます。

from transformers import AutoModel
from PIL import Image
from timm.data.transforms_factory import create_transform
import requests

model = AutoModel.from_pretrained("nvidia/MambaVision-T2-1K", trust_remote_code=True)

# 推論用の評価モード
model.cuda().eval()

# モデル用に画像を準備
url = 'http://images.cocodataset.org/val2017/000000020247.jpg'
image = Image.open(requests.get(url, stream=True).raw)
input_resolution = (3, 224, 224)  # MambaVisionは任意の入力解像度をサポート
transform = create_transform(input_size=input_resolution,
                             is_training=False,
                             mean=model.config.mean,
                             std=model.config.std,
                             crop_mode=model.config.crop_mode,
                             crop_pct=model.config.crop_pct)
inputs = transform(image).unsqueeze(0).cuda()
# モデル推論
out_avg_pool, features = model(inputs)
print("平均プーリングされた特徴のサイズ:", out_avg_pool.size())  # torch.Size([1, 640])
print("抽出された特徴のステージ数:", len(features)) # 4つのステージ
print("ステージ1の抽出された特徴のサイズ:", features[0].size()) # torch.Size([1, 80, 56, 56])
print("ステージ4の抽出された特徴のサイズ:", features[3].size()) # torch.Size([1, 640, 7, 7])