Vamba-Qwen2-VL-7Bオープンソースモデル - 効率的な長時間ビデオ理解をサポート、無料でデプロイ可能で超実用的

Home

Vamba Qwen2 VL 7B

Developed by TIGER-Lab

Vambaは混合Mamba-Transformerアーキテクチャで、クロスアテンション層とMamba-2モジュールにより効率的な長尺動画理解を実現します。

ビデオ生成テキスト

Transformers

Open Source License:MIT #長尺動画理解 #混合Mamba-Transformer #効率的な動画処理

Downloads 806

Release Time : 3/13/2025

Model Overview

Vambaは革新的なハイブリッドアーキテクチャで、MambaとTransformerの利点を組み合わせ、長尺動画理解タスク専用に設計されています。テキストと動画トークンの差異化処理により、計算コストを大幅に削減します。

Model Features

効率的な長尺動画処理

Mambaモジュールで動画トークン系列を処理し、計算複雑性を大幅に低減

ハイブリッドアーキテクチャ設計

Transformerの自己注意機構とMambaの効率的系列処理能力を統合

差異化トークン処理

テキストと動画トークンに異なる処理機構を適用し、計算効率を最適化

Model Capabilities

長尺動画理解

動画内容記述

画像内容記述

マルチモーダル推論

Use Cases

動画内容分析

マジック技法分析

動画中のマジックパフォーマンス技法を分析・記述

マジック動作を正確に識別・記述可能

画像理解

画像内容記述

入力画像の詳細な記述を生成

正確な画像記述を生成

🚀 Vamba

このリポジトリには、Vamba-Qwen2-VL-7B のモデルチェックポイントが含まれています。Vambaは、クロスアテンションレイヤーとMamba-2ブロックを活用したハイブリッドMamba-Transformerモデルで、長時間のビデオを効率的に理解することができます。

🌐 ホームページ | 📖 arXiv | 💻 GitHub | 🤗 モデル

🚀 クイックスタート

# git clone https://github.com/TIGER-AI-Lab/Vamba
# cd Vamba
# export PYTHONPATH=.
from tools.vamba_chat import Vamba
model = Vamba(model_path="TIGER-Lab/Vamba-Qwen2-VL-7B", device="cuda")
test_input = [
    {
        "type": "video",
        "content": "assets/magic.mp4",
        "metadata": {
            "video_num_frames": 128,
            "video_sample_type": "middle",
            "img_longest_edge": 640,
            "img_shortest_edge": 256,
        }
    },
    {
        "type": "text",
        "content": "<video> Describe the magic trick."
    }
]
print(model(test_input))

test_input = [
    {
        "type": "image",
        "content": "assets/old_man.png",
        "metadata": {}
    },
    {
        "type": "text",
        "content": "<image> Describe this image."
    }
]
print(model(test_input))

✨ 主な機能

Vambaモデルアーキテクチャ

TransformerベースのLMMでは、ビデオトークンの自己アテンションの2次的な計算量により、主な計算オーバーヘッドが発生します。この問題を解決するために、テキストとビデオトークンを異なる方法で処理するハイブリッドMamba Transformerアーキテクチャを設計しました。この方法の核心は、高コストな自己アテンション操作を、ビデオとテキストトークンのシーケンス全体に対して行うのではなく、2つのより効率的なコンポーネントに分割することです。通常、ビデオトークンがシーケンスを占め、テキストトークンは少数です。そこで、自己アテンションメカニズムをテキストトークンにのみ適用し、ビデオトークンには適用しないようにします。代わりに、テキストトークンをクエリとし、ビデオトークンをキーとバリューとするクロスアテンションレイヤーを追加します。同時に、Mambaブロックを用いてビデオトークンを効果的に処理することを提案します。

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。

📚 ドキュメント

引用

もしこの論文が役に立った場合は、以下のように引用してください。

@misc{ren2025vambaunderstandinghourlongvideos,
      title={Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers}, 
      author={Weiming Ren and Wentao Ma and Huan Yang and Cong Wei and Ge Zhang and Wenhu Chen},
      year={2025},
      eprint={2503.11579},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.11579}, 
}