Vamba-Qwen2-VL-7B開源模型 - 支持高效長視頻理解，免費部署超實用

首頁

Vamba Qwen2 VL 7B

由TIGER-Lab開發

Vamba是一種混合Mamba-Transformer架構，通過交叉注意力層與Mamba-2模塊實現高效的長視頻理解。

視頻生成文本

Transformers

開源協議:MIT #長視頻理解 #混合Mamba-Transformer #高效視頻處理

下載量 806

發布時間 : 3/13/2025

模型概述

Vamba是一種創新的混合架構，結合了Mamba和Transformer的優勢，專門設計用於處理長視頻理解任務。它通過差異化處理文本和視頻token，顯著降低了計算開銷。

模型特點

高效長視頻處理

採用Mamba模塊處理視頻token序列，顯著降低計算複雜度

混合架構設計

結合Transformer的自注意力機制和Mamba的高效序列處理能力

差異化token處理

對文本和視頻token採用不同的處理機制，優化計算效率

模型能力

長視頻理解

視頻內容描述

圖像內容描述

多模態推理

使用案例

視頻內容分析

魔術技巧分析

分析並描述視頻中的魔術表演技巧

能準確識別並描述魔術動作

圖像理解

圖像內容描述

對輸入圖像進行詳細描述

生成準確的圖像描述

🚀 Vamba

Vamba 倉庫包含了 Vamba-Qwen2-VL-7B 的模型檢查點。Vamba 是一個混合 Mamba-Transformer 模型，它利用交叉注意力層和 Mamba-2 模塊，實現了對長達一小時視頻的高效理解。

🌐 主頁 | 📖 arXiv | 💻 GitHub | 🤗 模型

✨ 主要特性

基於 Transformer 的大型多模態模型（LMMs）的主要計算開銷，來自視頻令牌自注意力的二次複雜度。為了解決這個問題，我們設計了一種混合 Mamba Transformer 架構，以不同方式處理文本和視頻令牌。我們方法的關鍵思想是，將整個視頻和文本令牌序列上昂貴的自注意力操作，拆分為兩個更高效的組件。由於視頻令牌通常在序列中占主導地位，而文本令牌數量較少，因此我們僅對文本令牌保留自注意力機制，而對視頻令牌則取消該機制。相反，我們添加了交叉注意力層，使用文本令牌作為查詢，視頻令牌作為鍵和值。同時，我們提出使用 Mamba 模塊來有效處理視頻令牌。

🚀 快速開始

# git clone https://github.com/TIGER-AI-Lab/Vamba
# cd Vamba
# export PYTHONPATH=.
from tools.vamba_chat import Vamba
model = Vamba(model_path="TIGER-Lab/Vamba-Qwen2-VL-7B", device="cuda")
test_input = [
    {
        "type": "video",
        "content": "assets/magic.mp4",
        "metadata": {
            "video_num_frames": 128,
            "video_sample_type": "middle",
            "img_longest_edge": 640,
            "img_shortest_edge": 256,
        }
    },
    {
        "type": "text",
        "content": "<video> Describe the magic trick."
    }
]
print(model(test_input))

test_input = [
    {
        "type": "image",
        "content": "assets/old_man.png",
        "metadata": {}
    },
    {
        "type": "text",
        "content": "<image> Describe this image."
    }
]
print(model(test_input))

📄 許可證

本項目採用 MIT 許可證。

📚 引用

如果您覺得我們的論文有用，請使用以下 BibTeX 引用我們：

@misc{ren2025vambaunderstandinghourlongvideos,
      title={Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers}, 
      author={Weiming Ren and Wentao Ma and Huan Yang and Cong Wei and Ge Zhang and Wenhu Chen},
      year={2025},
      eprint={2503.11579},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.11579}, 
}