Vamba-Qwen2-VL-7B开源模型 - 支持高效长视频理解，免费部署超实用

首页

Vamba Qwen2 VL 7B

由 TIGER-Lab 开发

Vamba是一种混合Mamba-Transformer架构，通过交叉注意力层与Mamba-2模块实现高效的长视频理解。

视频生成文本

Transformers

开源协议:MIT #长视频理解 #混合Mamba-Transformer #高效视频处理

下载量 806

发布时间 : 3/13/2025

模型简介

Vamba是一种创新的混合架构，结合了Mamba和Transformer的优势，专门设计用于处理长视频理解任务。它通过差异化处理文本和视频token，显著降低了计算开销。

模型特点

高效长视频处理

采用Mamba模块处理视频token序列，显著降低计算复杂度

混合架构设计

结合Transformer的自注意力机制和Mamba的高效序列处理能力

差异化token处理

对文本和视频token采用不同的处理机制，优化计算效率

模型能力

长视频理解

视频内容描述

图像内容描述

多模态推理

使用案例

视频内容分析

魔术技巧分析

分析并描述视频中的魔术表演技巧

能准确识别并描述魔术动作

图像理解

图像内容描述

对输入图像进行详细描述

生成准确的图像描述

🚀 Vamba

Vamba 仓库包含了 Vamba-Qwen2-VL-7B 的模型检查点。Vamba 是一个混合 Mamba-Transformer 模型，它利用交叉注意力层和 Mamba-2 模块，实现了对长达一小时视频的高效理解。

🌐 主页 | 📖 arXiv | 💻 GitHub | 🤗 模型

✨ 主要特性

基于 Transformer 的大型多模态模型（LMMs）的主要计算开销，来自视频令牌自注意力的二次复杂度。为了解决这个问题，我们设计了一种混合 Mamba Transformer 架构，以不同方式处理文本和视频令牌。我们方法的关键思想是，将整个视频和文本令牌序列上昂贵的自注意力操作，拆分为两个更高效的组件。由于视频令牌通常在序列中占主导地位，而文本令牌数量较少，因此我们仅对文本令牌保留自注意力机制，而对视频令牌则取消该机制。相反，我们添加了交叉注意力层，使用文本令牌作为查询，视频令牌作为键和值。同时，我们提出使用 Mamba 模块来有效处理视频令牌。

🚀 快速开始

# git clone https://github.com/TIGER-AI-Lab/Vamba
# cd Vamba
# export PYTHONPATH=.
from tools.vamba_chat import Vamba
model = Vamba(model_path="TIGER-Lab/Vamba-Qwen2-VL-7B", device="cuda")
test_input = [
    {
        "type": "video",
        "content": "assets/magic.mp4",
        "metadata": {
            "video_num_frames": 128,
            "video_sample_type": "middle",
            "img_longest_edge": 640,
            "img_shortest_edge": 256,
        }
    },
    {
        "type": "text",
        "content": "<video> Describe the magic trick."
    }
]
print(model(test_input))

test_input = [
    {
        "type": "image",
        "content": "assets/old_man.png",
        "metadata": {}
    },
    {
        "type": "text",
        "content": "<image> Describe this image."
    }
]
print(model(test_input))

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果您觉得我们的论文有用，请使用以下 BibTeX 引用我们：

@misc{ren2025vambaunderstandinghourlongvideos,
      title={Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers}, 
      author={Weiming Ren and Wentao Ma and Huan Yang and Cong Wei and Ge Zhang and Wenhu Chen},
      year={2025},
      eprint={2503.11579},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.11579}, 
}