VideoChat-Flash-Qwen2_5-7B-1M_res224開源模型 - 支持長視頻理解多模態應用

首頁

Videochat Flash Qwen2 5 7B 1M Res224

由OpenGVLab開發

VideoChat-Flash是基於UMT-L和Qwen2.5-7B-1M構建的多模態模型，支持長視頻理解，上下文窗口擴展至1M。

視頻生成文本

Transformers

英語開源協議:Apache-2.0 #超長視頻理解 #低標記多模態 #1M上下文窗口

下載量 64

發布時間 : 2/19/2025

模型概述

該模型專注於視頻與文本的多模態交互，能夠處理長達約50,000幀的視頻輸入，適用於視頻理解和分析任務。

模型特點

高效長視頻處理

通過Yarn技術擴展上下文窗口至1M，支持處理長達約50,000幀的視頻輸入。

低標記消耗

僅使用每幀16個標記，實現高效的視頻內容理解。

多模態能力

結合視覺和語言理解能力，實現視頻與文本的交互。

模型能力

視頻內容理解

多模態交互

長視頻處理

文本生成

使用案例

視頻分析

視頻問答

基於視頻內容回答相關問題

在MLVU數據集上達到74.1%準確率

視頻內容理解

理解並描述長視頻內容

在LongVideoBench上達到66.5%準確率

多模態測試

感知測試

多模態感知能力評估

在Perception Test上達到75.4%準確率

🚀 🦜VideoChat-Flash-Qwen2_5-7B-1M_res224⚡

VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B基於UMT - L (300M)和Qwen2.5 - 7B - 1M構建，每幀僅使用16個token。通過使用Yarn將上下文窗口擴展到1M（Qwen2.5 - 7B - 1M的原生上下文窗口為128k），我們的模型支持輸入序列最多約50,000幀。

⚠️ 重要提示

由於訓練語料主要為英文，模型僅具備基本的中文理解能力，為確保最佳性能，建議使用英文進行交互。

[📰 博客] [📂 GitHub] [📜 技術報告] [🗨️ 聊天演示]

📈 性能表現

模型	MVBench	LongVideoBench	VideoMME(無字幕)	最大輸入幀數
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

📦 安裝指南

首先，你需要安裝flash attention2和其他一些模塊。我們在下面提供一個簡單的安裝示例：

pip install transformers==4.40.1
pip install av
pip install imageio
pip install decord
pip install opencv-python
# 可選
pip install flash-attn --no-build-isolation

💻 使用示例

基礎用法

from transformers import AutoModel, AutoTokenizer
import torch

# 模型設置
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2_5-7B-1M_res224'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # 是否使用全局壓縮
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 評估設置
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 單輪對話
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# 多輪對話
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

✏️ 引用

@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}