VideoChat-Flash-Qwen2-7B_res448开源多模态模型 - 长帧视频输入处理超高效

首页

Videochat Flash Qwen2 7B Res448

由 OpenGVLab 开发

VideoChat-Flash-7B是基于UMT-L (300M)和Qwen2-7B构建的多模态模型，每帧仅使用16个标记，支持输入序列长达约10,000帧。

视频生成文本

Transformers

英语开源协议:Apache-2.0 #超长视频理解 #低标记多模态 #128k上下文窗口

下载量 661

发布时间 : 1/11/2025

模型简介

该模型是一个多模态视频文本转换模型，专注于处理视频和文本之间的交互任务，具备高效的视频理解和文本生成能力。

模型特点

高效视频处理

每帧仅使用16个标记，大幅提升处理效率。

长序列支持

通过Yarn扩展上下文窗口至128k，支持输入序列长达约10,000帧。

多模态能力

结合视频和文本处理能力，适用于复杂的多模态任务。

模型能力

视频理解

文本生成

多模态交互

使用案例

视频分析

视频问答

根据视频内容回答相关问题。

在MLVU数据集上准确率达74.7%。

视频摘要

生成视频内容的文本摘要。

多模态评估

多模态基准测试

在MVBench等数据集上进行多模态性能评估。

在MVBench上准确率达74.0%。

🚀 🦜VideoChat-Flash-Qwen2-7B_res448⚡

VideoChat-Flash-Qwen2-7B_res448 模型构建于 UMT-L (300M) 和 Qwen2-7B 之上，每帧仅使用 16 个标记。通过利用 Yarn 将上下文窗口扩展到 128k（Qwen2 的原生上下文窗口为 32k），该模型支持输入多达约 10,000 帧的序列。

⚠️ 重要提示

由于训练语料主要为英文，模型仅具备基本的中文理解能力，为确保最佳性能，建议使用英文进行交互。

🚀 快速开始

安装依赖

首先，你需要安装 flash attention2 和其他一些模块。以下是一个简单的安装示例：

pip install transformers==4.40.1
pip install av
pip install imageio
pip install decord
pip install opencv-python
# 可选 
pip install flash-attn --no-build-isolation

使用模型

from transformers import AutoModel, AutoTokenizer
import torch

# 模型设置
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2-7B_res448'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # 是否使用全局压缩
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 评估设置
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 单轮对话
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# 多轮对话
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

✨ 主要特性

高效标记使用：每帧仅使用 16 个标记，提高处理效率。
长上下文支持：通过 Yarn 扩展上下文窗口到 128k，支持输入多达约 10,000 帧的序列。

📈 性能表现

模型	MVBench	LongVideoBench	VideoMME(无字幕)	最大输入帧数
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

📚 详细文档

模型指标

属性	详情
模型类型	多模态
评估指标	准确率

数据集评估结果

任务类型	数据集名称	准确率
多模态	MLVU	74.7
多模态	MVBench	74.0
多模态	Perception Test	76.2
多模态	LongVideoBench	64.7
多模态	VideoMME (无字幕)	65.3
多模态	LVBench	48.2

✏️ 引用

@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}