VideoChat-Flash-Qwen2_5-2B_res448開源多模態模型

首頁

Videochat Flash Qwen2 5 2B Res448

由OpenGVLab開發

VideoChat-Flash-2B是基於UMT-L（300M）和Qwen2.5-1.5B構建的多模態模型，支持視頻文本轉文本任務，僅使用每幀16個標記，並擴展上下文窗口至128k。

視頻生成文本

Transformers

英語開源協議:Apache-2.0 #超長視頻理解 #低標記消耗 #多模態問答

下載量 904

發布時間 : 1/11/2025

模型概述

該模型專注於多模態任務，特別是視頻與文本之間的轉換，能夠處理長視頻輸入（最多約10,000幀）。

模型特點

高效視頻處理

僅使用每幀16個標記，顯著降低計算資源需求。

長視頻支持

通過Yarn擴展上下文窗口至128k，支持最多約10,000幀的輸入序列。

多模態能力

結合視覺和語言模型，實現視頻與文本之間的高效轉換。

模型能力

視頻文本轉換

多模態理解

長視頻處理

使用案例

視頻分析

視頻內容理解

分析視頻內容並生成文本描述。

在MLVU數據集上準確率達65.7%

長視頻處理

處理長視頻並提取關鍵信息。

在長視頻基準上準確率達58.3%

多模態測試

感知測試

進行多模態感知能力測試。

在感知測試上準確率達70.5%

🚀 🦜VideoChat-Flash-Qwen2_5-2B_res448⚡

VideoChat-Flash-2B 基於 UMT-L (300M) 和 Qwen2.5 - 1.5B 構建，每幀僅使用 16 個標記。通過利用 Yarn 將上下文窗口擴展到 128k（Qwen2 的原生上下文窗口為 32k），我們的模型支持輸入序列最多約 10,000 幀。

⚠️ 重要提示

由於訓練語料庫主要為英文，該模型僅具備基本的中文理解能力，為確保最佳性能，建議使用英文進行交互。

🚀 快速開始

安裝依賴

首先，你需要安裝 flash attention2 和其他一些模塊。以下是一個簡單的安裝示例：

pip install transformers==4.40.1
pip install timm
pip install av
pip install imageio
pip install decord
pip install opencv-python
# 可選
pip install flash-attn --no-build-isolation

使用模型

from transformers import AutoModel, AutoTokenizer
import torch

# 模型設置
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2_5-2B_res448'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # 是否使用全局壓縮
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 評估設置
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 單輪對話
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# 多輪對話
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

📈 性能表現

模型	MVBench	LongVideoBench	VideoMME(無字幕)	最大輸入幀數
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

✏️ 引用


@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}