VideoChat-Flash-Qwen2-7B_res448オープンソースマルチモーダルモデル - 長フレームビデオ入力処理は非常に効率的

ホーム

Videochat Flash Qwen2 7B Res448

OpenGVLabによって開発

VideoChat-Flash-7BはUMT-L (300M)とQwen2-7Bを基に構築されたマルチモーダルモデルで、1フレームあたりわずか16トークンを使用し、約10,000フレームまでの長い入力シーケンスをサポートします。

ビデオ生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #超長動画理解 #低マーキングマルチモーダル #128kコンテキストウィンドウ

ダウンロード数 661

リリース時間 : 1/11/2025

モデル概要

このモデルは、ビデオとテキスト間のインタラクションタスクを処理するマルチモーダルビデオテキスト変換モデルで、効率的なビデオ理解とテキスト生成能力を備えています。

モデル特徴

効率的なビデオ処理

1フレームあたりわずか16トークンを使用し、処理効率を大幅に向上させます。

長いシーケンスのサポート

Yarnを使用してコンテキストウィンドウを128kに拡張し、約10,000フレームまでの長い入力シーケンスをサポートします。

マルチモーダル能力

ビデオとテキスト処理能力を組み合わせ、複雑なマルチモーダルタスクに適しています。

モデル能力

ビデオ理解

テキスト生成

マルチモーダルインタラクション

使用事例

ビデオ分析

ビデオ質問応答

ビデオの内容に基づいて関連する質問に答えます。

MLVUデータセットで74.7%の精度を達成。

ビデオ要約

ビデオ内容のテキスト要約を生成します。

マルチモーダル評価

マルチモーダルベンチマークテスト

MVBenchなどのデータセットでマルチモーダル性能を評価します。

MVBenchで74.0%の精度を達成。

🚀 🦜VideoChat-Flash-Qwen2-7B_res448⚡

VideoChat-Flash-7BはUMT-L (300M) とQwen2-7Bを基に構築されており、1フレームあたりわずか 16トークン を使用します。Yarnを利用してコンテキストウィンドウを128kに拡張することで（Qwen2のネイティブコンテキストウィンドウは32k）、当モデルは最大で約 10,000フレーム の入力シーケンスをサポートします。

[📰 Blog] [📂 GitHub] [📜 Tech Report] [🗨️ Chat Demo]

⚠️ 重要提示

主に英語のトレーニングコーパスを使用しているため、このモデルは基本的な中国語理解能力しか持っていません。最適なパフォーマンスを得るためには、英語での対話を推奨します。

🚀 クイックスタート

モデルの性能

モデル	MVBench	LongVideoBench	VideoMME(w/o sub)	最大入力フレーム数
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

モデルの使用方法

まず、flash attention2 と他のいくつかのモジュールをインストールする必要があります。以下に簡単なインストール例を示します。

pip install transformers==4.40.1
pip install av
pip install imageio
pip install decord
pip install opencv-python
# オプション
pip install flash-attn --no-build-isolation

次に、モデルを使用することができます。

from transformers import AutoModel, AutoTokenizer
import torch

# モデル設定
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2-7B_res448'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # グローバル圧縮を使用するかどうか
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 評価設定
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 単ターン会話
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# マルチターン会話
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

✨ 主な機能

VideoChat-Flash-7BはUMT-L (300M) とQwen2-7Bを基に構築されています。
1フレームあたりわずか16トークンを使用することで、効率的なビデオ処理を実現しています。
Yarnを利用してコンテキストウィンドウを128kに拡張することで、最大で約10,000フレームの入力シーケンスをサポートしています。

📚 ドキュメント

引用

@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}