VideoChat - Flash - Qwen2_5 - 2B_res448オープンソースマルチモーダルモデル - 動画テキストの効率的なテキスト変換を実現

Videochat Flash Qwen2 5 2B Res448

OpenGVLabによって開発

VideoChat-Flash-2BはUMT-L（300M）とQwen2.5-1.5Bを基に構築されたマルチモーダルモデルで、動画テキストからテキストへの変換タスクをサポートし、1フレームあたり16トークンのみを使用し、コンテキストウィンドウを128kに拡張します。

ビデオ生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #超長動画理解 #低マーキング消費 #マルチモーダル質問応答

ダウンロード数 904

リリース時間 : 1/11/2025

モデル概要

このモデルはマルチモーダルタスク、特に動画とテキスト間の変換に特化しており、長い動画入力（最大約10,000フレーム）を処理できます。

モデル特徴

効率的な動画処理

1フレームあたり16トークンのみを使用し、計算リソースの需要を大幅に削減します。

長い動画のサポート

Yarnによりコンテキストウィンドウを128kに拡張し、最大約10,000フレームの入力シーケンスをサポートします。

マルチモーダル能力

視覚と言語モデルを組み合わせ、動画とテキスト間の効率的な変換を実現します。

モデル能力

動画テキスト変換

マルチモーダル理解

長い動画処理

使用事例

動画分析

動画内容理解

動画内容を分析し、テキスト記述を生成します。

MLVUデータセットで65.7%の精度を達成

長い動画処理

長い動画を処理し、キー情報を抽出します。

長い動画ベンチマークで58.3%の精度を達成

マルチモーダルテスト

知覚テスト

マルチモーダル知覚能力テストを実施します。

知覚テストで70.5%の精度を達成

🚀 🦜VideoChat-Flash-Qwen2_5-2B_res448⚡

VideoChat-Flash-2Bは、UMT-L (300M) とQwen2.5-1.5Bを基に構築されており、1フレームあたりわずか16トークンを使用しています。Yarnを利用してコンテキストウィンドウを128kに拡張することで（Qwen2のネイティブコンテキストウィンドウは32k）、当モデルは最大で約10,000フレームの入力シーケンスをサポートします。

⚠️ 重要提示

主に英語のトレーニングコーパスを使用しているため、このモデルは基本的な中国語の理解能力しか持っていません。最適なパフォーマンスを得るためには、英語での対話を推奨します。

📈 パフォーマンス

モデル	MVBench	LongVideoBench	VideoMME(w/o sub)	最大入力フレーム数
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

🚀 クイックスタート

まず、flash attention2 と他のいくつかのモジュールをインストールする必要があります。以下に簡単なインストール例を示します。

pip install transformers==4.40.1
pip install timm
pip install av
pip install imageio
pip install decord
pip install opencv-python
# オプション
pip install flash-attn --no-build-isolation

次に、当モデルを使用することができます。

from transformers import AutoModel, AutoTokenizer
import torch

# モデル設定
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2_5-2B_res448'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # グローバル圧縮を使用するかどうか
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 評価設定
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 単ターン会話
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# マルチターン会話
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

✏️ 引用


@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}