VideoChat-R1_7Bオープンソースマルチモーダルビデオ理解モデル - ビデオとテキスト入力をサポートし、テキスト出力を生成

ホーム

Videochat R1 7B

OpenGVLabによって開発

VideoChat-R1_7B は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダル動画理解モデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。

ビデオ生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #ビデオQA #マルチモーダル理解 #7Bパラメータ規模

ダウンロード数 1,686

リリース時間 : 4/13/2025

モデル概要

このモデルは動画テキストからテキストへのタスクに特化しており、動画内容を理解し関連する質問に答えることができ、動画コンテンツ分析やインタラクティブなQAシナリオに適しています。

モデル特徴

マルチモーダル動画理解

動画とテキスト入力を同時に処理し、動画内容を理解して関連するテキスト出力を生成できます。

効率的な動画処理

最大ピクセル460800と32フレームの動画処理能力をサポートし、計算効率と動画理解品質のバランスを取っています。

構造化出力

<answer>タグ内で構造化された回答を提供することをサポートし、後続の処理と分析を容易にします。

モデル能力

動画内容理解

ビデオQA

マルチモーダル推論

構造化テキスト生成

使用事例

動画コンテンツ分析

ビデオQAシステム

ユーザーが動画をアップロードし質問すると、モデルが動画内容を分析して回答します。

動画内容を正確に理解し関連する回答を提供します。

動画コンテンツ要約

動画コンテンツのテキスト要約を自動生成します。

簡潔で正確な動画内容の説明を生成します。

インテリジェントインタラクション

教育支援

学生が教育用動画を視聴後、QA方式で理解を深めます。

正確な教育内容の説明と回答を提供します。

🚀 VideoChat-R1_7B

VideoChat-R1_7Bは、ビデオとテキストを入力としてテキストを出力するマルチモーダルモデルです。このモデルは、Qwen/Qwen2.5-VL-7B-Instructをベースに構築されており、ビデオに関する質問に回答することができます。

プロパティ	詳細
モデルタイプ	マルチモーダル（ビデオ - テキスト変換）
ベースモデル	Qwen/Qwen2.5-VL-7B-Instruct
評価指標	正解率
ライセンス	Apache-2.0

[📂 GitHub]
[📜 技術レポート]

🚀 クイックスタート

以下に簡単なインストール例を示します。

pip install transformers
pip install qwen_vl_utils

次に、モデルを使用することができます。

基本的な使用法

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model_path = "OpenGVLab/VideoChat-R1_7B"
# デフォルト: 利用可能なデバイスにモデルをロード
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_path, torch_dtype="auto", device_map="auto",
    attn_implementation="flash_attention_2"
)

# デフォルトのプロセッサー
processor = AutoProcessor.from_pretrained(model_path)

video_path = "your_video.mp4"
question = "Where is the final cup containing the object?"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": video_path,
                "max_pixels": 460800,
                "nframes": 32
            },
            {"type": "text", "text": f"""{question}
            Provide your final answer within the <answer> </answer> tags.
             """},
        ],
    }
]

# Qwen 2.5 VLでは、フレームレート情報もモデルに入力され、絶対時間とのアライメントを行います。
# 推論の準備
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
    **video_kwargs,
)
inputs = inputs.to("cuda")

# 推論
generated_ids = model.generate(**inputs, max_new_tokens=512)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

✏️ 引用

@article{li2025videochatr1,
  title={VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning},
  author={Li, Xinhao and Yan, Ziang and Meng, Desen and Dong, Lu and Zeng, Xiangyu and He, Yinan and Wang, Yali and Qiao, Yu and Wang, Yi and Wang, Limin},
  journal={arXiv preprint arXiv:2504.06958},
  year={2025}
}