VideoChat-Flash-Qwen2_5-7B_InternVideo2-1Bオープンソース多モーダルモデル

ホーム

Videochat Flash Qwen2 5 7B InternVideo2 1B

OpenGVLabによって開発

InternVideo2-1BとQwen2.5-7Bを基に構築されたマルチモーダル動画テキストモデルで、1フレームあたりわずか16トークンを使用し、最大10,000フレームの入力シーケンスをサポートします。

テキスト生成ビデオ

Transformers

英語オープンソースライセンス:Apache-2.0 #超長動画理解 #効率的な動画タグ付け #マルチモーダル質問応答

ダウンロード数 193

リリース時間 : 2/19/2025

モデル概要

このモデルは効率的なマルチモーダル動画テキスト処理モデルで、動画理解とテキスト生成タスクに特化しており、特に長編動画コンテンツの分析に適しています。

モデル特徴

効率的な動画処理

1フレームあたりわずか16トークンを使用し、計算リソースの需要を大幅に削減

超長文脈サポート

Yarn技術により128kコンテキストウィンドウに拡張、約10,000フレームの入力をサポート

マルチモーダル理解

視覚と言語モデルを組み合わせ、動画コンテンツの深い理解を実現

モデル能力

動画コンテンツ理解

長編動画分析

マルチモーダル推論

動画質問応答

使用事例

動画コンテンツ分析

長編動画要約

数時間に及ぶ動画コンテンツからキー情報を抽出し要約

長編動画ベンチマークテストで64.5%の精度を達成

動画質問応答

動画コンテンツに関する複雑な質問に回答

MLVUデータセットで73.4%の精度を達成

マルチモーダル理解

動画シーン理解

動画内のシーン、アクション、オブジェクトを識別・分析

知覚テストで76.3%の精度を達成

🚀 🦜VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B⚡

VideoChat-Flash-Qwen2_5-7B_InternVideo2-1Bは、InternVideo2-1BとQwen2.5-7Bを基に構築されており、1フレームあたりわずか16トークンを使用しています。Yarnを利用してコンテキストウィンドウを128kに拡張することで（Qwen2のネイティブコンテキストウィンドウは32k）、このモデルは最大約10,000フレームの入力シーケンスをサポートします。

⚠️ 重要提示

主に英語のトレーニングコーパスを使用しているため、このモデルは基本的な中国語理解能力しか持っていません。最適なパフォーマンスを得るためには、英語での対話を推奨します。

[📰 Blog] [📂 GitHub] [📜 Tech Report] [🗨️ Chat Demo]

✨ 主な機能

VideoChat-Flash-Qwen2_5-7B_InternVideo2-1Bは、InternVideo2-1BとQwen2.5-7Bを基盤に構築され、1フレームあたり16トークンのみを使用します。Yarnを使ってコンテキストウィンドウを128kに拡張することで、最大約10,000フレームの入力シーケンスをサポートします。

📈 パフォーマンス

モデル	MVBench	LongVideoBench	VideoMME(サブなし)	最大入力フレーム数
VideoChat-Flash-Qwen2_5-2B@448	70.0	58.3	57.0	10000
VideoChat-Flash-Qwen2-7B@224	73.2	64.2	64.0	10000
VideoChat-Flash-Qwen2_5-7B-1M@224	73.4	66.5	63.5	50000
VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B@224	74.3	64.5	65.1	10000
VideoChat-Flash-Qwen2-7B@448	74.0	64.7	65.3	10000

📦 インストール

まず、flash attention2と他のいくつかのモジュールをインストールする必要があります。以下に簡単なインストール例を示します。

pip install transformers==4.40.1
pip install av
pip install imageio
pip install decord
pip install opencv-python
# オプション
pip install flash-attn --no-build-isolation

💻 使用例

基本的な使用法

from transformers import AutoModel, AutoTokenizer
import torch

# モデル設定
model_path = 'OpenGVLab/VideoChat-Flash-Qwen2_5-7B_InternVideo2-1B'

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(torch.bfloat16).cuda()
image_processor = model.get_vision_tower().image_processor

mm_llm_compress = False # グローバル圧縮を使用するかどうか
if mm_llm_compress:
    model.config.mm_llm_compress = True
    model.config.llm_compress_type = "uniform0_attention"
    model.config.llm_compress_layer_list = [4, 18]
    model.config.llm_image_token_ratio_list = [1, 0.75, 0.25]
else:
    model.config.mm_llm_compress = False

# 評価設定
max_num_frames = 512
generation_config = dict(
    do_sample=False,
    temperature=0.0,
    max_new_tokens=1024,
    top_p=0.1,
    num_beams=1
)

video_path = "your_video.mp4"

# 単ターン会話
question1 = "Describe this video in detail."
output1, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question1, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output1)

# マルチターン会話
question2 = "How many people appear in the video?"
output2, chat_history = model.chat(video_path=video_path, tokenizer=tokenizer, user_prompt=question2, chat_history=chat_history, return_history=True, max_num_frames=max_num_frames, generation_config=generation_config)

print(output2)

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下でライセンスされています。

✏️ 引用

@article{li2024videochatflash,
  title={VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling},
  author={Li, Xinhao and Wang, Yi and Yu, Jiashuo and Zeng, Xiangyu and Zhu, Yuhan and Huang, Haian and Gao, Jianfei and Li, Kunchang and He, Yinan and Wang, Chenting and others},
  journal={arXiv preprint arXiv:2501.00574},
  year={2024}
}