VideoLLaMA2.1-7B-AV-CoTオープンソースモデル - 無料で視聴質問応答とコンテンツ記述生成をサポート

ホーム

Videollama2.1 7B AV CoT

lym0302によって開発

VideoLLaMA2.1-7B-AVはマルチモーダル大規模言語モデルで、視聴覚質問応答タスクに特化しており、動画と音声の入力を同時に処理し、高品質な質問応答と記述生成が可能です。

ビデオ生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #視聴覚質問応答 #マルチモーダル融合 #音声理解

ダウンロード数 34

リリース時間 : 3/24/2025

モデル概要

このモデルはVideoLLaMA2シリーズの一部で、特に音声理解能力が強化されており、視覚と聴覚の情報を統合して推論と質問応答を行えます。

モデル特徴

視聴覚融合理解

動画と音声入力を同時に処理し、クロスモーダル情報融合を実現

高品質な質問応答能力

多肢選択式と自由回答式の視聴覚質問応答タスクで優れた性能

効率的な時空間モデリング

16フレームの動画入力をサポートし、動画中の時空間情報を効果的に捕捉

モデル能力

動画質問応答

音声質問応答

視聴覚質問応答

動画記述生成

マルチモーダル推論

使用事例

教育

教育動画理解

教育動画の内容を分析し、学生の質問に回答

動画中の教育内容を正確に理解し、関連する解答を提供

エンターテインメント

映像作品分析

映画やテレビ作品のストーリーと会話を理解

プロットを正確に記述し、関連質問に回答可能

セキュリティ監視

監視カメラ映像分析

監視映像中の異常音と視覚的イベントを分析

異常状況を識別し、警告を提供可能

🚀 VideoLLaMA 2: ビデオLLMにおける時空間モデリングと音声理解の進化

VideoLLaMA 2は、ビデオLLMにおける時空間モデリングと音声理解の能力を向上させたモデルです。多様なビデオや音声に関する質問に高精度に回答でき、多モーダルの大規模言語モデルとして高い性能を発揮します。

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

もし当プロジェクトが気に入っていただけたら、Githubでスター⭐をして最新のアップデートをキャッチしましょう。

📰 ニュース

[2024.10.22] VideoLLaMA2.1-7B-AV のチェックポイントをリリースしました。
[2024.10.15] VideoLLaMA2.1-7B-16F-Base と VideoLLaMA2.1-7B-16F のチェックポイントをリリースしました。
[2024.08.14] VideoLLaMA2-72B-Base と VideoLLaMA2-72B のチェックポイントをリリースしました。
[2024.07.30] VideoLLaMA2-8x7B-Base と VideoLLaMA2-8x7B のチェックポイントをリリースしました。
[2024.06.25] 🔥🔥 6月25日現在、VideoLLaMA2-7B-16F は MLVU Leaderboard の約7BサイズのビデオLLMで 1位です。
[2024.06.18] 🔥🔥 6月18日現在、VideoLLaMA2-7B-16F は VideoMME Leaderboard の約7BサイズのビデオLLMで 1位です。
[2024.06.17] 👋👋 最新の結果と欠けていた参考文献を含む技術レポートを更新しました。もしVideoLLaMA 2に関連する研究があり、論文に記載されていない場合は、ぜひお知らせください。
[2024.06.14] 🔥🔥 オンラインデモが利用可能になりました。
[2024.06.03] VideoLLaMA 2の学習、評価、サービングコードをリリースしました。

🌎 モデルズー

ビジョンのみのチェックポイント

モデル名	タイプ	ビジュアルエンコーダ	言語デコーダ	学習フレーム数
VideoLLaMA2-7B-Base	Base	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B	Chat	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B-16F-Base	Base	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-7B-16F	Chat	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-8x7B-Base	Base	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-8x7B	Chat	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-72B-Base	Base	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2-72B	Chat	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2.1-7B-16F-Base	Base	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoLLaMA2.1-7B-16F	Chat	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16

音声-ビデオのチェックポイント

モデル名	タイプ	音声エンコーダ	言語デコーダ
VideoLLaMA2.1-7B-AV (このチェックポイント)	Chat	Fine-tuned BEATs_iter3+(AS2M)(cpt2)	VideoLLaMA2.1-7B-16F

🚀 主な結果

選択式ビデオQAとビデオキャプショニング

オープンエンドのビデオQA

選択式とオープンエンドの音声QA

オープンエンドの音声-ビデオQA

💻 使用例

基本的な使用法

import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init
import argparse

def inference(args):

    model_path = args.model_path
    model, processor, tokenizer = model_init(model_path)

    if args.modal_type == "a":
        model.model.vision_tower = None
    elif args.modal_type == "v":
        model.model.audio_tower = None
    elif args.modal_type == "av":
        pass
    else:
        raise NotImplementedError
    # 音声-ビデオ推論
    audio_video_path = "assets/00003491.mp4"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"Please describe the video with audio information."

    # 音声推論
    audio_video_path = "assets/bird-twitter-car.wav"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"Please describe the audio."

    # ビデオ推論
    audio_video_path = "assets/output_v_1jgsRbGzCls.mp4"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"What activity are the people practicing in the video?"

    output = mm_infer(
        audio_video_tensor,
        question,
        model=model,
        tokenizer=tokenizer,
        modal='audio' if args.modal_type == "a" else "video",
        do_sample=False,
    )

    print(output)


if __name__ == "__main__":
    parser = argparse.ArgumentParser()

    parser.add_argument('--model-path', help='', required=False, default='DAMO-NLP-SG/VideoLLaMA2.1-7B-AV')
    parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
    args = parser.parse_args()

    inference(args)

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

引用

もしVideoLLaMAがあなたの研究やアプリケーションに役立った場合、以下のBibTeXを使用して引用してください。

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}