VideoLLaMA2.1-7B-AV-CoT开源模型 - 免费支持视听问答与内容描述生成

首页

Videollama2.1 7B AV CoT

由 lym0302 开发

VideoLLaMA2.1-7B-AV是一款多模态大语言模型，专注于视听问答任务，能够同时处理视频和音频输入，提供高质量的问答和描述生成能力。

视频生成文本

Transformers

英语开源协议:Apache-2.0 #视听问答 #多模态融合 #音频理解

下载量 34

发布时间 : 3/24/2025

模型简介

该模型是VideoLLaMA2系列的一部分，特别增强了音频理解能力，能够结合视觉和听觉信息进行综合推理和问答。

模型特点

视听融合理解

能够同时处理视频和音频输入，实现跨模态信息融合

高质量问答能力

在多选和开放式视听问答任务中表现优异

高效时空建模

支持16帧视频输入，有效捕捉视频中的时空信息

模型能力

视频问答

音频问答

视听问答

视频描述生成

多模态推理

使用案例

教育

教学视频理解

分析教学视频内容，回答学生提出的问题

准确理解视频中的教学内容并提供相关解答

娱乐

影视内容分析

理解影视作品中的情节和对话

能够准确描述剧情并回答相关问题

安全监控

监控视频分析

分析监控视频中的异常声音和视觉事件

能够识别异常情况并提供警报

🚀 VideoLLaMA 2：推进视频大语言模型中的时空建模与音频理解

VideoLLaMA 2 是一款视频大语言模型，在时空建模和音频理解方面取得了显著进展，可用于视听问答等多模态任务。

项目信息

属性	详情
模型类型	视听问答、音频问答、多模态大语言模型
训练数据集	lmms-lab/ClothoAQA、Loie/VGGSound
评估指标	准确率
任务类型	视觉问答
依赖库	transformers
许可证	Apache-2.0

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

如果您喜欢我们的项目，请在 Github 上给我们一个星星 ⭐，以获取最新更新。

📰 新闻动态

[2024.10.22] 发布 VideoLLaMA2.1-7B-AV 模型的检查点。
[2024.10.15] 发布 VideoLLaMA2.1-7B-16F-Base 和 VideoLLaMA2.1-7B-16F 模型的检查点。
[2024.08.14] 发布 VideoLLaMA2-72B-Base 和 VideoLLaMA2-72B 模型的检查点。
[2024.07.30] 发布 VideoLLaMA2-8x7B-Base 和 VideoLLaMA2-8x7B 模型的检查点。
[2024.06.25] 🔥🔥 截至 6 月 25 日，我们的 VideoLLaMA2-7B-16F 模型在 MLVU 排行榜上约 70 亿参数规模的视频大语言模型中排名第一。
[2024.06.18] 🔥🔥 截至 6 月 18 日，我们的 VideoLLaMA2-7B-16F 模型在 VideoMME 排行榜上约 70 亿参数规模的视频大语言模型中排名第一。
[2024.06.17] 👋👋 更新技术报告，包含最新结果和缺失的参考文献。如果您有与 VideoLLaMA 2 密切相关但未在论文中提及的工作，请随时告知我们。
[2024.06.14] 🔥🔥 在线演示已上线。
[2024.06.03] 发布 VideoLLaMA 2 的训练、评估和服务代码。

🌎 模型库

仅视觉检查点

模型名称	类型	视觉编码器	语言解码器	训练帧数
VideoLLaMA2-7B-Base	基础版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B	对话版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B-16F-Base	基础版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-7B-16F	对话版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-8x7B-Base	基础版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-8x7B	对话版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-72B-Base	基础版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2-72B	对话版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2.1-7B-16F-Base	基础版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoLLaMA2.1-7B-16F	对话版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16

视听检查点

模型名称	类型	音频编码器	语言解码器
VideoLLaMA2.1-7B-AV (本检查点)	对话版	Fine-tuned BEATs_iter3+(AS2M)(cpt2)	VideoLLaMA2.1-7B-16F

🚀 主要结果

多项选择视频问答与视频字幕生成

开放式视频问答

多项选择与开放式音频问答

开放式视听问答

💻 使用示例

基础用法

import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init
import argparse

def inference(args):

    model_path = args.model_path
    model, processor, tokenizer = model_init(model_path)

    if args.modal_type == "a":
        model.model.vision_tower = None
    elif args.modal_type == "v":
        model.model.audio_tower = None
    elif args.modal_type == "av":
        pass
    else:
        raise NotImplementedError
    # Audio-visual Inference
    audio_video_path = "assets/00003491.mp4"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"Please describe the video with audio information."

    # Audio Inference
    audio_video_path = "assets/bird-twitter-car.wav"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"Please describe the audio."

    # Video Inference
    audio_video_path = "assets/output_v_1jgsRbGzCls.mp4"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"What activity are the people practicing in the video?"

    output = mm_infer(
        audio_video_tensor,
        question,
        model=model,
        tokenizer=tokenizer,
        modal='audio' if args.modal_type == "a" else "video",
        do_sample=False,
    )

    print(output)


if __name__ == "__main__":
    parser = argparse.ArgumentParser()

    parser.add_argument('--model-path', help='', required=False, default='DAMO-NLP-SG/VideoLLaMA2.1-7B-AV')
    parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
    args = parser.parse_args()

    inference(args)

🔖 引用

如果您发现 VideoLLaMA 对您的研究和应用有帮助，请使用以下 BibTeX 进行引用：

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}