Videollama2.1 7B AV CoT
VideoLLaMA2.1-7B-AV是一款多模态大语言模型,专注于视听问答任务,能够同时处理视频和音频输入,提供高质量的问答和描述生成能力。
下载量 34
发布时间 : 3/24/2025
模型简介
该模型是VideoLLaMA2系列的一部分,特别增强了音频理解能力,能够结合视觉和听觉信息进行综合推理和问答。
模型特点
视听融合理解
能够同时处理视频和音频输入,实现跨模态信息融合
高质量问答能力
在多选和开放式视听问答任务中表现优异
高效时空建模
支持16帧视频输入,有效捕捉视频中的时空信息
模型能力
视频问答
音频问答
视听问答
视频描述生成
多模态推理
使用案例
教育
教学视频理解
分析教学视频内容,回答学生提出的问题
准确理解视频中的教学内容并提供相关解答
娱乐
影视内容分析
理解影视作品中的情节和对话
能够准确描述剧情并回答相关问题
安全监控
监控视频分析
分析监控视频中的异常声音和视觉事件
能够识别异常情况并提供警报
🚀 VideoLLaMA 2:推进视频大语言模型中的时空建模与音频理解
VideoLLaMA 2 是一款视频大语言模型,在时空建模和音频理解方面取得了显著进展,可用于视听问答等多模态任务。
项目信息
属性 | 详情 |
---|---|
模型类型 | 视听问答、音频问答、多模态大语言模型 |
训练数据集 | lmms-lab/ClothoAQA、Loie/VGGSound |
评估指标 | 准确率 |
任务类型 | 视觉问答 |
依赖库 | transformers |
许可证 | Apache-2.0 |
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
如果您喜欢我们的项目,请在 Github 上给我们一个星星 ⭐,以获取最新更新。
📰 新闻动态
- [2024.10.22] 发布 VideoLLaMA2.1-7B-AV 模型的检查点。
- [2024.10.15] 发布 VideoLLaMA2.1-7B-16F-Base 和 VideoLLaMA2.1-7B-16F 模型的检查点。
- [2024.08.14] 发布 VideoLLaMA2-72B-Base 和 VideoLLaMA2-72B 模型的检查点。
- [2024.07.30] 发布 VideoLLaMA2-8x7B-Base 和 VideoLLaMA2-8x7B 模型的检查点。
- [2024.06.25] 🔥🔥 截至 6 月 25 日,我们的 VideoLLaMA2-7B-16F 模型在 MLVU 排行榜 上约 70 亿参数规模的视频大语言模型中排名 第一。
- [2024.06.18] 🔥🔥 截至 6 月 18 日,我们的 VideoLLaMA2-7B-16F 模型在 VideoMME 排行榜 上约 70 亿参数规模的视频大语言模型中排名 第一。
- [2024.06.17] 👋👋 更新技术报告,包含最新结果和缺失的参考文献。如果您有与 VideoLLaMA 2 密切相关但未在论文中提及的工作,请随时告知我们。
- [2024.06.14] 🔥🔥 在线演示 已上线。
- [2024.06.03] 发布 VideoLLaMA 2 的训练、评估和服务代码。
🌎 模型库
仅视觉检查点
视听检查点
模型名称 | 类型 | 音频编码器 | 语言解码器 |
---|---|---|---|
VideoLLaMA2.1-7B-AV (本检查点) | 对话版 | Fine-tuned BEATs_iter3+(AS2M)(cpt2) | VideoLLaMA2.1-7B-16F |
🚀 主要结果
多项选择视频问答与视频字幕生成
开放式视频问答
多项选择与开放式音频问答
开放式视听问答
💻 使用示例
基础用法
import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init
import argparse
def inference(args):
model_path = args.model_path
model, processor, tokenizer = model_init(model_path)
if args.modal_type == "a":
model.model.vision_tower = None
elif args.modal_type == "v":
model.model.audio_tower = None
elif args.modal_type == "av":
pass
else:
raise NotImplementedError
# Audio-visual Inference
audio_video_path = "assets/00003491.mp4"
preprocess = processor['audio' if args.modal_type == "a" else "video"]
if args.modal_type == "a":
audio_video_tensor = preprocess(audio_video_path)
else:
audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
question = f"Please describe the video with audio information."
# Audio Inference
audio_video_path = "assets/bird-twitter-car.wav"
preprocess = processor['audio' if args.modal_type == "a" else "video"]
if args.modal_type == "a":
audio_video_tensor = preprocess(audio_video_path)
else:
audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
question = f"Please describe the audio."
# Video Inference
audio_video_path = "assets/output_v_1jgsRbGzCls.mp4"
preprocess = processor['audio' if args.modal_type == "a" else "video"]
if args.modal_type == "a":
audio_video_tensor = preprocess(audio_video_path)
else:
audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
question = f"What activity are the people practicing in the video?"
output = mm_infer(
audio_video_tensor,
question,
model=model,
tokenizer=tokenizer,
modal='audio' if args.modal_type == "a" else "video",
do_sample=False,
)
print(output)
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument('--model-path', help='', required=False, default='DAMO-NLP-SG/VideoLLaMA2.1-7B-AV')
parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
args = parser.parse_args()
inference(args)
🔖 引用
如果您发现 VideoLLaMA 对您的研究和应用有帮助,请使用以下 BibTeX 进行引用:
@article{damonlpsg2024videollama2,
title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
journal={arXiv preprint arXiv:2406.07476},
year={2024},
url = {https://arxiv.org/abs/2406.07476}
}
@article{damonlpsg2023videollama,
title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
author = {Zhang, Hang and Li, Xin and Bing, Lidong},
journal = {arXiv preprint arXiv:2306.02858},
year = {2023},
url = {https://arxiv.org/abs/2306.02858}
}
Llava Video 7B Qwen2
Apache-2.0
LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解任务,支持64帧视频输入。
视频生成文本
Transformers 英语

L
lmms-lab
34.28k
91
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练优化,具备优秀的视频理解能力。
视频生成文本
Transformers 英语

L
llava-hf
12.61k
9
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型,构建于InternVL2.5之上,通过提升感知细粒度细节和捕捉长时序结构的能力,显著改进了现有MLLM模型。
视频生成文本
Transformers 英语

I
OpenGVLab
8,265
60
Cogvlm2 Llama3 Caption
其他
CogVLM2-Caption是一个视频描述生成模型,用于为CogVideoX模型生成训练数据。
视频生成文本
Transformers 英语

C
THUDM
7,493
95
Spacetimegpt
时空GPT是一个能够进行空间和时间推理的视频描述生成模型,能够分析视频帧并生成描述视频事件的句子。
视频生成文本
Transformers 英语

S
Neleac
2,877
33
Video R1 7B
Apache-2.0
Video-R1-7B是基于Qwen2.5-VL-7B-Instruct优化的多模态大语言模型,专注于视频推理任务,能够理解视频内容并回答相关问题。
视频生成文本
Transformers 英语

V
Video-R1
2,129
9
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一个基于 InternVL2.5 构建的视频多模态大语言模型(MLLM),通过长且丰富的上下文(LRC)建模进行了增强,能够感知细粒度细节并捕捉长时态结构。
视频生成文本
Transformers 英语

I
OpenGVLab
1,914
3
Videollm Online 8b V1plus
MIT
VideoLLM-online是一个基于Llama-3-8B-Instruct的多模态大语言模型,专注于在线视频理解和视频-文本生成任务。
视频生成文本
Safetensors 英语
V
chenjoya
1,688
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态视频理解模型,能够处理视频和文本输入,生成文本输出。
视频生成文本
Transformers 英语

V
OpenGVLab
1,686
7
Qwen2.5 Vl 7b Cam Motion Preview
其他
基于Qwen2.5-VL-7B-Instruct微调的摄像机运动分析模型,专注于视频中的摄像机运动分类和视频-文本检索任务
视频生成文本
Transformers

Q
chancharikm
1,456
10
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98