Videollama2.1 7B AV CoT
VideoLLaMA2.1-7B-AV是一款多模態大語言模型,專注於視聽問答任務,能夠同時處理視頻和音頻輸入,提供高質量的問答和描述生成能力。
下載量 34
發布時間 : 3/24/2025
模型概述
該模型是VideoLLaMA2系列的一部分,特別增強了音頻理解能力,能夠結合視覺和聽覺信息進行綜合推理和問答。
模型特點
視聽融合理解
能夠同時處理視頻和音頻輸入,實現跨模態信息融合
高質量問答能力
在多選和開放式視聽問答任務中表現優異
高效時空建模
支持16幀視頻輸入,有效捕捉視頻中的時空信息
模型能力
視頻問答
音頻問答
視聽問答
視頻描述生成
多模態推理
使用案例
教育
教學視頻理解
分析教學視頻內容,回答學生提出的問題
準確理解視頻中的教學內容並提供相關解答
娛樂
影視內容分析
理解影視作品中的情節和對話
能夠準確描述劇情並回答相關問題
安全監控
監控視頻分析
分析監控視頻中的異常聲音和視覺事件
能夠識別異常情況並提供警報
🚀 VideoLLaMA 2:推進視頻大語言模型中的時空建模與音頻理解
VideoLLaMA 2 是一款視頻大語言模型,在時空建模和音頻理解方面取得了顯著進展,可用於視聽問答等多模態任務。
項目信息
屬性 | 詳情 |
---|---|
模型類型 | 視聽問答、音頻問答、多模態大語言模型 |
訓練數據集 | lmms-lab/ClothoAQA、Loie/VGGSound |
評估指標 | 準確率 |
任務類型 | 視覺問答 |
依賴庫 | transformers |
許可證 | Apache-2.0 |
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
如果您喜歡我們的項目,請在 Github 上給我們一個星星 ⭐,以獲取最新更新。
📰 新聞動態
- [2024.10.22] 發佈 VideoLLaMA2.1-7B-AV 模型的檢查點。
- [2024.10.15] 發佈 VideoLLaMA2.1-7B-16F-Base 和 VideoLLaMA2.1-7B-16F 模型的檢查點。
- [2024.08.14] 發佈 VideoLLaMA2-72B-Base 和 VideoLLaMA2-72B 模型的檢查點。
- [2024.07.30] 發佈 VideoLLaMA2-8x7B-Base 和 VideoLLaMA2-8x7B 模型的檢查點。
- [2024.06.25] 🔥🔥 截至 6 月 25 日,我們的 VideoLLaMA2-7B-16F 模型在 MLVU 排行榜 上約 70 億參數規模的視頻大語言模型中排名 第一。
- [2024.06.18] 🔥🔥 截至 6 月 18 日,我們的 VideoLLaMA2-7B-16F 模型在 VideoMME 排行榜 上約 70 億參數規模的視頻大語言模型中排名 第一。
- [2024.06.17] 👋👋 更新技術報告,包含最新結果和缺失的參考文獻。如果您有與 VideoLLaMA 2 密切相關但未在論文中提及的工作,請隨時告知我們。
- [2024.06.14] 🔥🔥 在線演示 已上線。
- [2024.06.03] 發佈 VideoLLaMA 2 的訓練、評估和服務代碼。
🌎 模型庫
僅視覺檢查點
視聽檢查點
模型名稱 | 類型 | 音頻編碼器 | 語言解碼器 |
---|---|---|---|
VideoLLaMA2.1-7B-AV (本檢查點) | 對話版 | Fine-tuned BEATs_iter3+(AS2M)(cpt2) | VideoLLaMA2.1-7B-16F |
🚀 主要結果
多項選擇視頻問答與視頻字幕生成
開放式視頻問答
多項選擇與開放式音頻問答
開放式視聽問答
💻 使用示例
基礎用法
import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init
import argparse
def inference(args):
model_path = args.model_path
model, processor, tokenizer = model_init(model_path)
if args.modal_type == "a":
model.model.vision_tower = None
elif args.modal_type == "v":
model.model.audio_tower = None
elif args.modal_type == "av":
pass
else:
raise NotImplementedError
# Audio-visual Inference
audio_video_path = "assets/00003491.mp4"
preprocess = processor['audio' if args.modal_type == "a" else "video"]
if args.modal_type == "a":
audio_video_tensor = preprocess(audio_video_path)
else:
audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
question = f"Please describe the video with audio information."
# Audio Inference
audio_video_path = "assets/bird-twitter-car.wav"
preprocess = processor['audio' if args.modal_type == "a" else "video"]
if args.modal_type == "a":
audio_video_tensor = preprocess(audio_video_path)
else:
audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
question = f"Please describe the audio."
# Video Inference
audio_video_path = "assets/output_v_1jgsRbGzCls.mp4"
preprocess = processor['audio' if args.modal_type == "a" else "video"]
if args.modal_type == "a":
audio_video_tensor = preprocess(audio_video_path)
else:
audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
question = f"What activity are the people practicing in the video?"
output = mm_infer(
audio_video_tensor,
question,
model=model,
tokenizer=tokenizer,
modal='audio' if args.modal_type == "a" else "video",
do_sample=False,
)
print(output)
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument('--model-path', help='', required=False, default='DAMO-NLP-SG/VideoLLaMA2.1-7B-AV')
parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
args = parser.parse_args()
inference(args)
🔖 引用
如果您發現 VideoLLaMA 對您的研究和應用有幫助,請使用以下 BibTeX 進行引用:
@article{damonlpsg2024videollama2,
title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
journal={arXiv preprint arXiv:2406.07476},
year={2024},
url = {https://arxiv.org/abs/2406.07476}
}
@article{damonlpsg2023videollama,
title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
author = {Zhang, Hang and Li, Xin and Bing, Lidong},
journal = {arXiv preprint arXiv:2306.02858},
year = {2023},
url = {https://arxiv.org/abs/2306.02858}
}
Llava Video 7B Qwen2
Apache-2.0
LLaVA-視頻模型是基於Qwen2語言模型的7B參數多模態模型,專注於視頻理解任務,支持64幀視頻輸入。
視頻生成文本
Transformers 英語

L
lmms-lab
34.28k
91
Llava NeXT Video 7B DPO Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練優化,具備優秀的視頻理解能力。
視頻生成文本
Transformers 英語

L
llava-hf
12.61k
9
Internvideo2 5 Chat 8B
Apache-2.0
InternVideo2.5是一款基於長且豐富上下文(LRC)建模增強的視頻多模態大語言模型,構建於InternVL2.5之上,通過提升感知細粒度細節和捕捉長時序結構的能力,顯著改進了現有MLLM模型。
視頻生成文本
Transformers 英語

I
OpenGVLab
8,265
60
Cogvlm2 Llama3 Caption
其他
CogVLM2-Caption是一個視頻描述生成模型,用於為CogVideoX模型生成訓練數據。
視頻生成文本
Transformers 英語

C
THUDM
7,493
95
Spacetimegpt
時空GPT是一個能夠進行空間和時間推理的視頻描述生成模型,能夠分析視頻幀並生成描述視頻事件的句子。
視頻生成文本
Transformers 英語

S
Neleac
2,877
33
Video R1 7B
Apache-2.0
Video-R1-7B是基於Qwen2.5-VL-7B-Instruct優化的多模態大語言模型,專注於視頻推理任務,能夠理解視頻內容並回答相關問題。
視頻生成文本
Transformers 英語

V
Video-R1
2,129
9
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5 是一個基於 InternVL2.5 構建的視頻多模態大語言模型(MLLM),通過長且豐富的上下文(LRC)建模進行了增強,能夠感知細粒度細節並捕捉長時態結構。
視頻生成文本
Transformers 英語

I
OpenGVLab
1,914
3
Videollm Online 8b V1plus
MIT
VideoLLM-online是一個基於Llama-3-8B-Instruct的多模態大語言模型,專注於在線視頻理解和視頻-文本生成任務。
視頻生成文本
Safetensors 英語
V
chenjoya
1,688
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B 是一個基於 Qwen2.5-VL-7B-Instruct 的多模態視頻理解模型,能夠處理視頻和文本輸入,生成文本輸出。
視頻生成文本
Transformers 英語

V
OpenGVLab
1,686
7
Qwen2.5 Vl 7b Cam Motion Preview
其他
基於Qwen2.5-VL-7B-Instruct微調的攝像機運動分析模型,專注於視頻中的攝像機運動分類和視頻-文本檢索任務
視頻生成文本
Transformers

Q
chancharikm
1,456
10
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98