VideoLLaMA2.1-7B-AV-CoT開源模型 - 免費支持視聽問答與內容描述生成

首頁

Videollama2.1 7B AV CoT

由lym0302開發

VideoLLaMA2.1-7B-AV是一款多模態大語言模型，專注於視聽問答任務，能夠同時處理視頻和音頻輸入，提供高質量的問答和描述生成能力。

視頻生成文本

Transformers

英語開源協議:Apache-2.0 #視聽問答 #多模態融合 #音頻理解

下載量 34

發布時間 : 3/24/2025

模型概述

該模型是VideoLLaMA2系列的一部分，特別增強了音頻理解能力，能夠結合視覺和聽覺信息進行綜合推理和問答。

模型特點

視聽融合理解

能夠同時處理視頻和音頻輸入，實現跨模態信息融合

高質量問答能力

在多選和開放式視聽問答任務中表現優異

高效時空建模

支持16幀視頻輸入，有效捕捉視頻中的時空信息

模型能力

視頻問答

音頻問答

視聽問答

視頻描述生成

多模態推理

使用案例

教育

教學視頻理解

分析教學視頻內容，回答學生提出的問題

準確理解視頻中的教學內容並提供相關解答

娛樂

影視內容分析

理解影視作品中的情節和對話

能夠準確描述劇情並回答相關問題

安全監控

監控視頻分析

分析監控視頻中的異常聲音和視覺事件

能夠識別異常情況並提供警報

🚀 VideoLLaMA 2：推進視頻大語言模型中的時空建模與音頻理解

VideoLLaMA 2 是一款視頻大語言模型，在時空建模和音頻理解方面取得了顯著進展，可用於視聽問答等多模態任務。

項目信息

屬性	詳情
模型類型	視聽問答、音頻問答、多模態大語言模型
訓練數據集	lmms-lab/ClothoAQA、Loie/VGGSound
評估指標	準確率
任務類型	視覺問答
依賴庫	transformers
許可證	Apache-2.0

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

如果您喜歡我們的項目，請在 Github 上給我們一個星星 ⭐，以獲取最新更新。

📰 新聞動態

[2024.10.22] 發佈 VideoLLaMA2.1-7B-AV 模型的檢查點。
[2024.10.15] 發佈 VideoLLaMA2.1-7B-16F-Base 和 VideoLLaMA2.1-7B-16F 模型的檢查點。
[2024.08.14] 發佈 VideoLLaMA2-72B-Base 和 VideoLLaMA2-72B 模型的檢查點。
[2024.07.30] 發佈 VideoLLaMA2-8x7B-Base 和 VideoLLaMA2-8x7B 模型的檢查點。
[2024.06.25] 🔥🔥 截至 6 月 25 日，我們的 VideoLLaMA2-7B-16F 模型在 MLVU 排行榜上約 70 億參數規模的視頻大語言模型中排名第一。
[2024.06.18] 🔥🔥 截至 6 月 18 日，我們的 VideoLLaMA2-7B-16F 模型在 VideoMME 排行榜上約 70 億參數規模的視頻大語言模型中排名第一。
[2024.06.17] 👋👋 更新技術報告，包含最新結果和缺失的參考文獻。如果您有與 VideoLLaMA 2 密切相關但未在論文中提及的工作，請隨時告知我們。
[2024.06.14] 🔥🔥 在線演示已上線。
[2024.06.03] 發佈 VideoLLaMA 2 的訓練、評估和服務代碼。

🌎 模型庫

僅視覺檢查點

模型名稱	類型	視覺編碼器	語言解碼器	訓練幀數
VideoLLaMA2-7B-Base	基礎版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B	對話版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B-16F-Base	基礎版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-7B-16F	對話版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-8x7B-Base	基礎版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-8x7B	對話版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-72B-Base	基礎版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2-72B	對話版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2.1-7B-16F-Base	基礎版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoLLaMA2.1-7B-16F	對話版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16

視聽檢查點

模型名稱	類型	音頻編碼器	語言解碼器
VideoLLaMA2.1-7B-AV (本檢查點)	對話版	Fine-tuned BEATs_iter3+(AS2M)(cpt2)	VideoLLaMA2.1-7B-16F

🚀 主要結果

多項選擇視頻問答與視頻字幕生成

開放式視頻問答

多項選擇與開放式音頻問答

開放式視聽問答

💻 使用示例

基礎用法

import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init
import argparse

def inference(args):

    model_path = args.model_path
    model, processor, tokenizer = model_init(model_path)

    if args.modal_type == "a":
        model.model.vision_tower = None
    elif args.modal_type == "v":
        model.model.audio_tower = None
    elif args.modal_type == "av":
        pass
    else:
        raise NotImplementedError
    # Audio-visual Inference
    audio_video_path = "assets/00003491.mp4"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"Please describe the video with audio information."

    # Audio Inference
    audio_video_path = "assets/bird-twitter-car.wav"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"Please describe the audio."

    # Video Inference
    audio_video_path = "assets/output_v_1jgsRbGzCls.mp4"
    preprocess = processor['audio' if args.modal_type == "a" else "video"]
    if args.modal_type == "a":
        audio_video_tensor = preprocess(audio_video_path)
    else:
        audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
    question = f"What activity are the people practicing in the video?"

    output = mm_infer(
        audio_video_tensor,
        question,
        model=model,
        tokenizer=tokenizer,
        modal='audio' if args.modal_type == "a" else "video",
        do_sample=False,
    )

    print(output)


if __name__ == "__main__":
    parser = argparse.ArgumentParser()

    parser.add_argument('--model-path', help='', required=False, default='DAMO-NLP-SG/VideoLLaMA2.1-7B-AV')
    parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
    args = parser.parse_args()

    inference(args)

🔖 引用

如果您發現 VideoLLaMA 對您的研究和應用有幫助，請使用以下 BibTeX 進行引用：

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}