VideoLLaMA2-8x7B-Base開源視頻大模型 - 支持視頻問答描述，提升視聽理解

首頁

Videollama2 8x7B Base

由DAMO-NLP-SG開發

VideoLLaMA 2是新一代視頻大語言模型，專注於提升時空建模能力和音頻理解能力，支持多模態視頻問答和描述任務。

文本生成視頻

Transformers

英語開源協議:Apache-2.0 #多模態視頻理解 #時空建模優化 #音頻增強分析

下載量 20

發布時間 : 6/11/2024

模型概述

VideoLLaMA 2是一個多模態大型語言模型，專門設計用於處理視頻內容，能夠理解和分析視頻中的時空信息以及音頻內容。

模型特點

增強的時空建模

改進了對視頻中時空信息的理解和處理能力

音頻理解能力

新增對視頻中音頻內容的理解和分析能力

多幀處理

支持同時處理8幀或16幀視頻內容

多模態融合

有效融合視覺、音頻和文本信息進行綜合理解

模型能力

視頻問答

視頻描述生成

多模態理解

時空信息分析

音頻內容理解

使用案例

視頻內容理解

視頻問答系統

回答關於視頻內容的各類問題

在多個視頻問答基準測試中表現優異

視頻自動描述生成

為視頻生成詳細的文字描述

能夠準確描述視頻中的關鍵事件和場景

多模態分析

視頻內容分析

綜合分析視頻中的視覺和音頻信息

能夠理解複雜的多模態視頻內容

🚀 VideoLLaMA 2：視頻大語言模型中的時空建模與音頻理解進階

VideoLLaMA 2是一款多模態大語言模型，專注於視頻領域的視覺問答任務。它在時空建模和音頻理解方面取得了顯著進展，為視頻理解提供了更強大的支持。

🚀 快速開始

如果您喜歡我們的項目，請在 Github 上給我們一個 ⭐ 以獲取最新更新。

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

📰 新聞動態

[2024.06.12] 發佈 VideoLLaMA 2 的模型權重和第一版技術報告。
[2024.06.03] 發佈 VideoLLaMA 2 的訓練、評估和服務代碼。

🌎 模型庫

模型名稱	類型	視覺編碼器	語言解碼器	訓練幀數
VideoLLaMA2-7B-Base	基礎版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B	對話版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B-16F-Base	基礎版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-7B-16F	對話版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-8x7B-Base (此檢查點)	基礎版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-8x7B	對話版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-72B-Base	基礎版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2-72B	對話版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8

🚀 主要成果

多項選擇視頻問答與視頻字幕生成

開放式視頻問答

💻 使用示例

基礎用法

import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init


def inference():
    disable_torch_init()

    # 視頻推理
    modal = 'video'
    modal_path = 'assets/cat_and_chicken.mp4' 
    instruct = '視頻中有哪些動物，它們在做什麼，視頻給人的感覺如何？'
   
    # 圖像推理
    modal = 'image'
    modal_path = 'assets/sora.png'
    instruct = '圖中的女人穿著什麼，她在做什麼，圖像給人的感覺如何？'
    
    model_path = 'DAMO-NLP-SG/VideoLLaMA2-8x7B-Base'
    model, processor, tokenizer = model_init(model_path)
    output = mm_infer(processor[modal](modal_path), instruct, model=model, tokenizer=tokenizer, do_sample=False, modal=modal)

    print(output)

if __name__ == "__main__":
    inference()

引用

如果您發現 VideoLLaMA 對您的研究和應用有幫助，請使用以下 BibTeX 進行引用：

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}
@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}

信息表格

屬性	詳情
模型類型	多模態大語言模型、大型視頻語言模型
訓練數據	OpenGVLab/VideoChat2-IT、Lin-Chen/ShareGPT4V、liuhaotian/LLaVA-Instruct-150K
評估指標	準確率
庫名稱	transformers
任務類型	視覺問答