VideoLLaMA2.1-7B-16F-Base開源視頻大模型 - 升級時空建模與音頻理解能力

首頁

Videollama2.1 7B 16F Base

由DAMO-NLP-SG開發

VideoLLaMA2.1是基於VideoLLaMA2的升級版本，專注於提升視頻大語言模型中的時空建模與音頻理解能力。

視頻生成文本

Transformers

英語開源協議:Apache-2.0 #多模態視頻理解 #時空建模增強 #音頻視覺融合

下載量 179

發布時間 : 10/14/2024

模型概述

VideoLLaMA2.1是一個多模態大語言模型，專注於視頻理解和視覺問答任務，支持對視頻內容進行時空建模和音頻理解。

模型特點

時空建模能力

增強了對視頻中時空信息的理解和建模能力。

音頻理解

提升了對視頻中音頻內容的理解能力。

多模態處理

能夠同時處理視頻和圖像內容，並進行多模態推理。

模型能力

視頻問答

圖像問答

視頻內容描述

多模態推理

使用案例

視頻理解

視頻內容問答

回答關於視頻內容的複雜問題

在MLVU和VideoMME榜單中位列7B規模視頻大模型榜首

視頻內容描述

生成對視頻內容的詳細描述

圖像理解

圖像問答

回答關於圖像內容的複雜問題

🚀 VideoLLaMA 2：推進視頻大語言模型中的時空建模與音頻理解

VideoLLaMA 2是一款多模態大語言模型，專注於視頻領域，在時空建模和音頻理解方面取得了顯著進展，能有效處理視頻問答、視頻字幕生成等任務。

🚀 快速開始

本項目為視頻大語言模型VideoLLaMA 2，如果你喜歡我們的項目，請在 Github 上給我們點個星 ⭐ 以獲取最新更新。

📰 新聞動態

[2024.10.15] 發佈 VideoLLaMA2.1-7B-16F-Base 和 VideoLLaMA2.1-7B-16F 的檢查點。
[2024.08.14] 發佈 VideoLLaMA2-72B-Base 和 VideoLLaMA2-72B 的檢查點。
[2024.07.30] 發佈 VideoLLaMA2-8x7B-Base 和 VideoLLaMA2-8x7B 的檢查點。
[2024.06.25] 🔥🔥 截至6月25日，我們的 VideoLLaMA2-7B-16F 在 MLVU排行榜上的約70億參數規模視頻大語言模型中排名第一。
[2024.06.18] 🔥🔥 截至6月18日，我們的 VideoLLaMA2-7B-16F 在 VideoMME排行榜上的約70億參數規模視頻大語言模型中排名第一。
[2024.06.17] 👋👋 更新技術報告，包含最新結果和缺失的參考文獻。如果您有與VideoLLaMA 2密切相關但未在論文中提及的工作，請隨時告知我們。
[2024.06.14] 🔥🔥 在線演示已上線。
[2024.06.03] 發佈VideoLLaMA 2的訓練、評估和服務代碼。

🌎 模型庫

模型名稱	類型	視覺編碼器	語言解碼器	訓練幀數
VideoLLaMA2-7B-Base	基礎版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B	對話版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	8
VideoLLaMA2-7B-16F-Base	基礎版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-7B-16F	對話版	clip-vit-large-patch14-336	Mistral-7B-Instruct-v0.2	16
VideoLLaMA2-8x7B-Base	基礎版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-8x7B	對話版	clip-vit-large-patch14-336	Mixtral-8x7B-Instruct-v0.1	8
VideoLLaMA2-72B-Base	基礎版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2-72B	對話版	clip-vit-large-patch14-336	Qwen2-72B-Instruct	8
VideoLLaMA2.1-7B-16F-Base (此檢查點)	基礎版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16
VideoLLaMA2.1-7B-16F	對話版	siglip-so400m-patch14-384	Qwen2-7B-Instruct	16

🚀 主要成果

多項選擇視頻問答與視頻字幕生成

開放式視頻問答

💻 使用示例

基礎用法

import sys
sys.path.append('./')
from videollama2 import model_init, mm_infer
from videollama2.utils import disable_torch_init


def inference():
    disable_torch_init()

    # 視頻推理
    modal = 'video'
    modal_path = 'assets/cat_and_chicken.mp4' 
    instruct = '視頻中有哪些動物，它們在做什麼，視頻給人的感覺如何？'
   
    # 圖像推理
    modal = 'image'
    modal_path = 'assets/sora.png'
    instruct = '圖片中的女人穿著什麼，她在做什麼，圖片給人的感覺如何？'
    
    model_path = 'DAMO-NLP-SG/VideoLLaMA2-7B-16F'
    model, processor, tokenizer = model_init(model_path)
    output = mm_infer(processor[modal](modal_path), instruct, model=model, tokenizer=tokenizer, do_sample=False, modal=modal)

    print(output)

if __name__ == "__main__":
    inference()

📄 許可證

本項目採用Apache-2.0許可證。

引用信息

如果您發現VideoLLaMA對您的研究和應用有幫助，請使用以下BibTeX進行引用：

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}