AuroraCap-7B-VID-xtuner開源多模態模型 - 高效生成詳細圖像和視頻字幕

首頁

Auroracap 7B VID Xtuner

由wchai開發

AuroraCap是一個用於圖像和視頻字幕的多模態大語言模型，專注於高效和詳細的視頻字幕生成。

視頻生成文本

Safetensors

開源協議:Apache-2.0 #視頻詳細字幕 #多模態大語言模型 #高效令牌合併

下載量 31

發布時間 : 9/24/2024

模型概述

AuroraCap是一個基於Vicuna-7B的多模態大語言模型，專門用於生成詳細的視頻字幕。它支持多種視頻字幕和視頻問答任務，並在多個基準測試中表現出色。

模型特點

高效視頻字幕生成

AuroraCap通過令牌合併技術實現高效訓練和推理，保持高性能的同時加速處理速度。

多任務支持

支持視頻詳細字幕、視頻字幕和視頻問答等多種任務，適應不同應用場景。

多格式權重支持

提供官方LLaVA格式和Xtuner格式的權重，方便繼續訓練和快速部署。

模型能力

視頻詳細字幕生成

視頻字幕生成

視頻問答

多模態處理

使用案例

視頻內容分析

視頻字幕生成

為視頻生成詳細字幕，提升視頻內容的可訪問性和理解度。

在VDC基準測試中達到38.21的VDC分數。

視頻問答

回答關於視頻內容的複雜問題，適用於教育、娛樂等領域。

在ActivityNet數據集上達到61.8的準確率。

多模態應用

圖像和視頻字幕

為圖像和視頻生成詳細的描述性字幕，適用於內容管理和檢索。

在MSR-VTT數據集上CIDEr得分為33.1。

🚀 AuroraCap-7B

AuroraCap-7B 是一個用於圖像和視頻字幕生成的多模態大語言模型，在多個視頻相關任務中表現出色，為圖像和視頻的內容描述提供了強大的支持。

🚀 快速開始

查看文檔。

✨ 主要特性

特性展示

AuroraCap 是一個用於圖像和視頻字幕生成的多模態大語言模型。

📚 詳細文檔

資源鏈接

模型信息

屬性	詳情
模型類型	AuroraCap-7B
訓練數據集	wchai/AuroraCap-trainset
基礎模型	lmsys/vicuna-7b-v1.5-16k
任務標籤	video-text-to-text

模型表現

任務類型	數據集	評估指標	值
視頻詳細字幕	VDC	VDCScore (Acc)	38.21
視頻詳細字幕	VDC	VDD (Acc)	48.33
視頻詳細字幕	VDC	cider	9.51
視頻詳細字幕	VDC	bleu@1	30.9
視頻詳細字幕	VDC	bleu@4	4.06
視頻詳細字幕	VDC	meteor	19.09
視頻詳細字幕	VDC	rouge-l	21.58
視頻字幕	MSR-VTT	cider	33.1
視頻字幕	MSR-VTT	bleu@1	58.6
視頻字幕	MSR-VTT	bleu@4	21
視頻字幕	MSR-VTT	meteor	23.9
視頻字幕	MSR-VTT	rouge-l	49.5
視頻字幕	VATEX	cider	33.8
視頻字幕	VATEX	bleu@1	57.1
視頻字幕	VATEX	bleu@4	18.4
視頻字幕	VATEX	meteor	19
視頻字幕	VATEX	rouge-l	40.8
視頻問答	ActivityNet	Acc	61.8
視頻問答	MSVD	Acc	62.6
視頻問答	MSR-VTT	Acc	43.5
視頻問答	iVQA	Acc	55.2

📢 常見問題解答

Q: 推理時能否僅使用 token 合併？

A: 不行，我們的實驗表明，token 合併也是一種在保持相似性能的同時加速訓練的方法。此外，除了 AuroraCap，你還可以在其他類似 LLaVA 的模型上使用 token 合併。

Q: 為什麼為 AuroraCap 同時提供官方 LLaVA 格式和 Xtuner 格式的權重？

A: 雖然 Xtuner 支持以多種格式保存檢查點，但目前它只允許使用 Xtuner 格式進行繼續訓練。因此，我們目前提供 Xtuner 格式的模型用於繼續訓練和推理。未來，我們將提供官方 LLaVA 格式的模型用於訓練和推理，以實現更快的 SGLang 部署並與 transformers 集成。

📄 許可證

本項目採用 Apache-2.0 許可證。

📖 引用信息

@article{chai2024auroracap,
  title={AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark },
  author={Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning},
  journal={arXiv preprint arXiv:2410.03051},
  year={2024}
}