AuroraCap-7B-VID-xtuner开源多模态模型 - 高效生成详细图像和视频字幕

首页

Auroracap 7B VID Xtuner

由 wchai 开发

AuroraCap是一个用于图像和视频字幕的多模态大语言模型，专注于高效和详细的视频字幕生成。

视频生成文本

Safetensors

开源协议:Apache-2.0 #视频详细字幕 #多模态大语言模型 #高效令牌合并

下载量 31

发布时间 : 9/24/2024

模型简介

AuroraCap是一个基于Vicuna-7B的多模态大语言模型，专门用于生成详细的视频字幕。它支持多种视频字幕和视频问答任务，并在多个基准测试中表现出色。

模型特点

高效视频字幕生成

AuroraCap通过令牌合并技术实现高效训练和推理，保持高性能的同时加速处理速度。

多任务支持

支持视频详细字幕、视频字幕和视频问答等多种任务，适应不同应用场景。

多格式权重支持

提供官方LLaVA格式和Xtuner格式的权重，方便继续训练和快速部署。

模型能力

视频详细字幕生成

视频字幕生成

视频问答

多模态处理

使用案例

视频内容分析

视频字幕生成

为视频生成详细字幕，提升视频内容的可访问性和理解度。

在VDC基准测试中达到38.21的VDC分数。

视频问答

回答关于视频内容的复杂问题，适用于教育、娱乐等领域。

在ActivityNet数据集上达到61.8的准确率。

多模态应用

图像和视频字幕

为图像和视频生成详细的描述性字幕，适用于内容管理和检索。

在MSR-VTT数据集上CIDEr得分为33.1。

🚀 AuroraCap-7B

AuroraCap-7B 是一个用于图像和视频字幕生成的多模态大语言模型，在多个视频相关任务中表现出色，为图像和视频的内容描述提供了强大的支持。

🚀 快速开始

查看文档。

✨ 主要特性

特性展示

AuroraCap 是一个用于图像和视频字幕生成的多模态大语言模型。

📚 详细文档

资源链接

模型信息

属性	详情
模型类型	AuroraCap-7B
训练数据集	wchai/AuroraCap-trainset
基础模型	lmsys/vicuna-7b-v1.5-16k
任务标签	video-text-to-text

模型表现

任务类型	数据集	评估指标	值
视频详细字幕	VDC	VDCScore (Acc)	38.21
视频详细字幕	VDC	VDD (Acc)	48.33
视频详细字幕	VDC	cider	9.51
视频详细字幕	VDC	bleu@1	30.9
视频详细字幕	VDC	bleu@4	4.06
视频详细字幕	VDC	meteor	19.09
视频详细字幕	VDC	rouge-l	21.58
视频字幕	MSR-VTT	cider	33.1
视频字幕	MSR-VTT	bleu@1	58.6
视频字幕	MSR-VTT	bleu@4	21
视频字幕	MSR-VTT	meteor	23.9
视频字幕	MSR-VTT	rouge-l	49.5
视频字幕	VATEX	cider	33.8
视频字幕	VATEX	bleu@1	57.1
视频字幕	VATEX	bleu@4	18.4
视频字幕	VATEX	meteor	19
视频字幕	VATEX	rouge-l	40.8
视频问答	ActivityNet	Acc	61.8
视频问答	MSVD	Acc	62.6
视频问答	MSR-VTT	Acc	43.5
视频问答	iVQA	Acc	55.2

📢 常见问题解答

Q: 推理时能否仅使用 token 合并？

A: 不行，我们的实验表明，token 合并也是一种在保持相似性能的同时加速训练的方法。此外，除了 AuroraCap，你还可以在其他类似 LLaVA 的模型上使用 token 合并。

Q: 为什么为 AuroraCap 同时提供官方 LLaVA 格式和 Xtuner 格式的权重？

A: 虽然 Xtuner 支持以多种格式保存检查点，但目前它只允许使用 Xtuner 格式进行继续训练。因此，我们目前提供 Xtuner 格式的模型用于继续训练和推理。未来，我们将提供官方 LLaVA 格式的模型用于训练和推理，以实现更快的 SGLang 部署并与 transformers 集成。

📄 许可证

本项目采用 Apache-2.0 许可证。

📖 引用信息

@article{chai2024auroracap,
  title={AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark },
  author={Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning},
  journal={arXiv preprint arXiv:2410.03051},
  year={2024}
}