A

Auroracap 7B VID Xtuner

由 wchai 开发
AuroraCap是一个用于图像和视频字幕的多模态大语言模型,专注于高效和详细的视频字幕生成。
下载量 31
发布时间 : 9/24/2024

模型简介

AuroraCap是一个基于Vicuna-7B的多模态大语言模型,专门用于生成详细的视频字幕。它支持多种视频字幕和视频问答任务,并在多个基准测试中表现出色。

模型特点

高效视频字幕生成
AuroraCap通过令牌合并技术实现高效训练和推理,保持高性能的同时加速处理速度。
多任务支持
支持视频详细字幕、视频字幕和视频问答等多种任务,适应不同应用场景。
多格式权重支持
提供官方LLaVA格式和Xtuner格式的权重,方便继续训练和快速部署。

模型能力

视频详细字幕生成
视频字幕生成
视频问答
多模态处理

使用案例

视频内容分析
视频字幕生成
为视频生成详细字幕,提升视频内容的可访问性和理解度。
在VDC基准测试中达到38.21的VDC分数。
视频问答
回答关于视频内容的复杂问题,适用于教育、娱乐等领域。
在ActivityNet数据集上达到61.8的准确率。
多模态应用
图像和视频字幕
为图像和视频生成详细的描述性字幕,适用于内容管理和检索。
在MSR-VTT数据集上CIDEr得分为33.1。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase