A

Auroracap 7B VID Xtuner

由wchai開發
AuroraCap是一個用於圖像和視頻字幕的多模態大語言模型,專注於高效和詳細的視頻字幕生成。
下載量 31
發布時間 : 9/24/2024

模型概述

AuroraCap是一個基於Vicuna-7B的多模態大語言模型,專門用於生成詳細的視頻字幕。它支持多種視頻字幕和視頻問答任務,並在多個基準測試中表現出色。

模型特點

高效視頻字幕生成
AuroraCap通過令牌合併技術實現高效訓練和推理,保持高性能的同時加速處理速度。
多任務支持
支持視頻詳細字幕、視頻字幕和視頻問答等多種任務,適應不同應用場景。
多格式權重支持
提供官方LLaVA格式和Xtuner格式的權重,方便繼續訓練和快速部署。

模型能力

視頻詳細字幕生成
視頻字幕生成
視頻問答
多模態處理

使用案例

視頻內容分析
視頻字幕生成
為視頻生成詳細字幕,提升視頻內容的可訪問性和理解度。
在VDC基準測試中達到38.21的VDC分數。
視頻問答
回答關於視頻內容的複雜問題,適用於教育、娛樂等領域。
在ActivityNet數據集上達到61.8的準確率。
多模態應用
圖像和視頻字幕
為圖像和視頻生成詳細的描述性字幕,適用於內容管理和檢索。
在MSR-VTT數據集上CIDEr得分為33.1。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase