ShareCaptioner-Video開源視頻描述生成器 - 免費為不同規格視頻生成描述

Sharecaptioner Video

由Lin-Chen開發

基於GPT4V標註數據微調的開源視頻描述生成器，支持不同時長、寬高比和分辨率的視頻

下載量 264

發布時間 : 6/6/2024

模型概述

ShareCaptioner-Video是一個開源視頻描述生成器，基於GPT4V輔助標註的ShareGPT4Video詳細描述數據集微調而成，支持快速描述生成、滑動窗口描述、片段摘要和提示詞重述四大功能。

快速描述生成

採用圖像網格格式直接生成視頻描述，為短視頻提供極速生成體驗

滑動窗口描述

支持差分滑動窗口格式的流式描述生成，可為長視頻輸出高質量描述

片段摘要

能快速總結視頻或已完成滑動窗口描述的視頻片段，無需重複處理幀數據

提示詞重述

可根據用戶偏好的視頻生成領域重寫輸入提示，確保文本到視頻模型在推理時保持格式一致性

視頻描述生成

長視頻流式描述

視頻片段摘要

提示詞優化

視頻內容理解

短視頻描述生成

為短視頻快速生成詳細描述

提高短視頻內容理解效率

長視頻內容分析

通過滑動窗口技術分析長視頻內容

實現對長視頻的精細化理解

視頻生成輔助

提示詞優化

為文本到視頻模型優化輸入提示

提高生成視頻與文本描述的一致性

ShareCaptioner-Video是一個開源的視頻字幕生成模型，它基於GPT4V輔助的詳細字幕數據進行微調，支持不同時長、寬高比和分辨率的視頻。該模型能為視頻生成高質量字幕，在計算機視覺、自然語言處理等領域有重要應用價值。

暫未提供相關快速開始的內容。

ShareCaptioner-Video是一個基於InternLM-Xcomposer2-4KHD模型的開源字幕生成器，它在GPT4V輔助的ShareGPT4Video詳細字幕數據上進行了微調，支持各種時長、寬高比和分辨率的視頻。

快速字幕生成：該模型採用圖像網格格式直接為視頻生成字幕，生成速度快，適用於短視頻。在實踐中，我們將視頻的所有關鍵幀拼接成一個垂直拉長的圖像，並在字幕任務上訓練模型。
滑動字幕生成：模型支持以差分滑動窗口格式進行流式字幕生成，生成的字幕質量高，適用於長視頻。我們將兩個相鄰的關鍵幀和之前的差分字幕作為輸入，訓練模型描述它們之間發生的事件。
片段總結：模型可以快速總結來自ShareGPT4Video的任何片段或經過差分滑動窗口字幕處理的視頻，無需重新處理幀。我們將所有差分描述作為輸入，輸出即為視頻字幕。
提示重寫字幕：模型可以根據用戶輸入的特定視頻生成區域的提示進行重寫，確保在高質量視頻 - 字幕數據上訓練的T2VM模型在推理時與訓練時保持格式一致。在實踐中，我們使用GPT - 4為密集字幕生成Sora風格的提示，並反向訓練重寫字幕任務，即以生成的提示為輸入，密集字幕為訓練目標。