ShareCaptioner-Videoオープンソース動画説明生成ツール - さまざまな形式の動画に無料で説明を生成する

ホーム

Sharecaptioner Video

Lin-Chenによって開発

GPT4Vアノテーションデータでファインチューニングされたオープンソースのビデオ記述ジェネレーターで、異なる長さ、アスペクト比、解像度のビデオをサポート

ビデオ生成テキスト

Transformers

#ビデオ高密度記述 #スライディングウィンドウ差分 #GPT4V支援アノテーション

ダウンロード数 264

リリース時間 : 6/6/2024

モデル概要

ShareCaptioner-Videoは、GPT4V支援アノテーションのShareGPT4Video詳細記述データセットでファインチューニングされたオープンソースのビデオ記述ジェネレーターで、高速記述生成、スライディングウィンドウ記述、セグメント要約、プロンプト再構成の4つの主要機能をサポートします。

モデル特徴

高速記述生成

画像グリッド形式を採用して直接ビデオ記述を生成し、ショートビデオに超高速生成体験を提供

スライディングウィンドウ記述

差分スライディングウィンドウ形式のストリーミング記述生成をサポートし、ロングビデオに高品質な記述を出力可能

セグメント要約

ビデオまたは完了したスライディングウィンドウ記述のビデオセグメントを迅速に要約でき、フレームデータの繰り返し処理が不要

プロンプト再構成

ユーザーの好みのビデオ生成領域に基づいて入力プロンプトを書き換え、テキストからビデオモデルが推論時にフォーマット一貫性を維持することを保証

モデル能力

ビデオ記述生成

ロングビデオストリーミング記述

ビデオセグメント要約

プロンプト最適化

使用事例

ビデオコンテンツ理解

ショートビデオ記述生成

ショートビデオの詳細な記述を迅速に生成

ショートビデオコンテンツ理解効率の向上

ロングビデオコンテンツ分析

スライディングウィンドウ技術でロングビデオコンテンツを分析

ロングビデオの詳細な理解を実現

ビデオ生成支援

プロンプト最適化

テキストからビデオモデルの入力プロンプトを最適化

生成ビデオとテキスト記述の一貫性向上

🚀 ShareCaptioner-Videoモデルカード

ShareCaptioner-Videoは、GPT4Vを支援としたShareGPT4Videoの詳細なキャプションデータでファインチューニングされたオープンソースのキャプショナーです。様々な長さ、アスペクト比、解像度のビデオに対応しています。

🚀 クイックスタート

このモデルは、高品質なビデオキャプションの生成に特化しています。コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者や愛好家に最適です。

✨ 主な機能

モデルの概要

モデルタイプ：ShareCaptioner-Videoは、InternLM-Xcomposer2-4KHDモデルをベースにしています。様々な長さ、アスペクト比、解像度のビデオに対応した、オープンソースのキャプショナーです。

ShareCaptaioner-Videoには4つの役割があります：

高速キャプション生成：モデルは画像グリッド形式を用いて直接ビデオのキャプションを生成し、短いビデオに最適な高速な生成速度を提供します。実際には、ビデオのすべてのキーフレームを縦長の画像に連結し、キャプションタスクでモデルを訓練します。
スライディングキャプション生成：モデルは差分スライディングウィンドウ形式でストリーミングキャプションをサポートし、長いビデオに適した高品質なキャプションを生成します。隣接する2つのキーフレームと前の差分キャプションを入力として、それらの間で起こるイベントを説明するようにモデルを訓練します。
クリップ要約：モデルは、ShareGPT4Videoの任意のクリップまたは差分スライディングウィンドウキャプション生成プロセスを経たビデオを迅速に要約することができ、フレームを再処理する必要がありません。すべての差分記述を入力として使用し、出力はビデオのキャプションです。
プロンプト再キャプション生成：モデルは、特定のビデオ生成領域を好むユーザーが入力したプロンプトを再構築することができ、高品質なビデオキャプションデータで訓練されたT2VMが推論時に訓練と形式の整合性を維持することを保証します。実際には、GPT - 4を使用して高密度キャプションに対してSoraスタイルのプロンプトを生成し、生成されたプロンプトを入力として、高密度キャプションを訓練ターゲットとして逆方向に再キャプション生成タスクを訓練します。

モデルの作成日：ShareCaptionerは2024年5月に訓練されました。

詳細情報の論文またはリソース：[プロジェクト] [論文] [コード]