SkyCaptioner-V1オープンソースモデル - 動画に高品質な構造化された説明を生成し、映画やテレビ番組の細部を正確に捉える

Skycaptioner V1

Skyworkによって開発

SkyCaptioner-V1は、ビデオデータ向けに高品質な構造化記述を生成するために特別に設計されたモデルです。専門家サブモデル、マルチモーダル大規模言語モデル、および手動アノテーションを統合することで、一般的な記述モデルが専門的な映像詳細を捉える際の限界を克服しています。

ビデオ生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #構造化ビデオ記述 #ショット言語理解 #映像専門アノテーション

ダウンロード数 362

リリース時間 : 4/18/2025

モデル概要

SkyCaptioner-V1は構造化ビデオ記述生成モデルで、ビデオコンテンツを効率的かつ包括的にアノテーションし、主体情報やショットメタデータなどの多次元詳細を捕捉できます。

モデル特徴

構造化表現

一般的なビデオ記述と専門サブモジュール（ショットタイプ/角度/位置、カメラワークなど）および手動アノテーションを融合

知識蒸留

サブ専門家の能力を統一モデルに蒸留

アプリケーション適応

テキスト生成ビデオ(T2V)の高密度記述と画像生成ビデオ(I2V)の簡潔なプロンプト生成をサポート

サブ専門家システム

ショットアナライザー、表情アナライザー、カメラワークアナライザーなどの専門モジュールを含む

モデル能力

ビデオコンテンツ記述生成

ショットタイプ識別

撮影角度分析

構図位置判断

カメラワーク方式識別

表情強度解析

時系列変化追跡

使用事例

映像制作

ビデオコンテンツアノテーション

映像素材に詳細な構造化記述を生成

ポストプロダクション効率を向上

ビデオ検索

構造化記述を通じて正確なビデオ検索を実現

検索精度を向上

AI生成コンテンツ

テキスト生成ビデオ(T2V)

T2Vモデルに高密度記述を提供

生成ビデオの品質と正確性を向上

画像生成ビデオ(I2V)

I2Vモデルに簡潔なプロンプトを提供

生成効果を最適化

🚀 SkyCaptioner-V1: 構造化ビデオキャプショニングモデル

SkyCaptioner-V1は、ビデオデータに対して高品質で構造化された説明を生成するモデルです。専門的なサブエキスパートモデルとマルチモーダル大規模言語モデル（MLLMs）を統合し、人間のアノテーションを活用することで、一般的なキャプショナーの限界を克服し、専門的な映画関連の詳細を捉えることができます。

📑 技術レポート · 👋 プレイグラウンド · 💬 Discord · 🤗 Hugging Face · 🤖 ModelScope · 🌐 GitHub

🚀 クイックスタート

SkyCaptioner-V1リポジトリへようこそ！ここでは、ビデオデータを効率的かつ包括的にラベル付けする構造化ビデオキャプショニングモデルの重みと推論コードを見つけることができます。

✨ 主な機能

構造化キャプショニングフレームワーク

当社のビデオキャプショニングモデルは、多次元の詳細を捉えます。

被写体：外観、行動、表情、位置、階層的分類
ショットメタデータ：ショットタイプ（例：クローズアップ、ロングショット）、ショット角度、ショット位置、カメラモーション、環境、照明など

サブエキスパートの統合

ショットキャプショナー：ショットタイプ、角度、位置を高精度に分類します。
表情キャプショナー：顔の表情、感情の強度、時間的ダイナミクスを分析します。
カメラモーションキャプショナー：6自由度のカメラの動きと複合モーションタイプを追跡します。

トレーニングパイプライン

1000万の生サンプルから選りすぐられた約200万の高品質で概念バランスの取れたビデオでトレーニングされました。
32台のA800 GPUでグローバルバッチサイズ512でQwen2.5-VL-7B-Instructをファインチューニングしました。
AdamW（学習率：1e-5）を使用して2エポックで最適化されました。

動的キャプション融合

アプリケーション（T2V/I2V）に応じて出力長を調整します。
LLMモデルを使用して構造化フィールドを融合し、下流のタスクに適した自然で流暢なキャプションを取得します。

📦 インストール

モデルのダウンロード

当社のSkyCaptioner-V1モデルは、SkyCaptioner-V1 モデルからダウンロードできます。キャプション融合モデルとしてQwen2.5-32B-Instructを使用し、構造化キャプションフィールドをインテリジェントに結合し、アプリケーションの要件に応じて密なまたは疎な最終キャプションを生成します。

# SkyCaptioner-V1をダウンロード
huggingface-cli download Skywork/SkyCaptioner-V1 --local-dir /path/to/your_local_model_path
# Qwen2.5-32B-Instructをダウンロード
huggingface-cli download Qwen/Qwen2.5-32B-Instruct --local-dir /path/to/your_local_model_path2

実行ガイド

まず、リポジトリをクローンします。

git clone https://github.com/SkyworkAI/SkyReels-V2
cd skycaptioner_v1

Linux用のインストールガイド

手動インストールにはPython 3.10とCUDAバージョン12.2を推奨します。

pip install -r requirements.txt

実行コマンド

SkyCaptioner-V1による構造化キャプションの取得

export SkyCaptioner_V1_Model_PATH="/path/to/your_local_model_path"

python scripts/vllm_struct_caption.py \
    --model_path ${SkyCaptioner_V1_Model_PATH} \
    --input_csv "./examples/test.csv" \
    --out_csv "./examepls/test_result.csv" \
    --tp 1 \
    --bs 4

Qwen2.5-32B-InstructモデルによるT2V/I2Vキャプション融合

export LLM_MODEL_PATH="/path/to/your_local_model_path2"

python scripts/vllm_fusion_caption.py \
    --model_path ${LLM_MODEL_PATH} \
    --input_csv "./examples/test_result.csv" \
    --out_csv "./examples/test_result_caption.csv" \
    --bs 4 \
    --tp 1 \
    --task t2v

⚠️ 重要提示

i2vキャプションを取得したい場合は、コマンドの--task t2vを--task i2vに変更してください。

📊 ベンチマーク結果

SkyCaptioner-V1は、主要な映画固有のキャプショニングタスクで既存のモデルに比べて大幅な改善を示しています。特に、ショット言語理解とドメイン固有の精度において優れています。これらの違いは、その構造化アーキテクチャとエキスパートによるトレーニングに起因しています。

優れたショット言語理解
- ショットタイプで+11.2%、ショット角度で+16.1%、ショット位置で+50.4%の精度でQwen2.5-VL-72Bを上回っています。SkyCaptioner-V1の専用ショット分類器は、映画ドメインのファインチューニングが不足している一般的なMLLMsよりも優れています。
- カメラモーションでTarsier2-recap-7Bに比べて+28.5%の精度（88.8%対41.5%）：その6自由度のモーション分析とアクティブラーニングパイプラインは、一般的なキャプショナーにとって難しい複合モーション（例：トラッキング+パンニング）の曖昧さを解消します。
高いドメイン固有の精度
- 表情精度：68.8%対54.3%（Tarsier2-recap-7B）、時間認識型S2Dフレームワークを活用して動的な顔の変化を捉えます。

指標	Qwen2.5-VL-7B-Ins.	Qwen2.5-VL-72B-Ins.	Tarsier2-recap-7B	SkyCaptioner-V1
平均精度	51.4%	58.7%	49.4%	76.3%
ショットタイプ	76.8%	82.5%	60.2%	93.7%
ショット角度	60.0%	73.7%	52.4%	89.8%
ショット位置	28.4%	32.7%	23.6%	83.1%
カメラモーション	62.0%	61.2%	45.3%	85.3%
表情	43.6%	51.5%	54.3%	68.8%
TYPES_type	43.5%	49.7%	47.6%	82.5%
TYPES_sub_type	38.9%	44.9%	45.9%	75.4%
外観	40.9%	52.0%	45.6%	59.3%
行動	32.4%	52.0%	69.8%	68.8%
位置	35.4%	48.6%	45.5%	57.5%
主要被写体かどうか	58.5%	68.7%	69.7%	80.9%
環境	70.4%	72.7%	61.4%	70.5%
照明	77.1%	80.0%	21.2%	76.5%

📚 詳細ドキュメント

TODOリスト

SkyCaptioner-V1
- [x] チェックポイント
- [x] バッチ推論コード
- [x] キャプション融合方法
- [ ] Webデモ（Gradio）

謝辞

Qwen2.5-VL、tarsier2、vllmリポジトリの貢献者の皆様に感謝いたします。彼らのオープンな研究と貢献により、本プロジェクトが可能になりました。

📄 ライセンス

本プロジェクトはApache-2.0ライセンスの下で公開されています。

引用

@misc{chen2025skyreelsv2infinitelengthfilmgenerative,
author = {Guibin Chen and Dixuan Lin and Jiangping Yang and Chunze Lin and Juncheng Zhu and Mingyuan Fan and Hao Zhang and Sheng Chen and Zheng Chen and Chengchen Ma and Weiming Xiong and Wei Wang and Nuo Pang and Kang Kang and Zhiheng Xu and Yuzhe Jin and Yupeng Liang and Yubing Song and Peng Zhao and Boyuan Xu and Di Qiu and Debang Li and Zhengcong Fei and Yang Li and Yahui Zhou},
title = {Skyreels V2:Infinite-Length Film Generative Model},
year = {2025},
eprint={2504.13074},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.13074}
}