🚀 SkyCaptioner-V1: 構造化ビデオキャプショニングモデル
SkyCaptioner-V1は、ビデオデータに対して高品質で構造化された説明を生成するモデルです。専門的なサブエキスパートモデルとマルチモーダル大規模言語モデル(MLLMs)を統合し、人間のアノテーションを活用することで、一般的なキャプショナーの限界を克服し、専門的な映画関連の詳細を捉えることができます。
📑 技術レポート · 👋 プレイグラウンド · 💬 Discord · 🤗 Hugging Face · 🤖 ModelScope · 🌐 GitHub
🚀 クイックスタート
SkyCaptioner-V1リポジトリへようこそ!ここでは、ビデオデータを効率的かつ包括的にラベル付けする構造化ビデオキャプショニングモデルの重みと推論コードを見つけることができます。
✨ 主な機能
構造化キャプショニングフレームワーク
当社のビデオキャプショニングモデルは、多次元の詳細を捉えます。
- 被写体:外観、行動、表情、位置、階層的分類
- ショットメタデータ:ショットタイプ(例:クローズアップ、ロングショット)、ショット角度、ショット位置、カメラモーション、環境、照明など
サブエキスパートの統合
- ショットキャプショナー:ショットタイプ、角度、位置を高精度に分類します。
- 表情キャプショナー:顔の表情、感情の強度、時間的ダイナミクスを分析します。
- カメラモーションキャプショナー:6自由度のカメラの動きと複合モーションタイプを追跡します。
トレーニングパイプライン
- 1000万の生サンプルから選りすぐられた約200万の高品質で概念バランスの取れたビデオでトレーニングされました。
- 32台のA800 GPUでグローバルバッチサイズ512でQwen2.5-VL-7B-Instructをファインチューニングしました。
- AdamW(学習率:1e-5)を使用して2エポックで最適化されました。
動的キャプション融合
- アプリケーション(T2V/I2V)に応じて出力長を調整します。
- LLMモデルを使用して構造化フィールドを融合し、下流のタスクに適した自然で流暢なキャプションを取得します。
📦 インストール
モデルのダウンロード
当社のSkyCaptioner-V1モデルは、SkyCaptioner-V1 モデルからダウンロードできます。
キャプション融合モデルとしてQwen2.5-32B-Instructを使用し、構造化キャプションフィールドをインテリジェントに結合し、アプリケーションの要件に応じて密なまたは疎な最終キャプションを生成します。
# SkyCaptioner-V1をダウンロード
huggingface-cli download Skywork/SkyCaptioner-V1 --local-dir /path/to/your_local_model_path
# Qwen2.5-32B-Instructをダウンロード
huggingface-cli download Qwen/Qwen2.5-32B-Instruct --local-dir /path/to/your_local_model_path2
実行ガイド
まず、リポジトリをクローンします。
git clone https://github.com/SkyworkAI/SkyReels-V2
cd skycaptioner_v1
Linux用のインストールガイド
手動インストールにはPython 3.10とCUDAバージョン12.2を推奨します。
pip install -r requirements.txt
実行コマンド
SkyCaptioner-V1による構造化キャプションの取得
export SkyCaptioner_V1_Model_PATH="/path/to/your_local_model_path"
python scripts/vllm_struct_caption.py \
--model_path ${SkyCaptioner_V1_Model_PATH} \
--input_csv "./examples/test.csv" \
--out_csv "./examepls/test_result.csv" \
--tp 1 \
--bs 4
Qwen2.5-32B-InstructモデルによるT2V/I2Vキャプション融合
export LLM_MODEL_PATH="/path/to/your_local_model_path2"
python scripts/vllm_fusion_caption.py \
--model_path ${LLM_MODEL_PATH} \
--input_csv "./examples/test_result.csv" \
--out_csv "./examples/test_result_caption.csv" \
--bs 4 \
--tp 1 \
--task t2v
⚠️ 重要提示
i2vキャプションを取得したい場合は、コマンドの--task t2v
を--task i2v
に変更してください。
📊 ベンチマーク結果
SkyCaptioner-V1は、主要な映画固有のキャプショニングタスクで既存のモデルに比べて大幅な改善を示しています。特に、ショット言語理解とドメイン固有の精度において優れています。これらの違いは、その構造化アーキテクチャとエキスパートによるトレーニングに起因しています。
- 優れたショット言語理解
- ショットタイプで+11.2%、ショット角度で+16.1%、ショット位置で+50.4%の精度でQwen2.5-VL-72Bを上回っています。SkyCaptioner-V1の専用ショット分類器は、映画ドメインのファインチューニングが不足している一般的なMLLMsよりも優れています。
- カメラモーションでTarsier2-recap-7Bに比べて+28.5%の精度(88.8%対41.5%):
その6自由度のモーション分析とアクティブラーニングパイプラインは、一般的なキャプショナーにとって難しい複合モーション(例:トラッキング+パンニング)の曖昧さを解消します。
- 高いドメイン固有の精度
- 表情精度:68.8%対54.3%(Tarsier2-recap-7B)、時間認識型S2Dフレームワークを活用して動的な顔の変化を捉えます。
指標 |
Qwen2.5-VL-7B-Ins. |
Qwen2.5-VL-72B-Ins. |
Tarsier2-recap-7B |
SkyCaptioner-V1 |
平均精度 |
51.4% |
58.7% |
49.4% |
76.3% |
ショットタイプ |
76.8% |
82.5% |
60.2% |
93.7% |
ショット角度 |
60.0% |
73.7% |
52.4% |
89.8% |
ショット位置 |
28.4% |
32.7% |
23.6% |
83.1% |
カメラモーション |
62.0% |
61.2% |
45.3% |
85.3% |
表情 |
43.6% |
51.5% |
54.3% |
68.8% |
TYPES_type |
43.5% |
49.7% |
47.6% |
82.5% |
TYPES_sub_type |
38.9% |
44.9% |
45.9% |
75.4% |
外観 |
40.9% |
52.0% |
45.6% |
59.3% |
行動 |
32.4% |
52.0% |
69.8% |
68.8% |
位置 |
35.4% |
48.6% |
45.5% |
57.5% |
主要被写体かどうか |
58.5% |
68.7% |
69.7% |
80.9% |
環境 |
70.4% |
72.7% |
61.4% |
70.5% |
照明 |
77.1% |
80.0% |
21.2% |
76.5% |
📚 詳細ドキュメント
TODOリスト
- SkyCaptioner-V1
- [x] チェックポイント
- [x] バッチ推論コード
- [x] キャプション融合方法
- [ ] Webデモ(Gradio)
謝辞
Qwen2.5-VL、tarsier2、vllmリポジトリの貢献者の皆様に感謝いたします。彼らのオープンな研究と貢献により、本プロジェクトが可能になりました。
📄 ライセンス
本プロジェクトはApache-2.0ライセンスの下で公開されています。
引用
@misc{chen2025skyreelsv2infinitelengthfilmgenerative,
author = {Guibin Chen and Dixuan Lin and Jiangping Yang and Chunze Lin and Juncheng Zhu and Mingyuan Fan and Hao Zhang and Sheng Chen and Zheng Chen and Chengchen Ma and Weiming Xiong and Wei Wang and Nuo Pang and Kang Kang and Zhiheng Xu and Yuzhe Jin and Yupeng Liang and Yubing Song and Peng Zhao and Boyuan Xu and Di Qiu and Debang Li and Zhengcong Fei and Yang Li and Yahui Zhou},
title = {Skyreels V2:Infinite-Length Film Generative Model},
year = {2025},
eprint={2504.13074},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.13074}
}