🚀 SkyCaptioner-V1:結構化視頻字幕生成模型
SkyCaptioner-V1 是一款結構化視頻字幕生成模型,能夠高效且全面地為視頻數據添加標籤。它集成了專業的子專家模型和多模態大語言模型(MLLMs),結合人工標註,有效解決了普通字幕生成器在捕捉專業電影相關細節方面的侷限性。
📑 技術報告 · 👋 在線演示 · 💬 Discord 社區 · 🤗 Hugging Face · 🤖 ModelScope · 🌐 GitHub
🚀 快速開始
歡迎來到 SkyCaptioner-V1 倉庫!在這裡,你可以找到結構化視頻字幕生成模型的權重和推理代碼,用於高效全面地為視頻數據添加標籤。
🔥🔥🔥 最新消息!
- 2025 年 4 月 21 日:👋 我們發佈了 SkyCaptioner-V1 模型的 vllm 批量推理代碼和字幕融合推理代碼。
- 2025 年 4 月 21 日:👋 我們發佈了首個鏡頭感知視頻字幕生成模型 SkyCaptioner-V1 模型。更多詳情,請查看我們的 論文。
📑 待辦事項列表
- SkyCaptioner-V1
- [x] 檢查點
- [x] 批量推理代碼
- [x] 字幕融合方法
- [ ] Web 演示(Gradio)
✨ 主要特性
結構化字幕生成框架
我們的視頻字幕生成模型能夠捕捉多維度的細節:
- 主體信息:包括外觀、動作、表情、位置和層次分類。
- 鏡頭元數據:如鏡頭類型(特寫、遠景等)、鏡頭角度、鏡頭位置、相機運動、環境、光照等。
子專家模型集成
- 鏡頭字幕生成器:高精度分類鏡頭類型、角度和位置。
- 表情字幕生成器:分析面部表情、情感強度和時間動態。
- 相機運動字幕生成器:跟蹤 6DoF 相機運動和複合運動類型。
訓練流程
- 在從 1000 萬個原始樣本中精心挑選的約 200 萬個高質量、概念均衡的視頻上進行訓練。
- 在 Qwen2.5-VL-7B-Instruct 上進行微調,全局批量大小為 512,使用 32 個 A800 GPU。
- 使用 AdamW 優化器(學習率:1e-5)進行 2 個 epoch 的優化。
動態字幕融合
- 根據應用場景(T2V/I2V)調整輸出長度。
- 採用大語言模型融合結構化字段,為下游任務生成自然流暢的字幕。
📊 基準測試結果
SkyCaptioner-V1 在關鍵的電影特定字幕生成任務中,特別是在 鏡頭語言理解 和 特定領域精度 方面,相較於現有模型有顯著提升。這些優勢源於其結構化架構和專家指導的訓練:
- 卓越的鏡頭語言理解能力
- 我們的字幕生成模型在鏡頭類型、鏡頭角度和鏡頭位置的準確率上分別比 Qwen2.5-VL-72B 高出 11.2%、16.1% 和 50.4%。這是因為 SkyCaptioner-V1 的專業鏡頭分類器優於缺乏電影領域微調的通用 MLLMs。
- 與 Tarsier2-recap-7B 相比,相機運動準確率提高了 28.5%(88.8% 對 41.5%):其 6DoF 運動分析和主動學習流程解決了複合運動(如跟蹤 + 平移)中的歧義問題,這是通用字幕生成器面臨的挑戰。
- 高特定領域精度
- 表情準確率:達到 68.8%,而 Tarsier2-recap-7B 為 54.3%,利用時間感知 S2D 框架捕捉動態面部變化。
指標 |
Qwen2.5-VL-7B-Ins. |
Qwen2.5-VL-72B-Ins. |
Tarsier2-recap-7B |
SkyCaptioner-V1 |
平均準確率 |
51.4% |
58.7% |
49.4% |
76.3% |
鏡頭類型 |
76.8% |
82.5% |
60.2% |
93.7% |
鏡頭角度 |
60.0% |
73.7% |
52.4% |
89.8% |
鏡頭位置 |
28.4% |
32.7% |
23.6% |
83.1% |
相機運動 |
62.0% |
61.2% |
45.3% |
85.3% |
表情 |
43.6% |
51.5% |
54.3% |
68.8% |
TYPES_type |
43.5% |
49.7% |
47.6% |
82.5% |
TYPES_sub_type |
38.9% |
44.9% |
45.9% |
75.4% |
外觀 |
40.9% |
52.0% |
45.6% |
59.3% |
動作 |
32.4% |
52.0% |
69.8% |
68.8% |
位置 |
35.4% |
48.6% |
45.5% |
57.5% |
是否為主主體 |
58.5% |
68.7% |
69.7% |
80.9% |
環境 |
70.4% |
72.7% |
61.4% |
70.5% |
光照 |
77.1% |
80.0% |
21.2% |
76.5% |
📦 模型下載
我們的 SkyCaptioner-V1 模型可以從 SkyCaptioner-V1 模型 下載。
我們使用 Qwen2.5-32B-Instruct 作為字幕融合模型,根據應用需求智能組合結構化字幕字段,生成密集或稀疏的最終字幕。
# 下載 SkyCaptioner-V1
huggingface-cli download Skywork/SkyCaptioner-V1 --local-dir /path/to/your_local_model_path
# 下載 Qwen2.5-32B-Instruct
huggingface-cli download Qwen/Qwen2.5-32B-Instruct --local-dir /path/to/your_local_model_path2
📚 詳細文檔
📦 安裝指南
Linux 系統安裝指南
我們建議使用 Python 3.10 和 CUDA 12.2 進行手動安裝。
pip install -r requirements.txt
💻 使用示例
基礎用法
首先克隆倉庫:
git clone https://github.com/SkyworkAI/SkyReels-V2
cd skycaptioner_v1
獲取 SkyCaptioner-V1 的結構化字幕
export SkyCaptioner_V1_Model_PATH="/path/to/your_local_model_path"
python scripts/vllm_struct_caption.py \
--model_path ${SkyCaptioner_V1_Model_PATH} \
--input_csv "./examples/test.csv" \
--out_csv "./examepls/test_result.csv" \
--tp 1 \
--bs 4
使用 Qwen2.5-32B-Instruct 模型進行 T2V/I2V 字幕融合
export LLM_MODEL_PATH="/path/to/your_local_model_path2"
python scripts/vllm_fusion_caption.py \
--model_path ${LLM_MODEL_PATH} \
--input_csv "./examples/test_result.csv" \
--out_csv "./examples/test_result_caption.csv" \
--bs 4 \
--tp 1 \
--task t2v
⚠️ 重要提示
如果你想獲取 i2v 字幕,只需在命令中將 --task t2v
改為 --task i2v
。
致謝
我們感謝 Qwen2.5-VL、tarsier2 和 vllm 倉庫的貢獻者,感謝他們的開放研究和貢獻。
引用
@misc{chen2025skyreelsv2infinitelengthfilmgenerative,
author = {Guibin Chen and Dixuan Lin and Jiangping Yang and Chunze Lin and Juncheng Zhu and Mingyuan Fan and Hao Zhang and Sheng Chen and Zheng Chen and Chengchen Ma and Weiming Xiong and Wei Wang and Nuo Pang and Kang Kang and Zhiheng Xu and Yuzhe Jin and Yupeng Liang and Yubing Song and Peng Zhao and Boyuan Xu and Di Qiu and Debang Li and Zhengcong Fei and Yang Li and Yahui Zhou},
title = {Skyreels V2:Infinite-Length Film Generative Model},
year = {2025},
eprint={2504.13074},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.13074}
}
📄 許可證
本項目採用 Apache-2.0 許可證。