SkyCaptioner-V1開源模型 - 為視頻生成高質量結構化描述，精準捕捉影視細節

首頁

Skycaptioner V1

由Skywork開發

SkyCaptioner-V1是專為視頻數據生成高質量結構化描述而設計的模型，通過整合專業子專家模型、多模態大語言模型與人工標註，解決了通用描述模型在專業影視細節捕捉上的侷限。

視頻生成文本

Transformers

開源協議:Apache-2.0 #結構化視頻描述 #鏡頭語言理解 #影視專業標註

下載量 362

發布時間 : 4/18/2025

模型概述

SkyCaptioner-V1是一個結構化視頻描述生成模型，能夠高效全面地標註視頻內容，捕捉多維細節如主體信息、鏡頭元數據等。

模型特點

結構化表徵

融合通用視頻描述與專業子模塊（鏡頭類型/角度/位置、運鏡等）及人工標註

知識蒸餾

將子專家能力蒸餾至統一模型

應用適配

支持生成文本生成視頻(T2V)的密集描述與圖像生成視頻(I2V)的簡潔提示

子專家系統

包含鏡頭分析器、表情分析器、運鏡分析器等專業模塊

模型能力

視頻內容描述生成

鏡頭類型識別

拍攝角度分析

構圖位置判斷

運鏡方式識別

表情強度解析

時序變化追蹤

使用案例

影視製作

視頻內容標註

為影視素材生成詳細的結構化描述

提高後期製作效率

視頻檢索

通過結構化描述實現精準視頻檢索

提升檢索準確率

AI生成內容

文本生成視頻(T2V)

為T2V模型提供密集描述

提升生成視頻的質量和準確性

圖像生成視頻(I2V)

為I2V模型提供簡潔提示

優化生成效果

🚀 SkyCaptioner-V1：結構化視頻字幕生成模型

SkyCaptioner-V1 是一款結構化視頻字幕生成模型，能夠高效且全面地為視頻數據添加標籤。它集成了專業的子專家模型和多模態大語言模型（MLLMs），結合人工標註，有效解決了普通字幕生成器在捕捉專業電影相關細節方面的侷限性。

📑 技術報告 · 👋 在線演示 · 💬 Discord 社區 · 🤗 Hugging Face · 🤖 ModelScope · 🌐 GitHub

🚀 快速開始

歡迎來到 SkyCaptioner-V1 倉庫！在這裡，你可以找到結構化視頻字幕生成模型的權重和推理代碼，用於高效全面地為視頻數據添加標籤。

🔥🔥🔥 最新消息！

2025 年 4 月 21 日：👋 我們發佈了 SkyCaptioner-V1 模型的 vllm 批量推理代碼和字幕融合推理代碼。
2025 年 4 月 21 日：👋 我們發佈了首個鏡頭感知視頻字幕生成模型 SkyCaptioner-V1 模型。更多詳情，請查看我們的論文。

📑 待辦事項列表

SkyCaptioner-V1
- [x] 檢查點
- [x] 批量推理代碼
- [x] 字幕融合方法
- [ ] Web 演示（Gradio）

✨ 主要特性

結構化字幕生成框架

我們的視頻字幕生成模型能夠捕捉多維度的細節：

主體信息：包括外觀、動作、表情、位置和層次分類。
鏡頭元數據：如鏡頭類型（特寫、遠景等）、鏡頭角度、鏡頭位置、相機運動、環境、光照等。

子專家模型集成

鏡頭字幕生成器：高精度分類鏡頭類型、角度和位置。
表情字幕生成器：分析面部表情、情感強度和時間動態。
相機運動字幕生成器：跟蹤 6DoF 相機運動和複合運動類型。

訓練流程

在從 1000 萬個原始樣本中精心挑選的約 200 萬個高質量、概念均衡的視頻上進行訓練。
在 Qwen2.5-VL-7B-Instruct 上進行微調，全局批量大小為 512，使用 32 個 A800 GPU。
使用 AdamW 優化器（學習率：1e-5）進行 2 個 epoch 的優化。

動態字幕融合

根據應用場景（T2V/I2V）調整輸出長度。
採用大語言模型融合結構化字段，為下游任務生成自然流暢的字幕。

📊 基準測試結果

SkyCaptioner-V1 在關鍵的電影特定字幕生成任務中，特別是在 鏡頭語言理解 和 特定領域精度 方面，相較於現有模型有顯著提升。這些優勢源於其結構化架構和專家指導的訓練：

卓越的鏡頭語言理解能力
- 我們的字幕生成模型在鏡頭類型、鏡頭角度和鏡頭位置的準確率上分別比 Qwen2.5-VL-72B 高出 11.2%、16.1% 和 50.4%。這是因為 SkyCaptioner-V1 的專業鏡頭分類器優於缺乏電影領域微調的通用 MLLMs。
- 與 Tarsier2-recap-7B 相比，相機運動準確率提高了 28.5%（88.8% 對 41.5%）：其 6DoF 運動分析和主動學習流程解決了複合運動（如跟蹤 + 平移）中的歧義問題，這是通用字幕生成器面臨的挑戰。
高特定領域精度
- 表情準確率：達到 68.8%，而 Tarsier2-recap-7B 為 54.3%，利用時間感知 S2D 框架捕捉動態面部變化。

指標	Qwen2.5-VL-7B-Ins.	Qwen2.5-VL-72B-Ins.	Tarsier2-recap-7B	SkyCaptioner-V1
平均準確率	51.4%	58.7%	49.4%	76.3%
鏡頭類型	76.8%	82.5%	60.2%	93.7%
鏡頭角度	60.0%	73.7%	52.4%	89.8%
鏡頭位置	28.4%	32.7%	23.6%	83.1%
相機運動	62.0%	61.2%	45.3%	85.3%
表情	43.6%	51.5%	54.3%	68.8%
TYPES_type	43.5%	49.7%	47.6%	82.5%
TYPES_sub_type	38.9%	44.9%	45.9%	75.4%
外觀	40.9%	52.0%	45.6%	59.3%
動作	32.4%	52.0%	69.8%	68.8%
位置	35.4%	48.6%	45.5%	57.5%
是否為主主體	58.5%	68.7%	69.7%	80.9%
環境	70.4%	72.7%	61.4%	70.5%
光照	77.1%	80.0%	21.2%	76.5%

📦 模型下載

我們的 SkyCaptioner-V1 模型可以從 SkyCaptioner-V1 模型下載。我們使用 Qwen2.5-32B-Instruct 作為字幕融合模型，根據應用需求智能組合結構化字幕字段，生成密集或稀疏的最終字幕。

# 下載 SkyCaptioner-V1
huggingface-cli download Skywork/SkyCaptioner-V1 --local-dir /path/to/your_local_model_path
# 下載 Qwen2.5-32B-Instruct
huggingface-cli download Qwen/Qwen2.5-32B-Instruct --local-dir /path/to/your_local_model_path2

📚 詳細文檔

📦 安裝指南

Linux 系統安裝指南

我們建議使用 Python 3.10 和 CUDA 12.2 進行手動安裝。

pip install -r requirements.txt

💻 使用示例

基礎用法

首先克隆倉庫：

git clone https://github.com/SkyworkAI/SkyReels-V2
cd skycaptioner_v1

獲取 SkyCaptioner-V1 的結構化字幕

export SkyCaptioner_V1_Model_PATH="/path/to/your_local_model_path"

python scripts/vllm_struct_caption.py \
    --model_path ${SkyCaptioner_V1_Model_PATH} \
    --input_csv "./examples/test.csv" \
    --out_csv "./examepls/test_result.csv" \
    --tp 1 \
    --bs 4

使用 Qwen2.5-32B-Instruct 模型進行 T2V/I2V 字幕融合

export LLM_MODEL_PATH="/path/to/your_local_model_path2"

python scripts/vllm_fusion_caption.py \
    --model_path ${LLM_MODEL_PATH} \
    --input_csv "./examples/test_result.csv" \
    --out_csv "./examples/test_result_caption.csv" \
    --bs 4 \
    --tp 1 \
    --task t2v

⚠️ 重要提示

如果你想獲取 i2v 字幕，只需在命令中將 --task t2v 改為 --task i2v。

致謝

我們感謝 Qwen2.5-VL、tarsier2 和 vllm 倉庫的貢獻者，感謝他們的開放研究和貢獻。

引用

@misc{chen2025skyreelsv2infinitelengthfilmgenerative,
author = {Guibin Chen and Dixuan Lin and Jiangping Yang and Chunze Lin and Juncheng Zhu and Mingyuan Fan and Hao Zhang and Sheng Chen and Zheng Chen and Chengchen Ma and Weiming Xiong and Wei Wang and Nuo Pang and Kang Kang and Zhiheng Xu and Yuzhe Jin and Yupeng Liang and Yubing Song and Peng Zhao and Boyuan Xu and Di Qiu and Debang Li and Zhengcong Fei and Yang Li and Yahui Zhou},
title = {Skyreels V2:Infinite-Length Film Generative Model},
year = {2025},
eprint={2504.13074},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.13074}
}