🚀 ContentV:利用有限計算資源高效訓練視頻生成模型
本項目推出了 ContentV,這是一個高效的框架,通過三項關鍵創新加速基於 DiT 的視頻生成模型的訓練:
- 極簡架構,最大限度地複用預訓練圖像生成模型進行視頻合成。
- 系統的多階段訓練策略,利用流匹配提高效率。
- 一種經濟高效的基於人類反饋的強化學習框架,無需額外的人工標註即可提高生成質量。
我們開源的 80 億參數模型(基於 Stable Diffusion 3.5 Large 和 Wan-VAE)僅用 256×64GB 的 NPU 訓練 4 周,就在 VBench 上取得了 85.14 的最優成績。
🚀 快速開始
推薦的 PyTorch 版本
安裝
git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt
文本到視頻生成
python3 demo.py
USE_ASCEND_NPU=1 python3 demo.py
✨ 主要特性
- 提出了一種極簡架構,可最大限度地複用預訓練圖像生成模型進行視頻合成。
- 採用了系統的多階段訓練策略,利用流匹配提高訓練效率。
- 引入了一種經濟高效的基於人類反饋的強化學習框架,無需額外的人工標註即可提高生成質量。
📊 VBench 評測結果
模型 |
總分 |
質量得分 |
語義得分 |
人類動作 |
場景 |
動態程度 |
多對象 |
外觀風格 |
Wan2.1-14B |
86.22 |
86.67 |
84.44 |
99.20 |
61.24 |
94.26 |
86.59 |
21.59 |
ContentV (長視頻) |
85.14 |
86.64 |
79.12 |
96.80 |
57.38 |
83.05 |
71.41 |
23.02 |
Goku† |
84.85 |
85.60 |
81.87 |
97.60 |
57.08 |
76.11 |
79.48 |
23.08 |
Open-Sora 2.0 |
84.34 |
85.40 |
80.12 |
95.40 |
52.71 |
71.39 |
77.72 |
22.98 |
Sora† |
84.28 |
85.51 |
79.35 |
98.20 |
56.95 |
79.91 |
70.85 |
24.76 |
ContentV (短視頻) |
84.11 |
86.23 |
75.61 |
89.60 |
44.02 |
79.26 |
74.58 |
21.21 |
EasyAnimate 5.1 |
83.42 |
85.03 |
77.01 |
95.60 |
54.31 |
57.15 |
66.85 |
23.06 |
Kling 1.6† |
83.40 |
85.00 |
76.99 |
96.20 |
55.57 |
62.22 |
63.99 |
20.75 |
HunyuanVideo |
83.24 |
85.09 |
75.82 |
94.40 |
53.88 |
70.83 |
68.55 |
19.80 |
CogVideoX-5B |
81.61 |
82.75 |
77.04 |
99.40 |
53.20 |
70.97 |
62.11 |
24.91 |
Pika-1.0† |
80.69 |
82.92 |
71.77 |
86.20 |
49.83 |
47.50 |
43.08 |
22.26 |
VideoCrafter-2.0 |
80.44 |
82.20 |
73.42 |
95.00 |
55.29 |
42.50 |
40.66 |
25.13 |
AnimateDiff-V2 |
80.27 |
82.90 |
69.75 |
92.60 |
50.19 |
40.83 |
36.88 |
22.42 |
OpenSora 1.2 |
79.23 |
80.71 |
73.30 |
85.80 |
42.47 |
47.22 |
58.41 |
23.89 |
📄 待辦事項
- [x] 推理代碼和檢查點
- [ ] 基於人類反饋的強化學習訓練代碼
📄 許可證
本代碼倉庫和部分模型權重遵循 Apache 2.0 許可證。請注意:
🙏 致謝
感謝以下開源項目的貢獻:
📖 引用
@article{contentv2025,
title = {ContentV: Efficient Training of Video Generation Models with Limited Compute},
author = {Bytedance Douyin Content Team},
journal = {arXiv preprint arXiv:2506.05343},
year = {2025}
}