ContentV-8B開源視頻生成模型 - 高效架構用有限資源實現高質量視頻生成

首頁

Contentv 8B

由ByteDance開發

ContentV是一個高效的視頻生成模型框架，通過極簡架構、多階段訓練策略和經濟高效的強化學習框架，在有限計算資源下實現高質量視頻生成。

視頻處理開源協議:Apache-2.0 #高效視頻生成 #預訓練模型複用 #流匹配訓練

下載量 417

發布時間 : 6/3/2025

模型概述

ContentV是一個基於DiT的視頻生成模型，通過複用預訓練圖像生成模型、流匹配訓練策略和無人工標註的強化學習框架，顯著提升了訓練效率和生成質量。

模型特點

極簡架構

最大限度地複用預訓練圖像生成模型進行視頻合成，降低訓練成本

多階段訓練策略

採用系統的多階段訓練策略，利用流匹配提高訓練效率

經濟高效的強化學習

引入無需額外人工標註的基於人類反饋的強化學習框架，提高生成質量

模型能力

文本到視頻生成

高質量視頻合成

長視頻生成

短視頻生成

使用案例

視頻內容創作

短視頻生成

根據文本描述自動生成短視頻內容

在VBench評測中取得84.11分（短視頻）

長視頻生成

根據文本描述自動生成長視頻內容

在VBench評測中取得85.14分（長視頻）

🚀 ContentV：利用有限計算資源高效訓練視頻生成模型

本項目推出了 ContentV，這是一個高效的框架，通過三項關鍵創新加速基於 DiT 的視頻生成模型的訓練：

極簡架構，最大限度地複用預訓練圖像生成模型進行視頻合成。
系統的多階段訓練策略，利用流匹配提高效率。
一種經濟高效的基於人類反饋的強化學習框架，無需額外的人工標註即可提高生成質量。

我們開源的 80 億參數模型（基於 Stable Diffusion 3.5 Large 和 Wan-VAE）僅用 256×64GB 的 NPU 訓練 4 周，就在 VBench 上取得了 85.14 的最優成績。

🚀 快速開始

安裝

git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文本到視頻生成

## 對於 GPU
python3 demo.py
## 對於 NPU
USE_ASCEND_NPU=1 python3 demo.py

✨ 主要特性

提出了一種極簡架構，可最大限度地複用預訓練圖像生成模型進行視頻合成。
採用了系統的多階段訓練策略，利用流匹配提高訓練效率。
引入了一種經濟高效的基於人類反饋的強化學習框架，無需額外的人工標註即可提高生成質量。

📊 VBench 評測結果

模型	總分	質量得分	語義得分	人類動作	場景	動態程度	多對象	外觀風格
Wan2.1-14B	86.22	86.67	84.44	99.20	61.24	94.26	86.59	21.59
ContentV (長視頻)	85.14	86.64	79.12	96.80	57.38	83.05	71.41	23.02
Goku†	84.85	85.60	81.87	97.60	57.08	76.11	79.48	23.08
Open-Sora 2.0	84.34	85.40	80.12	95.40	52.71	71.39	77.72	22.98
Sora†	84.28	85.51	79.35	98.20	56.95	79.91	70.85	24.76
ContentV (短視頻)	84.11	86.23	75.61	89.60	44.02	79.26	74.58	21.21
EasyAnimate 5.1	83.42	85.03	77.01	95.60	54.31	57.15	66.85	23.06
Kling 1.6†	83.40	85.00	76.99	96.20	55.57	62.22	63.99	20.75
HunyuanVideo	83.24	85.09	75.82	94.40	53.88	70.83	68.55	19.80
CogVideoX-5B	81.61	82.75	77.04	99.40	53.20	70.97	62.11	24.91
Pika-1.0†	80.69	82.92	71.77	86.20	49.83	47.50	43.08	22.26
VideoCrafter-2.0	80.44	82.20	73.42	95.00	55.29	42.50	40.66	25.13
AnimateDiff-V2	80.27	82.90	69.75	92.60	50.19	40.83	36.88	22.42
OpenSora 1.2	79.23	80.71	73.30	85.80	42.47	47.22	58.41	23.89

📄 待辦事項

[x] 推理代碼和檢查點
[ ] 基於人類反饋的強化學習訓練代碼

📄 許可證

本代碼倉庫和部分模型權重遵循 Apache 2.0 許可證。請注意：

MMDiT 源自 Stable Diffusion 3.5 Large，並使用視頻樣本進行訓練。此 Stability AI 模型遵循 Stability AI 社區許可證，版權所有 © Stability AI Ltd。保留所有權利。
來自 Wan2.1 的視頻 VAE 遵循 Apache 2.0 許可證。

🙏 致謝

感謝以下開源項目的貢獻：

📖 引用

@article{contentv2025,
  title     = {ContentV: Efficient Training of Video Generation Models with Limited Compute},
  author    = {Bytedance Douyin Content Team},
  journal   = {arXiv preprint arXiv:2506.05343},
  year      = {2025}
  }