ContentV-8B开源视频生成模型 - 高效架构用有限资源实现高质量视频生成

首页

Contentv 8B

由 ByteDance 开发

ContentV是一个高效的视频生成模型框架，通过极简架构、多阶段训练策略和经济高效的强化学习框架，在有限计算资源下实现高质量视频生成。

视频处理开源协议:Apache-2.0 #高效视频生成 #预训练模型复用 #流匹配训练

下载量 417

发布时间 : 6/3/2025

模型简介

ContentV是一个基于DiT的视频生成模型，通过复用预训练图像生成模型、流匹配训练策略和无人工标注的强化学习框架，显著提升了训练效率和生成质量。

模型特点

极简架构

最大限度地复用预训练图像生成模型进行视频合成，降低训练成本

多阶段训练策略

采用系统的多阶段训练策略，利用流匹配提高训练效率

经济高效的强化学习

引入无需额外人工标注的基于人类反馈的强化学习框架，提高生成质量

模型能力

文本到视频生成

高质量视频合成

长视频生成

短视频生成

使用案例

视频内容创作

短视频生成

根据文本描述自动生成短视频内容

在VBench评测中取得84.11分（短视频）

长视频生成

根据文本描述自动生成长视频内容

在VBench评测中取得85.14分（长视频）

🚀 ContentV：利用有限计算资源高效训练视频生成模型

本项目推出了 ContentV，这是一个高效的框架，通过三项关键创新加速基于 DiT 的视频生成模型的训练：

极简架构，最大限度地复用预训练图像生成模型进行视频合成。
系统的多阶段训练策略，利用流匹配提高效率。
一种经济高效的基于人类反馈的强化学习框架，无需额外的人工标注即可提高生成质量。

我们开源的 80 亿参数模型（基于 Stable Diffusion 3.5 Large 和 Wan-VAE）仅用 256×64GB 的 NPU 训练 4 周，就在 VBench 上取得了 85.14 的最优成绩。

🚀 快速开始

安装

git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

文本到视频生成

## 对于 GPU
python3 demo.py
## 对于 NPU
USE_ASCEND_NPU=1 python3 demo.py

✨ 主要特性

提出了一种极简架构，可最大限度地复用预训练图像生成模型进行视频合成。
采用了系统的多阶段训练策略，利用流匹配提高训练效率。
引入了一种经济高效的基于人类反馈的强化学习框架，无需额外的人工标注即可提高生成质量。

📊 VBench 评测结果

模型	总分	质量得分	语义得分	人类动作	场景	动态程度	多对象	外观风格
Wan2.1-14B	86.22	86.67	84.44	99.20	61.24	94.26	86.59	21.59
ContentV (长视频)	85.14	86.64	79.12	96.80	57.38	83.05	71.41	23.02
Goku†	84.85	85.60	81.87	97.60	57.08	76.11	79.48	23.08
Open-Sora 2.0	84.34	85.40	80.12	95.40	52.71	71.39	77.72	22.98
Sora†	84.28	85.51	79.35	98.20	56.95	79.91	70.85	24.76
ContentV (短视频)	84.11	86.23	75.61	89.60	44.02	79.26	74.58	21.21
EasyAnimate 5.1	83.42	85.03	77.01	95.60	54.31	57.15	66.85	23.06
Kling 1.6†	83.40	85.00	76.99	96.20	55.57	62.22	63.99	20.75
HunyuanVideo	83.24	85.09	75.82	94.40	53.88	70.83	68.55	19.80
CogVideoX-5B	81.61	82.75	77.04	99.40	53.20	70.97	62.11	24.91
Pika-1.0†	80.69	82.92	71.77	86.20	49.83	47.50	43.08	22.26
VideoCrafter-2.0	80.44	82.20	73.42	95.00	55.29	42.50	40.66	25.13
AnimateDiff-V2	80.27	82.90	69.75	92.60	50.19	40.83	36.88	22.42
OpenSora 1.2	79.23	80.71	73.30	85.80	42.47	47.22	58.41	23.89

📄 待办事项

[x] 推理代码和检查点
[ ] 基于人类反馈的强化学习训练代码

📄 许可证

本代码仓库和部分模型权重遵循 Apache 2.0 许可证。请注意：

MMDiT 源自 Stable Diffusion 3.5 Large，并使用视频样本进行训练。此 Stability AI 模型遵循 Stability AI 社区许可证，版权所有 © Stability AI Ltd。保留所有权利。
来自 Wan2.1 的视频 VAE 遵循 Apache 2.0 许可证。

🙏 致谢

感谢以下开源项目的贡献：

📖 引用

@article{contentv2025,
  title     = {ContentV: Efficient Training of Video Generation Models with Limited Compute},
  author    = {Bytedance Douyin Content Team},
  journal   = {arXiv preprint arXiv:2506.05343},
  year      = {2025}
  }