ContentV-8Bオープンソース動画生成モデル - 高効率なアーキテクチャで限られたリソースを使って高品質な動画生成を実現する

ホーム

Contentv 8B

ByteDanceによって開発

ContentVは高効率なビデオ生成モデルフレームワークで、極簡アーキテクチャ、多段階トレーニング戦略、経済的で効率的な強化学習フレームワークを通じて、限られた計算リソースで高品質なビデオ生成を実現します。

動画処理オープンソースライセンス:Apache-2.0 #高効率ビデオ生成 #事前学習モデルの再利用 #フローマッチングトレーニング

ダウンロード数 417

リリース時間 : 6/3/2025

モデル概要

ContentVはDiTに基づくビデオ生成モデルで、事前学習画像生成モデルの再利用、フローマッチングトレーニング戦略、人工ラベルなしの強化学習フレームワークを通じて、トレーニング効率と生成品質を大幅に向上させました。

モデル特徴

極簡アーキテクチャ

事前学習画像生成モデルを最大限に再利用してビデオ合成を行い、トレーニングコストを削減します。

多段階トレーニング戦略

体系的な多段階トレーニング戦略を採用し、フローマッチングを利用してトレーニング効率を向上させます。

経済的で効率的な強化学習

追加の人工ラベルが不要な人間フィードバックに基づく強化学習フレームワークを導入し、生成品質を向上させます。

モデル能力

テキストからビデオへの生成

高品質ビデオ合成

長時間ビデオ生成

短時間ビデオ生成

使用事例

ビデオコンテンツ作成

短時間ビデオ生成

テキスト記述に基づいて自動的に短時間ビデオコンテンツを生成します。

VBench評価で84.11点（短時間ビデオ）を獲得しました。

長時間ビデオ生成

テキスト記述に基づいて自動的に長時間ビデオコンテンツを生成します。

VBench評価で85.14点（長時間ビデオ）を獲得しました。

🚀 ContentV: 限られたコンピューティングリソースでのビデオ生成モデルの効率的なトレーニング

このプロジェクトでは、ContentV という、DiTベースのビデオ生成モデルのトレーニングを加速するための効率的なフレームワークを提案しています。これには3つの主要な革新的な要素があります。

ビデオ合成における事前学習済み画像生成モデルの再利用を最大化するミニマリストなアーキテクチャ
フローマッチングを活用した体系的な多段階トレーニング戦略で、効率を向上
追加の人間によるアノテーションを必要とせずに生成品質を向上させる費用対効果の高い人間フィードバック付き強化学習フレームワーク

当社のオープンソースの8Bモデル（Stable Diffusion 3.5 LargeとWan-VAEに基づく）は、256×64GBのNPUで4週間のトレーニングで、VBenchで85.14という最先端の結果を達成しました。

🚀 クイックスタート

推奨PyTorchバージョン

GPU: torch >= 2.3.1 (CUDA >= 12.2)
NPU: torch と torch-npu >= 2.1.0 (CANN >= 8.0.RC2)。torch-npuのインストールについては、Ascend Extension for PyTorch を参照してください。

インストール

git clone https://github.com/bytedance/ContentV.git
cd ContentV
pip3 install -r requirements.txt

テキストからビデオへの生成

## GPU用
python3 demo.py
## NPU用
USE_ASCEND_NPU=1 python3 demo.py

✨ 主な機能

このプロジェクトの主な機能は、以下の3つの革新的なアプローチによって、DiTベースのビデオ生成モデルのトレーニングを加速することです。

事前学習済み画像生成モデルの再利用を最大化するミニマリストなアーキテクチャ
フローマッチングを活用した多段階トレーニング戦略
追加の人間によるアノテーションを必要としない強化学習フレームワーク

📊 VBenchの結果

モデル	総合スコア	品質スコア	意味スコア	人間の行動	シーン	動的度合い	複数オブジェクト	外観スタイル
Wan2.1-14B	86.22	86.67	84.44	99.20	61.24	94.26	86.59	21.59
ContentV (Long)	85.14	86.64	79.12	96.80	57.38	83.05	71.41	23.02
Goku†	84.85	85.60	81.87	97.60	57.08	76.11	79.48	23.08
Open-Sora 2.0	84.34	85.40	80.12	95.40	52.71	71.39	77.72	22.98
Sora†	84.28	85.51	79.35	98.20	56.95	79.91	70.85	24.76
ContentV (Short)	84.11	86.23	75.61	89.60	44.02	79.26	74.58	21.21
EasyAnimate 5.1	83.42	85.03	77.01	95.60	54.31	57.15	66.85	23.06
Kling 1.6†	83.40	85.00	76.99	96.20	55.57	62.22	63.99	20.75
HunyuanVideo	83.24	85.09	75.82	94.40	53.88	70.83	68.55	19.80
CogVideoX-5B	81.61	82.75	77.04	99.40	53.20	70.97	62.11	24.91
Pika-1.0†	80.69	82.92	71.77	86.20	49.83	47.50	43.08	22.26
VideoCrafter-2.0	80.44	82.20	73.42	95.00	55.29	42.50	40.66	25.13
AnimateDiff-V2	80.27	82.90	69.75	92.60	50.19	40.83	36.88	22.42
OpenSora 1.2	79.23	80.71	73.30	85.80	42.47	47.22	58.41	23.89

📋 Todoリスト

[x] 推論コードとチェックポイント
[ ] RLHFのトレーニングコード

📄 ライセンス

このコードリポジトリと一部のモデルウェイトは、Apache 2.0 License の下でライセンスされています。ただし、以下の点に注意してください。

MMDiTは Stable Diffusion 3.5 Large から派生し、ビデオサンプルを使用してトレーニングされています。このStability AIモデルは Stability AI Community License の下でライセンスされており、Copyright © Stability AI Ltd. All Rights Reserved です。
Wan2.1 のビデオVAEは Apache 2.0 License の下でライセンスされています。

🙏 謝辞

📖 引用

@article{contentv2025,
  title     = {ContentV: Efficient Training of Video Generation Models with Limited Compute},
  author    = {Bytedance Douyin Content Team},
  journal   = {arXiv preprint arXiv:2506.05343},
  year      = {2025}
  }