CogVideoX-2bオープンソースビデオ生成モデル - 入門に最適、低い運用と開発コスト！

ホーム

Cogvideox 2b

rttrsabcによって開発

CogVideoXは清影のビデオ生成モデルのオープンソース版で、2Bバージョンは入門モデルとして互換性と実行・二次開発コストのバランスが取れています。

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #テキストから動画生成 #高解像度生成 #マルチフレーム一貫性

ダウンロード数 22

リリース時間 : 9/9/2024

モデル概要

CogVideoXはテキストから動画を生成する拡散モデルで、テキスト記述に基づき6秒間、8fps、720x480解像度の動画を生成できます。

モデル特徴

低VRAM要件

複数量化方式をサポートし、最小3.6GB VRAMのGPUで動作可能

マルチ精度サポート

FP16、BF16、FP32、FP8、INT8など多様な推論精度に対応

最適化推論

diffusersライブラリを通じて様々なVRAM最適化ソリューションを提供し、異なるハードウェア環境に適応

モデル能力

テキストから動画生成

動画コンテンツ制作

クリエイティブコンテンツ生成

使用事例

クリエイティブコンテンツ制作

アニメーションショート制作

テキスト記述に基づくクリエイティブなアニメーションショートを生成

6秒間、8fpsの720x480解像度動画を生成可能

広告クリエイティブ生成

製品紹介動画のアイデアを迅速に生成

教育

教育動画生成

教育内容に基づく補助動画を生成

🚀 CogVideoX-2B

CogVideoX-2Bは、ビデオ生成モデルです。入門レベルのモデルで、互換性を考慮しています。実行や二次開発のコストが低く、さまざまなシーンでの利用に適しています。

📄 中文で読む | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv

📍 QingYing と API Platform を訪問して、商用ビデオ生成モデルを体験してください。

🎥 デモ展示

Video Gallery with Captions

細かく彫られたマストと帆を持つ詳細な木製のおもちゃの船が、海の波を模したパラパラした青いカーペットの上を滑らかに滑っているのが見られます。船の船体は濃い茶色に塗られ、小さな窓があります。柔らかく質感のあるカーペットは、海の広がりを思わせる完璧な背景を提供します。船の周りには、他のさまざまなおもちゃや子供向けのアイテムがあり、遊び心溢れる環境を暗示しています。このシーンは、子供の無邪気さと想像力を捉えており、おもちゃの船の旅は、幻想的な屋内空間での無限の冒険を象徴しています。

カメラは、黒いルーフラックを備えた白いヴィンテージSUVの後ろを追い、急な山腹にある松の木に囲まれた急な未舗装道路を加速していきます。タイヤから塵が舞い上がり、SUVが未舗装道路を疾走するとき、日光が当たり、シーンに暖かい輝きを投げかけます。未舗装道路は緩やかに遠くへと曲がり、目には他の車や車両は見えません。道路の両側の木はレッドウッドで、至る所に緑の茂みが散らばっています。車は後ろから見ると、曲がり角を楽々と曲がっているように見え、荒れた地形を走っているかのような印象を与えます。未舗装道路自体は急な丘や山に囲まれ、上には薄い雲が漂う澄んだ青い空が広がっています。

古着のデニムジャケットとカラフルなバンダナを着た路上アーティストが、中心部の広大なコンクリート壁の前に立ち、スプレー缶を持って、斑点のある壁にカラフルな鳥を描いています。

戦争に襲われた都市の不気味な背景の中、廃墟と崩れた壁が荒廃の物語を語っている中、切ないクローズアップで若い少女が捉えられています。彼女の顔には灰がまみれており、周りの混乱の無言の証です。彼女の目は悲しみと強さの混ざった輝きを放ち、紛争の荒波に無邪気さを失った世界の生々しい感情を捉えています。

📖 モデル紹介

CogVideoXは、QingYing を起源とするビデオ生成モデルのオープンソースバージョンです。以下の表に、現在提供しているビデオ生成モデルのリストとその基本情報を示します。

モデル名	CogVideoX-2B (このリポジトリ)	CogVideoX-5B
モデルの説明	入門レベルのモデルで、互換性を考慮しています。実行や二次開発のコストが低い。	より大きなモデルで、ビデオ生成品質が高く、視覚効果が良好。
推論精度	*FP16 (推奨)*, BF16, FP32, FP8, INT8, INT4はサポートしない	BF16 (推奨), FP16, FP32, FP8*, INT8, INT4はサポートしない
単一GPU VRAM消費量	SAT FP16: 18GB diffusers FP16: 4GBから* diffusers INT8(torchao): 3.6GBから*	SAT BF16: 26GB diffusers BF16: 5GBから* diffusers INT8(torchao): 4.4GBから*
マルチGPU推論VRAM消費量	FP16: diffusersを使用して10GB*	BF16: diffusersを使用して15GB*
推論速度 (Step = 50, FP/BF16)	単一A100: ~90秒単一H100: ~45秒	単一A100: ~180秒単一H100: ~90秒
微調整精度	FP16	BF16
微調整VRAM消費量 (GPUあたり)	47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT)	63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT)
プロンプト言語	英語*	英語*
プロンプト長制限	226トークン	226トークン
ビデオ長	6秒	6秒
フレームレート	1秒あたり8フレーム	1秒あたり8フレーム
ビデオ解像度	720 x 480、他の解像度はサポートしない (微調整を含む)	720 x 480、他の解像度はサポートしない (微調整を含む)
位置符号化	3d_sincos_pos_embed	3d_rope_pos_embed

データ説明

diffusers ライブラリを使用してテストする場合、diffusers ライブラリが提供するすべての最適化が有効になります。このソリューションは、NVIDIA A100 / H100 以外のデバイスでの実際のVRAM/メモリ使用量についてはテストされていません。一般的に、このソリューションは NVIDIA Ampereアーキテクチャ 以上のすべてのデバイスに適応できます。最適化を無効にすると、VRAM使用量が大幅に増加し、ピークVRAM使用量は表に示されている値の約3倍になります。ただし、速度は3 - 4倍になります。一部の最適化を選択的に無効にすることができます。以下のコードを参照してください。

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

マルチGPU推論を行う場合、enable_model_cpu_offload() 最適化を無効にする必要があります。
INT8モデルを使用すると、推論速度が低下します。これは、VRAMが少ないGPUでも推論を正常に行えるようにするためで、ビデオ品質の損失を最小限に抑えつつ、推論速度は大幅に低下します。
2Bモデルは FP16 精度で学習され、5Bモデルは BF16 精度で学習されています。推論には、モデルが学習された精度を使用することをお勧めします。
PytorchAO と Optimum-quanto を使用して、テキストエンコーダ、Transformer、VAEモジュールを量子化し、CogVideoXのメモリ要件を削減することができます。これにより、無料のT4 ColabやVRAMが小さいGPUでもモデルを実行できるようになります！また、TorchAO量子化は torch.compile と完全に互換性があり、推論速度を大幅に向上させることができます。FP8 精度は NVIDIA H100 以上のデバイスでのみ使用でき、torch、torchao、diffusers、accelerate のPythonパッケージをソースからインストールする必要があります。CUDA 12.4 が推奨されます。
推論速度テストでも上記のVRAM最適化スキームを使用しました。VRAM最適化を行わない場合、推論速度は約10％向上します。量子化は diffusers バージョンのモデルのみがサポートしています。
モデルは英語入力のみをサポートしています。他の言語は、大規模モデルによって英語に翻訳してから入力することができます。

注意事項

SAT を使用して、SATバージョンのモデルの推論と微調整を行ってください。詳細については、GitHubをご覧ください。

🚀 クイックスタート

このモデルは、huggingface diffusersライブラリを使用したデプロイをサポートしています。以下の手順に従ってデプロイできます。

GitHub を訪問し、関連するプロンプトの最適化と変換を確認することをお勧めします。これにより、より良い体験が得られます。

1. 必要な依存関係をインストールする

# diffusers>=0.30.1
# transformers>=0.44.0
# accelerate>=0.33.0 (ソースからのインストールを推奨)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

2. コードを実行する

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-2b",
    torch_dtype=torch.float16
)

pipe.enable_model_cpu_offload()
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

💪 量子化推論

PytorchAO と Optimum-quanto を使用して、テキストエンコーダ、Transformer、VAEモジュールを量子化し、CogVideoXのメモリ要件を削減することができます。これにより、無料のT4 ColabやVRAMが小さいGPUでもモデルを実行できるようになります！また、TorchAO量子化は torch.compile と完全に互換性があり、推論速度を大幅に向上させることができます。

# 始めるには、PytorchAOをGitHubソースからインストールし、PyTorch Nightlyを使用する必要があります。
# 次のリリースまでは、ソースとナイトリー版のインストールが必要です。

import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXPipeline
from diffusers.utils import export_to_video
+ from transformers import T5EncoderModel
+ from torchao.quantization import quantize_, int8_weight_only, int8_dynamic_activation_int8_weight

+ quantization = int8_weight_only

+ text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="text_encoder", torch_dtype=torch.bfloat16)
+ quantize_(text_encoder, quantization())

+ transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX-5b", subfolder="transformer", torch_dtype=torch.bfloat16)
+ quantize_(transformer, quantization())

+ vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX-2b", subfolder="vae", torch_dtype=torch.bfloat16)
+ quantize_(vae, quantization())

# パイプラインを作成し、推論を実行する
pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-2b",
+    text_encoder=text_encoder,
+    transformer=transformer,
+    vae=vae,
    torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)