CogVideoX - 5b開源視頻生成模型，以大模型規模產出高質量視頻內容

首頁

Cogvideox 5b

由vdo開發

CogVideoX是源自清影的視頻生成模型開源版本，5B版本具有更大的模型規模，能生成更高質量的視頻內容。

文本生成視頻英語開源協議:其他 #高清視頻生成 #多精度推理 #大模型優化

下載量 13

發布時間 : 8/28/2024

模型概述

CogVideoX是一個文本生成視頻的模型，能夠根據文本描述生成6秒時長的720x480分辨率視頻，幀率為每秒8幀。

模型特點

高質量視頻生成

5B參數規模提供更高質量的視頻生成效果

多精度支持

支持BF16、FP16、FP32、FP8、INT8等多種推理精度

優化顯存佔用

通過diffusers庫的優化技術降低顯存需求

固定視頻規格

生成6秒時長、720x480分辨率、8fps幀率的視頻

模型能力

文本到視頻生成

創意視頻創作

場景可視化

使用案例

創意內容生成

藝術場景生成

根據詩意描述生成藝術性視頻場景

如花園、暴雨等場景的生動呈現

故事可視化

將文字故事轉化為視頻片段

如宇航員與外星人相遇等場景

教育演示

概念可視化

將抽象概念轉化為直觀視頻

🚀 CogVideoX-5B

CogVideoX-5B是一個開源的視頻生成模型，源自清影。它能根據文本輸入生成高質量的視頻，為視頻創作帶來了新的可能。

📄 中文閱讀 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv

🚀 快速開始

本模型支持使用huggingface diffusers庫進行部署。你可以按照以下步驟進行部署：

建議訪問我們的GitHub，查看相關的提示詞優化和轉換方法，以獲得更好的體驗。

1. 安裝所需依賴

# diffusers>=0.30.1
# transformers>=4.44.2
# accelerate>=0.33.0 (建議從源代碼安裝)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

2. 運行代碼

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

✨ 主要特性

CogVideoX是源自清影的視頻生成模型的開源版本。以下表格展示了我們目前提供的視頻生成模型列表及其基礎信息：

模型名稱	CogVideoX-2B	CogVideoX-5B (本倉庫)
模型描述	入門級模型，兼顧兼容性。運行和二次開發成本低。	更大的模型，具有更高的視頻生成質量和更好的視覺效果。
推理精度	*FP16 (推薦)*，BF16，FP32，FP8，INT8，不支持INT4	BF16 (推薦)，FP16，FP32，FP8*，INT8，不支持INT4
單GPU顯存消耗	FP16：使用 SAT 為18GB / 使用diffusers為12.5GB* INT8：使用diffusers為7.8GB*	BF16：使用 SAT 為26GB / 使用diffusers為20.7GB* INT8：使用diffusers為11.4GB*
多GPU推理顯存消耗	FP16：使用diffusers為10GB*	BF16：使用diffusers為15GB*
推理速度 (步驟 = 50，FP/BF16)	單A100：~90秒單H100：~45秒	單A100：~180秒單H100：~90秒
微調精度	FP16	BF16
微調顯存消耗 (每GPU)	47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT)	63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT)
提示詞語言	英文*	英文*
提示詞長度限制	226 Tokens	226 Tokens
視頻長度	6秒	6秒
幀率	8幀/秒	8幀/秒
視頻分辨率	720 x 480，不支持其他分辨率 (包括微調)	720 x 480，不支持其他分辨率 (包括微調)
位置編碼	3d_sincos_pos_embed	3d_rope_pos_embed

數據說明

使用diffusers庫進行測試時，啟用了enable_model_cpu_offload()選項和pipe.vae.enable_tiling()優化。此解決方案尚未在NVIDIA A100/H100以外的設備上測試實際顯存/內存使用情況。一般來說，該解決方案可適用於所有NVIDIA安培架構及以上的設備。如果禁用優化，顯存使用量將顯著增加，峰值顯存約為表中值的3倍。
進行多GPU推理時，需要禁用enable_model_cpu_offload()優化。
使用INT8模型會導致推理速度降低。這是為了適應顯存較低的GPU，使推理能夠在視頻質量損失最小的情況下正常運行，但推理速度會顯著降低。
2B模型使用FP16精度進行訓練，而5B模型使用BF16精度進行訓練。建議使用模型訓練時使用的精度進行推理。
FP8精度必須在NVIDIA H100及以上設備上使用，需要從源代碼安裝torch、torchao、diffusers和accelerate Python包。建議使用CUDA 12.4。
推理速度測試也使用了上述顯存優化方案。如果不進行顯存優化，推理速度將提高約10%。只有使用diffusers的模型支持量化。

注意事項

使用 SAT 對SAT版本的模型進行推理和微調。歡迎訪問我們的GitHub獲取更多信息。

💻 使用示例

基礎用法

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=49,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

📚 詳細文檔

歡迎訪問我們的github，你將在那裡找到：

更詳細的技術細節和代碼解釋。
提示詞的優化和轉換。
SAT版本模型的推理和微調，甚至預發佈內容。
項目更新日誌動態，更多互動機會。
CogVideoX工具鏈，幫助你更好地使用模型。
INT8模型推理代碼支持。

📄 許可證

本模型根據 CogVideoX LICENSE 發佈。

📚 引用

@article{yang2024cogvideox,
  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
  journal={arXiv preprint arXiv:2408.06072},
  year={2024}
}

🎥 演示展示

Video Gallery with Captions

花園裡，五彩斑斕的蝴蝶在花叢中翩翩起舞，它們輕盈的翅膀在花瓣上投下斑駁的影子。遠處，一座宏偉的噴泉潺潺流淌，那有節奏的水聲宛如一首舒緩的樂章。在一棵高大的樹下，一把孤獨的木椅靜靜佇立，彷彿在邀請人們前來享受這份寧靜，感受大自然的擁抱。

一個小男孩低著頭，臉上寫滿了堅定，在傾盆大雨中奮力奔跑。遠處，閃電劃破長空，雷聲滾滾而來。豆大的雨點砸在地面上，濺起層層水花，彷彿是天空憤怒的宣洩。在遙遠的背景中，一座溫馨的小屋隱隱約約，那是安全和溫暖的象徵，激勵著小男孩勇往直前，不屈不撓地與惡劣的天氣作鬥爭。

在火星那粉紅色的天空下，一位身著宇航服的宇航員伸出手，與一位皮膚閃爍著藍色光芒的外星生物握手。宇航員的靴子上沾滿了火星的紅色塵土，而身後那艘銀色的火箭則是人類智慧的象徵。在這片荒涼而美麗的火星景觀中，這兩位來自不同世界的代表進行了一次歷史性的問候。

一位神情安詳的老人坐在海邊，身旁放著一杯熱氣騰騰的茶。他手持畫筆，專注地在畫布上創作著油畫。畫布靠在一張破舊的小桌子上，海風輕輕拂過他的銀髮，吹動著他寬鬆的白色襯衫。鹹鹹的海風為他的作品增添了一份獨特的韻味，夕陽的餘暉灑在平靜的海面上，畫布上捕捉到了這絢麗的色彩，整個場景充滿了寧靜與靈感。

在一家昏暗的酒吧裡，紫色的燈光灑在一位成熟男人的臉上。他若有所思地眨著眼睛，特寫鏡頭聚焦在他沉思的表情上，背景被巧妙地虛化，營造出一種神秘的氛圍，讓人感受到他內心的思考。

一隻金色的尋回犬戴著時尚的黑色太陽鏡，長長的毛髮在微風中飄動。它歡快地在剛剛被小雨洗禮過的屋頂露臺上奔跑。從遠處看，它越跑越近，尾巴歡快地搖個不停，身後的混凝土上還閃爍著水珠。陰沉的天空為這隻充滿活力的狗狗提供了一個戲劇性的背景，凸顯出它那金色的亮麗毛髮。

在一個陽光明媚的日子裡，湖岸邊排列著一排柳樹，它們細長的枝條在微風中輕輕搖曳。平靜的湖面倒映著湛藍的天空，幾隻優雅的天鵝在水中緩緩遊動，留下一道道細膩的漣漪，打破了湖面如鏡的平靜。整個場景寧靜而美麗，柳樹的綠色枝葉為這些和平的鳥兒提供了一幅如畫的背景。

一位中國母親穿著柔和的 pastel 色長袍，在溫馨的育兒室裡輕輕地搖晃著一把搖椅。昏暗的臥室裡，天花板上懸掛著可愛的嬰兒玩具，它們的影子在牆壁上舞動。她的寶寶裹在一條精緻的圖案毛毯裡，靠在她的胸前。寶寶之前的哭聲已經被滿足的咕咕聲所取代，母親溫柔的聲音漸漸將寶寶哄入夢鄉。空氣中瀰漫著薰衣草的香氣，增添了一份寧靜的氛圍，附近夜燈發出的溫暖橙色光芒照亮了這溫馨的一幕，捕捉到了母愛與安慰的美好瞬間。