CogVideoX1.5 - 5B開源視頻生成模型，免費支持高分辨率視頻生成

首頁

Cogvideox1.5 5B

由THUDM開發

CogVideoX 是一個類似於清影的開源視頻生成模型，支持高分辨率視頻生成

文本生成視頻英語開源協議:其他 #高清視頻生成 #多幀率支持 #多GPU優化

下載量 11.12k

發布時間 : 11/2/2024

模型概述

CogVideoX 是一個先進的視頻生成模型，能夠根據文本提示生成高質量的視頻內容。該模型支持高分辨率視頻生成（1360x768），並能夠生成5秒或10秒的視頻。

模型特點

高分辨率視頻生成

支持生成1360x768分辨率的高質量視頻

靈活的視頻時長控制

可以生成5秒或10秒的視頻，幀率為16幀/秒

多精度支持

支持BF16、FP16、FP32、FP8*、INT8等多種推理精度

高效推理優化

通過diffusers庫實現顯存優化，最低可在10GB顯存的GPU上運行

模型能力

文本到視頻生成

高分辨率視頻生成

多時長視頻生成

使用案例

創意內容生成

短視頻創作

根據文本提示快速生成創意短視頻內容

生成5-10秒的高質量視頻

教育

教學視頻生成

根據教學內容自動生成輔助視頻

🚀 CogVideoX1.5-5B

CogVideoX1.5-5B是一個開源視頻生成模型，類似於QingYing。它可以根據文本輸入生成高質量的視頻，為視頻創作帶來了新的可能性。

📄 中文閱讀 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv

📍 訪問 QingYing 和 API平臺體驗更大規模的商業視頻生成模型。

✨ 主要特性

CogVideoX是一個類似於QingYing的開源視頻生成模型。以下表格展示了我們目前提供的視頻生成模型列表及其基礎信息。

屬性	詳情
模型類型	視頻生成模型
支持語言	英文
推理精度	BF16 (推薦)、FP16、FP32、FP8*、INT8，不支持：INT4
單GPU內存使用	不同模型和精度下有所不同，如CogVideoX1.5-5B使用diffusers BF16時從10GB*起
多GPU內存使用	不同模型和精度下有所不同，如CogVideoX1.5-5B使用diffusers BF16時為24GB*
推理速度	不同模型和硬件下有所不同，如CogVideoX1.5-5B單A100約1000秒（5秒視頻）
提示語言	英文*
提示令牌限制	不同模型有所不同，如CogVideoX1.5-5B為224 Tokens
視頻長度	不同模型有所不同，如CogVideoX1.5-5B為5秒或10秒
幀率	不同模型有所不同，如CogVideoX1.5-5B為16幀/秒
位置編碼	不同模型有所不同，如CogVideoX1.5-5B為3d_rope_pos_embed
下載鏈接 (Diffusers)	多個平臺，如HuggingFace、ModelScope、WiseModel
下載鏈接 (SAT)	多個平臺，如HuggingFace、ModelScope、WiseModel

數據說明

使用diffusers庫進行測試時，啟用了庫中包含的所有優化。此方案尚未在非NVIDIA A100/H100設備上進行測試，通常應適用於所有NVIDIA安培架構或更高版本的設備。禁用優化會使VRAM使用量增加兩倍，但速度會提高3 - 4倍。您可以選擇性地禁用某些優化，包括：

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

在多GPU推理中，需要禁用enable_sequential_cpu_offload()優化。
使用INT8模型會降低推理速度，在滿足較低VRAM GPU要求的同時，視頻質量的下降最小，但代價是速度顯著降低。
可以使用PytorchAO和[Optimum - quanto](https://github.com/huggingface/optimum - quanto/)對文本編碼器、Transformer和VAE模塊進行量化，降低CogVideoX的內存要求，使模型能夠在較小VRAM的GPU上運行。TorchAO量化與torch.compile完全兼容，可顯著提高推理速度。NVIDIA H100及以上設備需要FP8精度，這需要從源代碼安裝torch、torchao、diffusers和accelerate。建議使用CUDA 12.4。
推理速度測試也使用了上述VRAM優化，不進行優化時，速度大約提高10%。只有diffusers版本的模型支持量化。
模型僅支持英文輸入，在編寫提示時，其他語言應使用更大的模型翻譯成英文。

注意事項

使用SAT對SAT版本的模型進行推理和微調。更多詳細信息請查看我們的GitHub。

🚀 快速開始

本模型支持使用Hugging Face diffusers庫進行部署。您可以按照以下步驟開始使用。

我們建議您訪問我們的GitHub查看提示優化和轉換，以獲得更好的體驗。

📦 安裝指南

安裝所需的依賴項：

# diffusers (from source)
# transformers>=4.46.2
# accelerate>=1.1.1
# imageio-ffmpeg>=0.5.1
pip install git+https://github.com/huggingface/diffusers
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

💻 使用示例

基礎用法

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX1.5-5B",
    torch_dtype=torch.bfloat16
)

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=81,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

高級用法

# 使用PytorchAO和Optimum-quanto進行量化推理
# 開始前，需要從GitHub源代碼安裝PytorchAO和PyTorch Nightly。
# 在下一個版本發佈之前，才需要進行源代碼和夜間版本的安裝。

import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video
from transformers import T5EncoderModel
from torchao.quantization import quantize_, int8_weight_only

quantization = int8_weight_only

text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="text_encoder",
                                              torch_dtype=torch.bfloat16)
quantize_(text_encoder, quantization())

transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="transformer",
                                                          torch_dtype=torch.bfloat16)
quantize_(transformer, quantization())

vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="vae", torch_dtype=torch.bfloat16)
quantize_(vae, quantization())

# 創建管道並運行推理
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
    "THUDM/CogVideoX1.5-5B",
    text_encoder=text_encoder,
    transformer=transformer,
    vae=vae,
    torch_dtype=torch.bfloat16,
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()

prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=81,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

此外，這些模型可以使用PytorchAO以量化數據類型進行序列化和存儲，以節省磁盤空間。您可以在以下鏈接找到示例和基準測試：

📚 詳細文檔

您可以隨時訪問我們的GitHub，在那裡您將找到：

更詳細的技術解釋和代碼。
優化的提示示例和轉換。
模型推理和微調的詳細代碼。
項目更新日誌和更多互動機會。
CogVideoX工具鏈，幫助您更好地使用模型。
INT8模型推理代碼。

📄 許可證

本模型根據CogVideoX LICENSE發佈。

引用

@article{yang2024cogvideox,
  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
  journal={arXiv preprint arXiv:2408.06072},
  year={2024}
}