CogVideoX1.5-5B-I2V开源视频生成模型 - 支持图像一键转化生成视频

首页

Cogvideox1.5 5B I2V

由 THUDM 开发

CogVideoX 是一个开源视频生成模型，支持从图像生成视频，类似于清影平台。

图像生成视频英语开源协议:其他 #高分辨率视频生成 #图像转视频 #多帧率支持

下载量 8,897

发布时间 : 11/2/2024

模型简介

CogVideoX 是一个基于图像生成视频的模型，能够根据输入的图像生成高质量的视频内容。

模型特点

高分辨率视频生成

支持生成分辨率高达 1360 * 768 的视频。

多 GPU 支持

支持多 GPU 推理，优化显存使用。

多精度推理

支持 BF16、FP16、FP32、FP8、INT8 等多种精度推理。

模型能力

图像转视频生成

高质量视频合成

多分辨率支持

使用案例

创意内容生成

短视频创作

根据输入的图像生成创意短视频。

生成 5 或 10 秒的视频，帧率为 16 帧/秒。

教育

教学视频生成

根据教学图像生成动态教学视频。

🚀 CogVideoX1.5-5B-I2V

CogVideoX1.5-5B-I2V 是一个开源的视频生成模型，类似于 QingYing，可实现从图像到视频的转换。

📄 中文阅读 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv

📍 访问清影和 API 平台体验商业视频生成模型

🚀 快速开始

这个模型支持使用 Hugging Face diffusers 库进行部署。你可以按照以下步骤开始使用。

我们建议你访问我们的 GitHub 查看提示优化和转换方法，以获得更好的体验。

安装所需依赖

# diffusers (从源代码安装)
# transformers>=4.46.2
# accelerate>=1.1.1
# imageio-ffmpeg>=0.5.1
pip install git+https://github.com/huggingface/diffusers
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

运行代码

import torch
from diffusers import CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image

prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
image = load_image(image="input.jpg")
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
    "THUDM/CogVideoX1.5-5B-I2V",
    torch_dtype=torch.bfloat16
)

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()

video = pipe(
    prompt=prompt,
    image=image,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=81,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

✨ 主要特性

CogVideoX 是一个类似于 QingYing 的开源视频生成模型。以下表格列出了此版本可用的视频生成模型的相关信息：

属性	CogVideoX1.5-5B	CogVideoX1.5-5B-I2V (当前仓库)
视频分辨率	1360 * 768	Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0
推理精度	BF16 (推荐)，FP16，FP32，FP8*，INT8，不支持 INT4	BF16 (推荐)，FP16，FP32，FP8*，INT8，不支持 INT4
单 GPU 推理内存消耗	BF16：至少 9GB*	BF16：至少 9GB*
多 GPU 推理内存消耗	BF16：使用 diffusers 时为 24GB*	BF16：使用 diffusers 时为 24GB*
推理速度 (Step = 50, FP/BF16)	单 A100：约 1000 秒 (5 秒视频) 单 H100：约 550 秒 (5 秒视频)	单 A100：约 1000 秒 (5 秒视频) 单 H100：约 550 秒 (5 秒视频)
提示语言	英语*	英语*
最大提示长度	224 个词元	224 个词元
视频长度	5 或 10 秒	5 或 10 秒
帧率	16 帧/秒	16 帧/秒

数据说明

使用 diffusers 库进行测试时，启用了库中包含的所有优化。此方案尚未在非 NVIDIA A100/H100 设备上进行测试，一般来说，它应该适用于所有 NVIDIA Ampere 架构或更高版本的设备。禁用优化会使显存使用量增加两倍，但速度会提高 3 - 4 倍。你可以选择性地禁用某些优化，包括：

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

在多 GPU 推理中，需要禁用 enable_sequential_cpu_offload() 优化。
使用 INT8 模型会降低推理速度，在满足较低显存 GPU 要求的同时，视频质量的下降最小，但代价是速度显著降低。
可以使用 PytorchAO 和 Optimum-quanto 对文本编码器、Transformer 和 VAE 模块进行量化，从而降低 CogVideoX 的内存需求，使模型能够在显存较小的 GPU 上运行。TorchAO 量化与 torch.compile 完全兼容，可显著提高推理速度。NVIDIA H100 及以上设备需要 FP8 精度，这需要从源代码安装 torch、torchao、diffusers 和 accelerate。建议使用 CUDA 12.4。
推理速度测试也使用了上述显存优化，在不进行优化的情况下，速度大约提高 10%。只有 diffusers 版本的模型支持量化。
模型仅支持英文输入，在编写提示时，其他语言应使用更大的模型翻译成英文。

注意事项

使用 SAT 进行推理和微调 SAT 版本的模型。更多详细信息请查看我们的 GitHub。

💻 使用示例

基础用法

import torch
from diffusers import CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image

prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
image = load_image(image="input.jpg")
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
    "THUDM/CogVideoX1.5-5B-I2V",
    torch_dtype=torch.bfloat16
)

pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()

video = pipe(
    prompt=prompt,
    image=image,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=81,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

量化推理

# 首先，需要从 GitHub 源代码安装 PytorchAO 和 PyTorch Nightly。
# 在下一个版本发布之前，才需要从源代码和 Nightly 版本安装。

import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
from transformers import T5EncoderModel
from torchao.quantization import quantize_, int8_weight_only

quantization = int8_weight_only

text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX1.5-5B-I2V", subfolder="text_encoder",
                                              torch_dtype=torch.bfloat16)
quantize_(text_encoder, quantization())

transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX1.5-5B-I2V", subfolder="transformer",
                                                          torch_dtype=torch.bfloat16)
quantize_(transformer, quantization())

vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX1.5-5B-I2V", subfolder="vae", torch_dtype=torch.bfloat16)
quantize_(vae, quantization())

# 创建管道并运行推理
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
    "THUDM/CogVideoX1.5-5B-I2V",
    text_encoder=text_encoder,
    transformer=transformer,
    vae=vae,
    torch_dtype=torch.bfloat16,
)

pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()

prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
image = load_image(image="input.jpg")
video = pipe(
    prompt=prompt,
    image=image,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=81,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

export_to_video(video, "output.mp4", fps=8)

此外，可以使用 PytorchAO 将这些模型序列化为量化数据类型并存储，以节省磁盘空间。你可以在以下链接找到示例和基准测试：

📚 详细文档

你可以随时访问我们的 GitHub，在那里你可以找到：

更详细的技术解释和代码。
优化的提示示例和转换方法。
模型推理和微调的详细代码。
项目更新日志和更多互动机会。
CogVideoX 工具链，帮助你更好地使用模型。
INT8 模型推理代码。

📄 许可证

此模型根据 CogVideoX 许可证发布。

引用

@article{yang2024cogvideox,
  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
  journal={arXiv preprint arXiv:2408.06072},
  year={2024}
}