Cogvideox1.5 5B I2V
模型简介
CogVideoX 是一个基于图像生成视频的模型,能够根据输入的图像生成高质量的视频内容。
模型特点
高分辨率视频生成
支持生成分辨率高达 1360 * 768 的视频。
多 GPU 支持
支持多 GPU 推理,优化显存使用。
多精度推理
支持 BF16、FP16、FP32、FP8、INT8 等多种精度推理。
模型能力
图像转视频生成
高质量视频合成
多分辨率支持
使用案例
创意内容生成
短视频创作
根据输入的图像生成创意短视频。
生成 5 或 10 秒的视频,帧率为 16 帧/秒。
教育
教学视频生成
根据教学图像生成动态教学视频。
🚀 CogVideoX1.5-5B-I2V
CogVideoX1.5-5B-I2V 是一个开源的视频生成模型,类似于 QingYing,可实现从图像到视频的转换。
📄 中文阅读 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv
🚀 快速开始
这个模型支持使用 Hugging Face diffusers 库进行部署。你可以按照以下步骤开始使用。
我们建议你访问我们的 GitHub 查看提示优化和转换方法,以获得更好的体验。
安装所需依赖
# diffusers (从源代码安装)
# transformers>=4.46.2
# accelerate>=1.1.1
# imageio-ffmpeg>=0.5.1
pip install git+https://github.com/huggingface/diffusers
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
运行代码
import torch
from diffusers import CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
image = load_image(image="input.jpg")
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
"THUDM/CogVideoX1.5-5B-I2V",
torch_dtype=torch.bfloat16
)
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()
video = pipe(
prompt=prompt,
image=image,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=81,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
✨ 主要特性
CogVideoX 是一个类似于 QingYing 的开源视频生成模型。以下表格列出了此版本可用的视频生成模型的相关信息:
属性 | CogVideoX1.5-5B | CogVideoX1.5-5B-I2V (当前仓库) |
---|---|---|
视频分辨率 | 1360 * 768 | Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0 |
推理精度 | BF16 (推荐),FP16,FP32,FP8*,INT8,不支持 INT4 | BF16 (推荐),FP16,FP32,FP8*,INT8,不支持 INT4 |
单 GPU 推理内存消耗 | BF16:至少 9GB* | BF16:至少 9GB* |
多 GPU 推理内存消耗 | BF16:使用 diffusers 时为 24GB* | BF16:使用 diffusers 时为 24GB* |
推理速度 (Step = 50, FP/BF16) |
单 A100:约 1000 秒 (5 秒视频) 单 H100:约 550 秒 (5 秒视频) |
单 A100:约 1000 秒 (5 秒视频) 单 H100:约 550 秒 (5 秒视频) |
提示语言 | 英语* | 英语* |
最大提示长度 | 224 个词元 | 224 个词元 |
视频长度 | 5 或 10 秒 | 5 或 10 秒 |
帧率 | 16 帧/秒 | 16 帧/秒 |
数据说明
- 使用
diffusers
库进行测试时,启用了库中包含的所有优化。此方案尚未在非 NVIDIA A100/H100 设备上进行测试,一般来说,它应该适用于所有 NVIDIA Ampere 架构或更高版本的设备。禁用优化会使显存使用量增加两倍,但速度会提高 3 - 4 倍。你可以选择性地禁用某些优化,包括:
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
- 在多 GPU 推理中,需要禁用
enable_sequential_cpu_offload()
优化。 - 使用 INT8 模型会降低推理速度,在满足较低显存 GPU 要求的同时,视频质量的下降最小,但代价是速度显著降低。
- 可以使用 PytorchAO 和 Optimum-quanto 对文本编码器、Transformer 和 VAE 模块进行量化,从而降低 CogVideoX 的内存需求,使模型能够在显存较小的 GPU 上运行。TorchAO 量化与
torch.compile
完全兼容,可显著提高推理速度。NVIDIA H100 及以上设备需要FP8
精度,这需要从源代码安装torch
、torchao
、diffusers
和accelerate
。建议使用CUDA 12.4
。 - 推理速度测试也使用了上述显存优化,在不进行优化的情况下,速度大约提高 10%。只有
diffusers
版本的模型支持量化。 - 模型仅支持英文输入,在编写提示时,其他语言应使用更大的模型翻译成英文。
注意事项
- 使用 SAT 进行推理和微调 SAT 版本的模型。更多详细信息请查看我们的 GitHub。
💻 使用示例
基础用法
import torch
from diffusers import CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
image = load_image(image="input.jpg")
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
"THUDM/CogVideoX1.5-5B-I2V",
torch_dtype=torch.bfloat16
)
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()
video = pipe(
prompt=prompt,
image=image,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=81,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
量化推理
# 首先,需要从 GitHub 源代码安装 PytorchAO 和 PyTorch Nightly。
# 在下一个版本发布之前,才需要从源代码和 Nightly 版本安装。
import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video, load_image
from transformers import T5EncoderModel
from torchao.quantization import quantize_, int8_weight_only
quantization = int8_weight_only
text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX1.5-5B-I2V", subfolder="text_encoder",
torch_dtype=torch.bfloat16)
quantize_(text_encoder, quantization())
transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX1.5-5B-I2V", subfolder="transformer",
torch_dtype=torch.bfloat16)
quantize_(transformer, quantization())
vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX1.5-5B-I2V", subfolder="vae", torch_dtype=torch.bfloat16)
quantize_(vae, quantization())
# 创建管道并运行推理
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
"THUDM/CogVideoX1.5-5B-I2V",
text_encoder=text_encoder,
transformer=transformer,
vae=vae,
torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()
prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
image = load_image(image="input.jpg")
video = pipe(
prompt=prompt,
image=image,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=81,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
此外,可以使用 PytorchAO 将这些模型序列化为量化数据类型并存储,以节省磁盘空间。你可以在以下链接找到示例和基准测试:
📚 详细文档
你可以随时访问我们的 GitHub,在那里你可以找到:
- 更详细的技术解释和代码。
- 优化的提示示例和转换方法。
- 模型推理和微调的详细代码。
- 项目更新日志和更多互动机会。
- CogVideoX 工具链,帮助你更好地使用模型。
- INT8 模型推理代码。
📄 许可证
此模型根据 CogVideoX 许可证 发布。
引用
@article{yang2024cogvideox,
title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
journal={arXiv preprint arXiv:2408.06072},
year={2024}
}
Cogvideox 5b I2V
其他
CogVideoX是源自清影的开源视频生成模型,本版本为图像转视频专用模型,基于5B参数规模。
图像生成视频 英语
C
THUDM
89.01k
288
Cogvideox1.5 5B I2V
其他
CogVideoX 是一个开源视频生成模型,支持从图像生成视频,类似于清影平台。
图像生成视频 英语
C
THUDM
8,897
102
Hunyuanvideo I2V
其他
混元视频-I2V是一个全新的图像转视频生成框架,基于腾讯混元视频模型扩展,支持从静态图像生成高质量视频内容。
图像生成视频
H
tencent
3,272
305
Muscle
Apache-2.0
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将图像中的人物转换为展示肌肉的视频。
图像生成视频 英语
M
Remade-AI
1,877
9
Princess
Apache-2.0
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将图像中的任何人/物体转化为公主版本
图像生成视频 英语
P
Remade-AI
449
3
Classy
Apache-2.0
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将图像中的任意人物/物体转化为优雅形态的动态视频
图像生成视频 英语
C
Remade-AI
83
3
Cogvideox I2V Locobot
其他
针对THUDM/CogVideoX-5b-I2V训练的LoRA权重,用于图像转视频任务
图像生成视频
C
BelGio13
21
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98