Cogvideox 5b
模型简介
CogVideoX是一个文本生成视频的模型,能够根据文本描述生成6秒时长的720x480分辨率视频,帧率为每秒8帧。
模型特点
高质量视频生成
5B参数规模提供更高质量的视频生成效果
多精度支持
支持BF16、FP16、FP32、FP8、INT8等多种推理精度
优化显存占用
通过diffusers库的优化技术降低显存需求
固定视频规格
生成6秒时长、720x480分辨率、8fps帧率的视频
模型能力
文本到视频生成
创意视频创作
场景可视化
使用案例
创意内容生成
艺术场景生成
根据诗意描述生成艺术性视频场景
如花园、暴雨等场景的生动呈现
故事可视化
将文字故事转化为视频片段
如宇航员与外星人相遇等场景
教育演示
概念可视化
将抽象概念转化为直观视频
🚀 CogVideoX-5B
CogVideoX-5B是一个开源的视频生成模型,源自清影。它能根据文本输入生成高质量的视频,为视频创作带来了新的可能。
📄 中文阅读 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv
🚀 快速开始
本模型支持使用huggingface diffusers库进行部署。你可以按照以下步骤进行部署:
建议访问我们的GitHub,查看相关的提示词优化和转换方法,以获得更好的体验。
1. 安装所需依赖
# diffusers>=0.30.1
# transformers>=4.44.2
# accelerate>=0.33.0 (建议从源代码安装)
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
2. 运行代码
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
✨ 主要特性
CogVideoX是源自清影的视频生成模型的开源版本。以下表格展示了我们目前提供的视频生成模型列表及其基础信息:
模型名称 | CogVideoX-2B | CogVideoX-5B (本仓库) |
---|---|---|
模型描述 | 入门级模型,兼顾兼容性。运行和二次开发成本低。 | 更大的模型,具有更高的视频生成质量和更好的视觉效果。 |
推理精度 | FP16* (推荐),BF16,FP32,FP8*,INT8,不支持INT4 | BF16 (推荐),FP16,FP32,FP8*,INT8,不支持INT4 |
单GPU显存消耗 | FP16:使用 SAT 为18GB / 使用diffusers为12.5GB* INT8:使用diffusers为7.8GB* |
BF16:使用 SAT 为26GB / 使用diffusers为20.7GB* INT8:使用diffusers为11.4GB* |
多GPU推理显存消耗 | FP16:使用diffusers为10GB* | BF16:使用diffusers为15GB* |
推理速度 (步骤 = 50,FP/BF16) |
单A100:~90秒 单H100:~45秒 |
单A100:~180秒 单H100:~90秒 |
微调精度 | FP16 | BF16 |
微调显存消耗 (每GPU) | 47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) |
63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) |
提示词语言 | 英文* | 英文* |
提示词长度限制 | 226 Tokens | 226 Tokens |
视频长度 | 6秒 | 6秒 |
帧率 | 8帧/秒 | 8帧/秒 |
视频分辨率 | 720 x 480,不支持其他分辨率 (包括微调) | 720 x 480,不支持其他分辨率 (包括微调) |
位置编码 | 3d_sincos_pos_embed | 3d_rope_pos_embed |
数据说明
- 使用diffusers库进行测试时,启用了
enable_model_cpu_offload()
选项和pipe.vae.enable_tiling()
优化。此解决方案尚未在NVIDIA A100/H100以外的设备上测试实际显存/内存使用情况。一般来说,该解决方案可适用于所有NVIDIA安培架构及以上的设备。如果禁用优化,显存使用量将显著增加,峰值显存约为表中值的3倍。 - 进行多GPU推理时,需要禁用
enable_model_cpu_offload()
优化。 - 使用INT8模型会导致推理速度降低。这是为了适应显存较低的GPU,使推理能够在视频质量损失最小的情况下正常运行,但推理速度会显著降低。
- 2B模型使用
FP16
精度进行训练,而5B模型使用BF16
精度进行训练。建议使用模型训练时使用的精度进行推理。 FP8
精度必须在NVIDIA H100
及以上设备上使用,需要从源代码安装torch
、torchao
、diffusers
和accelerate
Python包。建议使用CUDA 12.4
。- 推理速度测试也使用了上述显存优化方案。如果不进行显存优化,推理速度将提高约10%。只有使用
diffusers
的模型支持量化。
注意事项
- 使用 SAT 对SAT版本的模型进行推理和微调。欢迎访问我们的GitHub获取更多信息。
💻 使用示例
基础用法
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
📚 详细文档
欢迎访问我们的github,你将在那里找到:
- 更详细的技术细节和代码解释。
- 提示词的优化和转换。
- SAT版本模型的推理和微调,甚至预发布内容。
- 项目更新日志动态,更多互动机会。
- CogVideoX工具链,帮助你更好地使用模型。
- INT8模型推理代码支持。
📄 许可证
本模型根据 CogVideoX LICENSE 发布。
📚 引用
@article{yang2024cogvideox,
title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
journal={arXiv preprint arXiv:2408.06072},
year={2024}
}
🎥 演示展示
花园里,五彩斑斓的蝴蝶在花丛中翩翩起舞,它们轻盈的翅膀在花瓣上投下斑驳的影子。远处,一座宏伟的喷泉潺潺流淌,那有节奏的水声宛如一首舒缓的乐章。在一棵高大的树下,一把孤独的木椅静静伫立,仿佛在邀请人们前来享受这份宁静,感受大自然的拥抱。
一个小男孩低着头,脸上写满了坚定,在倾盆大雨中奋力奔跑。远处,闪电划破长空,雷声滚滚而来。豆大的雨点砸在地面上,溅起层层水花,仿佛是天空愤怒的宣泄。在遥远的背景中,一座温馨的小屋隐隐约约,那是安全和温暖的象征,激励着小男孩勇往直前,不屈不挠地与恶劣的天气作斗争。
在火星那粉红色的天空下,一位身着宇航服的宇航员伸出手,与一位皮肤闪烁着蓝色光芒的外星生物握手。宇航员的靴子上沾满了火星的红色尘土,而身后那艘银色的火箭则是人类智慧的象征。在这片荒凉而美丽的火星景观中,这两位来自不同世界的代表进行了一次历史性的问候。
一位神情安详的老人坐在海边,身旁放着一杯热气腾腾的茶。他手持画笔,专注地在画布上创作着油画。画布靠在一张破旧的小桌子上,海风轻轻拂过他的银发,吹动着他宽松的白色衬衫。咸咸的海风为他的作品增添了一份独特的韵味,夕阳的余晖洒在平静的海面上,画布上捕捉到了这绚丽的色彩,整个场景充满了宁静与灵感。
在一家昏暗的酒吧里,紫色的灯光洒在一位成熟男人的脸上。他若有所思地眨着眼睛,特写镜头聚焦在他沉思的表情上,背景被巧妙地虚化,营造出一种神秘的氛围,让人感受到他内心的思考。
一只金色的寻回犬戴着时尚的黑色太阳镜,长长的毛发在微风中飘动。它欢快地在刚刚被小雨洗礼过的屋顶露台上奔跑。从远处看,它越跑越近,尾巴欢快地摇个不停,身后的混凝土上还闪烁着水珠。阴沉的天空为这只充满活力的狗狗提供了一个戏剧性的背景,凸显出它那金色的亮丽毛发。
在一个阳光明媚的日子里,湖岸边排列着一排柳树,它们细长的枝条在微风中轻轻摇曳。平静的湖面倒映着湛蓝的天空,几只优雅的天鹅在水中缓缓游动,留下一道道细腻的涟漪,打破了湖面如镜的平静。整个场景宁静而美丽,柳树的绿色枝叶为这些和平的鸟儿提供了一幅如画的背景。
一位中国母亲穿着柔和的 pastel 色长袍,在温馨的育儿室里轻轻地摇晃着一把摇椅。昏暗的卧室里,天花板上悬挂着可爱的婴儿玩具,它们的影子在墙壁上舞动。她的宝宝裹在一条精致的图案毛毯里,靠在她的胸前。宝宝之前的哭声已经被满足的咕咕声所取代,母亲温柔的声音渐渐将宝宝哄入梦乡。空气中弥漫着薰衣草的香气,增添了一份宁静的氛围,附近夜灯发出的温暖橙色光芒照亮了这温馨的一幕,捕捉到了母爱与安慰的美好瞬间。
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers 英语

X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频 英语
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用于文本到视频的生成任务。
文本生成视频
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频 英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频 英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers 英语

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频 支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频 支持多种语言
W
Wan-AI
44.88k
1,238
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98