Cogvideox1.5 5B
模型概述
CogVideoX 是一個先進的視頻生成模型,能夠根據文本提示生成高質量的視頻內容。該模型支持高分辨率視頻生成(1360x768),並能夠生成5秒或10秒的視頻。
模型特點
高分辨率視頻生成
支持生成1360x768分辨率的高質量視頻
靈活的視頻時長控制
可以生成5秒或10秒的視頻,幀率為16幀/秒
多精度支持
支持BF16、FP16、FP32、FP8*、INT8等多種推理精度
高效推理優化
通過diffusers庫實現顯存優化,最低可在10GB顯存的GPU上運行
模型能力
文本到視頻生成
高分辨率視頻生成
多時長視頻生成
使用案例
創意內容生成
短視頻創作
根據文本提示快速生成創意短視頻內容
生成5-10秒的高質量視頻
教育
教學視頻生成
根據教學內容自動生成輔助視頻
🚀 CogVideoX1.5-5B
CogVideoX1.5-5B是一個開源視頻生成模型,類似於QingYing。它可以根據文本輸入生成高質量的視頻,為視頻創作帶來了新的可能性。
📄 中文閱讀 | 🤗 Huggingface Space | 🌐 Github | 📜 arxiv
📍 訪問 QingYing 和 API平臺 體驗更大規模的商業視頻生成模型。
✨ 主要特性
CogVideoX是一個類似於QingYing的開源視頻生成模型。以下表格展示了我們目前提供的視頻生成模型列表及其基礎信息。
屬性 | 詳情 |
---|---|
模型類型 | 視頻生成模型 |
支持語言 | 英文 |
推理精度 | BF16 (推薦)、FP16、FP32、FP8*、INT8,不支持:INT4 |
單GPU內存使用 | 不同模型和精度下有所不同,如CogVideoX1.5-5B使用diffusers BF16時從10GB*起 |
多GPU內存使用 | 不同模型和精度下有所不同,如CogVideoX1.5-5B使用diffusers BF16時為24GB* |
推理速度 | 不同模型和硬件下有所不同,如CogVideoX1.5-5B單A100約1000秒(5秒視頻) |
提示語言 | 英文* |
提示令牌限制 | 不同模型有所不同,如CogVideoX1.5-5B為224 Tokens |
視頻長度 | 不同模型有所不同,如CogVideoX1.5-5B為5秒或10秒 |
幀率 | 不同模型有所不同,如CogVideoX1.5-5B為16幀/秒 |
位置編碼 | 不同模型有所不同,如CogVideoX1.5-5B為3d_rope_pos_embed |
下載鏈接 (Diffusers) | 多個平臺,如HuggingFace、ModelScope、WiseModel |
下載鏈接 (SAT) | 多個平臺,如HuggingFace、ModelScope、WiseModel |
數據說明
- 使用
diffusers
庫進行測試時,啟用了庫中包含的所有優化。此方案尚未在非NVIDIA A100/H100設備上進行測試,通常應適用於所有NVIDIA安培架構或更高版本的設備。禁用優化會使VRAM使用量增加兩倍,但速度會提高3 - 4倍。您可以選擇性地禁用某些優化,包括:
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
- 在多GPU推理中,需要禁用
enable_sequential_cpu_offload()
優化。 - 使用INT8模型會降低推理速度,在滿足較低VRAM GPU要求的同時,視頻質量的下降最小,但代價是速度顯著降低。
- 可以使用PytorchAO和[Optimum - quanto](https://github.com/huggingface/optimum - quanto/)對文本編碼器、Transformer和VAE模塊進行量化,降低CogVideoX的內存要求,使模型能夠在較小VRAM的GPU上運行。TorchAO量化與
torch.compile
完全兼容,可顯著提高推理速度。NVIDIA H100及以上設備需要FP8
精度,這需要從源代碼安裝torch
、torchao
、diffusers
和accelerate
。建議使用CUDA 12.4
。 - 推理速度測試也使用了上述VRAM優化,不進行優化時,速度大約提高10%。只有
diffusers
版本的模型支持量化。 - 模型僅支持英文輸入,在編寫提示時,其他語言應使用更大的模型翻譯成英文。
注意事項
- 使用SAT對SAT版本的模型進行推理和微調。更多詳細信息請查看我們的GitHub。
🚀 快速開始
本模型支持使用Hugging Face diffusers庫進行部署。您可以按照以下步驟開始使用。
我們建議您訪問我們的GitHub查看提示優化和轉換,以獲得更好的體驗。
📦 安裝指南
安裝所需的依賴項:
# diffusers (from source)
# transformers>=4.46.2
# accelerate>=1.1.1
# imageio-ffmpeg>=0.5.1
pip install git+https://github.com/huggingface/diffusers
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg
💻 使用示例
基礎用法
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX1.5-5B",
torch_dtype=torch.bfloat16
)
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=81,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
高級用法
# 使用PytorchAO和Optimum-quanto進行量化推理
# 開始前,需要從GitHub源代碼安裝PytorchAO和PyTorch Nightly。
# 在下一個版本發佈之前,才需要進行源代碼和夜間版本的安裝。
import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video
from transformers import T5EncoderModel
from torchao.quantization import quantize_, int8_weight_only
quantization = int8_weight_only
text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="text_encoder",
torch_dtype=torch.bfloat16)
quantize_(text_encoder, quantization())
transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="transformer",
torch_dtype=torch.bfloat16)
quantize_(transformer, quantization())
vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="vae", torch_dtype=torch.bfloat16)
quantize_(vae, quantization())
# 創建管道並運行推理
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
"THUDM/CogVideoX1.5-5B",
text_encoder=text_encoder,
transformer=transformer,
vae=vae,
torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()
prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=81,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)
此外,這些模型可以使用PytorchAO以量化數據類型進行序列化和存儲,以節省磁盤空間。您可以在以下鏈接找到示例和基準測試:
📚 詳細文檔
您可以隨時訪問我們的GitHub,在那裡您將找到:
- 更詳細的技術解釋和代碼。
- 優化的提示示例和轉換。
- 模型推理和微調的詳細代碼。
- 項目更新日誌和更多互動機會。
- CogVideoX工具鏈,幫助您更好地使用模型。
- INT8模型推理代碼。
📄 許可證
本模型根據CogVideoX LICENSE發佈。
引用
@article{yang2024cogvideox,
title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
journal={arXiv preprint arXiv:2408.06072},
year={2024}
}
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98