🚀 Pixart-LCM模型卡
Pixart-LCM是一个基于扩散Transformer的文本到图像生成模型,结合了Pixart-α和LCM的优势,能够根据文本提示快速生成高质量的图像。它在图像生成速度上表现出色,适用于多种研究场景。
🚀 快速开始
安装依赖
确保将diffusers
升级到 >= 0.23.0,并安装transformers
、safetensors
、sentencepiece
和accelerate
:
pip install -U diffusers --upgrade
pip install transformers accelerate safetensors sentencepiece
使用示例
基础用法
import torch
from diffusers import PixArtAlphaPipeline
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-LCM-XL-2-1024-MS", torch_dtype=torch.float16, use_safetensors=True)
pipe.enable_model_cpu_offload()
prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt, guidance_scale=0., num_inference_steps=4).images[0]
高级用法
当使用torch >= 2.0
时,你可以使用torch.compile
将推理速度提高20 - 30%。在运行管道之前,用torch.compile
包装unet
:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
如果你受到GPU显存的限制,可以通过调用pipe.enable_model_cpu_offload
来启用CPU卸载,而不是.to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
✨ 主要特性
快速生成
在不同硬件上,PixArt-LCM相较于其他模型,如SDXL LoRA LCM和标准模型,在图像生成速度上有显著提升。以下是不同硬件上的生成速度对比:
硬件 |
PixArt-LCM (4 steps) |
SDXL LoRA LCM (4 steps) |
PixArt标准 (14 steps) |
SDXL标准 (25 steps) |
T4 (Google Colab免费层) |
3.3s |
8.4s |
16.0s |
26.5s |
A100 (80 GB) |
0.51s |
1.2s |
2.2s |
3.8s |
V100 (32 GB) |
0.8s |
1.2s |
5.5s |
7.7s |
直接生成高分辨率图像
Pixart-α由用于潜在扩散的纯Transformer块组成,能够在单个采样过程中直接从文本提示生成1024px的图像。
超快速推理
LCMs是一种扩散蒸馏方法,可直接在潜在空间中预测PF - ODE的解,通过很少的步骤实现超快速推理。
📦 安装指南
升级diffusers
pip install -U diffusers --upgrade
安装其他依赖
pip install transformers accelerate safetensors sentencepiece
📚 详细文档
模型描述
模型来源
- 研究用途:推荐使用我们的
generative - models
GitHub仓库(https://github.com/PixArt-alpha/PixArt-alpha),它更适合开发训练和推理设计。
- 演示:Hugging Face提供免费的Pixart - LCM推理。
Diffusers使用
diffusers
的使用与基础模型Pixart-α完全相同。有关如何使用diffusers
与Pixart-α的更多信息,请查看Pixart-α文档。
🔧 技术细节
模型架构

推理优化
当使用torch >= 2.0
时,通过torch.compile
可以将推理速度提高20 - 30%。如果受到GPU显存限制,可以使用CPU卸载来减少显存使用。
📄 许可证
本模型使用CreativeML Open RAIL++ - M License。
🔍 使用说明
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 艺术品生成以及在设计和其他艺术过程中的应用。
- 教育或创意工具中的应用。
- 生成模型的研究。
- 对有潜在生成有害内容能力的模型进行安全部署。
- 探索和理解生成模型的局限性和偏差。
超出范围的使用
该模型未经过训练以真实地表示人物或事件,因此使用该模型生成此类内容超出了其能力范围。
⚠️ 局限性和偏差
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染清晰可读的文本。
- 模型在处理涉及组合性的更复杂任务时存在困难,例如渲染对应于“一个红色立方体在蓝色球体上”的图像。
- 一般情况下,手指等细节可能无法正确生成。
- 模型的自动编码部分存在信息损失。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。