🚀 🐱 Pixart-α模型卡片
Pixart-α是一个基于Transformer的潜在扩散模型,可直接根据文本提示在单次采样过程中生成1024px的图像,在图像生成领域具有高效、优质的特点。

✨ 主要特性
高效训练
PixArt-α仅需Stable Diffusion v1.5训练时间的10.8%(675天 vs. 6250天A100 GPU),节省近30万美元(2.6万美元 vs. 32万美元),并减少90%的二氧化碳排放。与更大的SOTA模型RAPHAEL相比,训练成本仅为其1%。

方法 |
类型 |
参数数量 |
图像数量 |
A100 GPU天数 |
DALL·E |
Diff |
12.0B |
1.54B |
|
GLIDE |
Diff |
5.0B |
5.94B |
|
LDM |
Diff |
1.4B |
0.27B |
|
DALL·E 2 |
Diff |
6.5B |
5.63B |
41.66 |
SDv1.5 |
Diff |
0.9B |
3.16B |
6250 |
GigaGAN |
GAN |
0.9B |
0.98B |
4783 |
Imagen |
Diff |
3.0B |
15.36B |
7132 |
RAPHAEL |
Diff |
3.0B |
5.0B |
60000 |
PixArt-α |
Diff |
0.6B |
0.025B |
675 |
优质表现
通过用户偏好评估,Pixart-α基础模型的表现与现有最先进的模型相当,甚至更好。
📦 安装指南
🧨 Diffusers
确保将diffusers
升级到 >= 0.22.0:
pip install -U diffusers --upgrade
此外,确保安装transformers
、safetensors
、sentencepiece
和accelerate
:
pip install transformers accelerate safetensors sentencepiece
💻 使用示例
基础用法
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]
高级用法
当使用torch >= 2.0
时,可通过torch.compile
将推理速度提高20 - 30%。在运行管道之前,用torch.compile
包装unet
:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
如果受GPU显存限制,可以调用pipe.enable_model_cpu_offload
来启用CPU卸载,而不是使用.to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
更多关于如何使用diffusers
调用Pixart-α的信息,请查看Pixart-α文档。
免费Google Colab试用
你可以免费使用Google Colab从PixArt-α生成图像。点击此处尝试。
📚 详细文档
模型详情

Pixart-α由用于潜在扩散的纯Transformer块组成,可直接根据文本提示在单次采样过程中生成1024px的图像。
源代码可在https://github.com/PixArt-alpha/PixArt-alpha获取。
模型描述
模型来源
出于研究目的,我们推荐使用generative-models
的GitHub仓库(https://github.com/PixArt-alpha/PixArt-alpha),它更适合训练和推理,并且随着时间推移会添加更多先进的扩散采样器,如SA-Solver。
Hugging Face提供免费的Pixart-α推理。
- 仓库:https://github.com/PixArt-alpha/PixArt-alpha
- 演示:https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
使用场景
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 生成艺术品并用于设计和其他艺术过程。
- 用于教育或创意工具。
- 生成模型的研究。
- 安全部署可能生成有害内容的模型。
- 探索和理解生成模型的局限性和偏差。
非适用场景
该模型并非用于准确或真实地呈现人物或事件,因此使用该模型生成此类内容超出了其能力范围。
局限性和偏差
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染清晰可读的文本。
- 模型在处理涉及组合性的复杂任务时存在困难,例如渲染与“红色立方体在蓝色球体之上”对应的图像。
- 一般来说,手指等细节可能无法正确生成。
- 模型的自动编码部分存在信息损失。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。
📄 许可证
本模型采用CreativeML Open RAIL++-M License许可证。