🚀 🐱 Pixart-α 模型介绍
Pixart-α 是一款基于扩散变换器的文本到图像生成模型,能根据文本提示直接生成 1024px 的图像。它在训练效率上表现出色,成本低且环保,生成效果与现有先进模型相当甚至更优。
🚀 快速开始
安装依赖
确保将 diffusers
升级到 >= 0.22.0:
pip install -U diffusers --upgrade
此外,确保安装 transformers
、safetensors
、sentencepiece
和 accelerate
:
pip install transformers accelerate safetensors
使用基础模型
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]
提升推理速度
当使用 torch >= 2.0
时,可以通过 torch.compile
提升 20 - 30% 的推理速度。在运行管道之前,用 torch.compile
包装 unet
:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
处理 GPU 显存限制
如果受限于 GPU 显存,可以调用 pipe.enable_model_cpu_offload
而不是 .to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
更多关于如何使用 diffusers
调用 Pixart-α 的信息,请查看 Pixart-α 文档。
免费试用
你可以使用 Google Colab 免费试用 Pixart-α 生成图像,点击 此处 尝试。
✨ 主要特性
高效训练
PixArt-α 仅需 Stable Diffusion v1.5 训练时间的 10.8%(675 天 vs. 6,250 天 A100 GPU 计算时间),节省近 30 万美元(2.6 万美元 vs. 32 万美元),并减少 90% 的二氧化碳排放。与更大的 SOTA 模型 RAPHAEL 相比,训练成本仅为其 1%。

方法 |
类型 |
参数数量 |
图像数量 |
A100 GPU 天数 |
DALL·E |
扩散模型 |
120 亿 |
154 亿 |
|
GLIDE |
扩散模型 |
50 亿 |
594 亿 |
|
LDM |
扩散模型 |
14 亿 |
27 亿 |
|
DALL·E 2 |
扩散模型 |
65 亿 |
563 亿 |
4166 |
SDv1.5 |
扩散模型 |
9 亿 |
316 亿 |
6250 |
GigaGAN |
GAN |
9 亿 |
98 亿 |
4783 |
Imagen |
扩散模型 |
30 亿 |
1536 亿 |
7132 |
RAPHAEL |
扩散模型 |
30 亿 |
50 亿 |
60000 |
PixArt-α |
扩散模型 |
6 亿 |
2500 万 |
675 |
优质生成效果
上图展示了用户对 Pixart-α 相对于 SDXL 0.9、Stable Diffusion 2、DALLE - 2 和 DeepFloyd 的偏好评估。Pixart-α 基础模型的表现与现有先进模型相当甚至更优。
📦 模型信息
模型概述

Pixart-α 由纯变换器块组成,用于潜在扩散:它可以在单次采样过程中直接从文本提示生成 1024px 的图像。
源代码可在 https://github.com/PixArt-alpha/PixArt-alpha 获取。
模型详情
模型来源
出于研究目的,我们推荐使用 generative - models
GitHub 仓库 (https://github.com/PixArt-alpha/PixArt-alpha),它更适合训练和推理,并且随着时间推移会添加更多先进的扩散采样器,如 SA - Solver。
Hugging Face 提供免费的 Pixart-α 推理服务。
- 仓库地址:https://github.com/PixArt-alpha/PixArt-alpha
- 演示地址:https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
📚 使用说明
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 艺术品生成,并应用于设计和其他艺术过程。
- 教育或创意工具中的应用。
- 生成模型的研究。
- 对可能生成有害内容的模型进行安全部署。
- 探究和理解生成模型的局限性和偏差。
超出适用范围的使用
该模型并非用于真实、准确地呈现人物或事件,因此使用该模型生成此类内容超出了其能力范围。
🔧 局限性和偏差
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染清晰可读的文本。
- 模型在处理涉及组合性的复杂任务时存在困难,例如渲染与 “一个红色立方体放在蓝色球体上” 对应的图像。
- 一般来说,手指等细节可能无法正确生成。
- 模型的自动编码部分存在信息损失。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。
📄 许可证
本模型采用 CreativeML Open RAIL++ - M 许可证。