PixArt-XL-2-1024-MS开源图像生成模型 - 低成本生成1024像素高质量图像

首页

Pixart XL 2 1024 MS

由 PixArt-alpha 开发

Pixart-α是基于Transformer架构的高效文本生成图像模型，能以极低训练成本生成1024像素高质量图像

图像生成 #高效文本生成图像 #Transformer扩散模型 #低成本训练

下载量 119.36k

发布时间 : 11/4/2023

模型简介

采用纯Transformer模块构建的潜在扩散模型，可直接通过文本提示生成高分辨率图像，训练效率显著优于同类模型

模型特点

超高训练效率

仅需SDv1.5 10.8%的训练成本（675 A100 GPU天），节省90%碳排放

单阶段高分辨率生成

直接生成1024px图像，无需多阶段处理

Transformer架构

纯Transformer模块构建，支持高效并行计算

开源生态

完整代码开源，集成Diffusers库，支持HuggingFace/Colab体验

模型能力

文本生成图像

高分辨率图像生成

艺术风格创作

概念可视化

使用案例

创意设计

艺术创作辅助

根据文字描述快速生成概念草图

加速设计流程，激发创作灵感

教育可视化

生成教学用示意图

复杂概念的直观呈现

技术研究

生成模型研究

高效扩散模型架构探索

提供低成本研究基准

🚀 🐱 Pixart-α模型卡片

Pixart-α是一个基于Transformer的潜在扩散模型，可直接根据文本提示在单次采样过程中生成1024px的图像，在图像生成领域具有高效、优质的特点。

row01

✨ 主要特性

高效训练

PixArt-α仅需Stable Diffusion v1.5训练时间的10.8%（675天 vs. 6250天A100 GPU），节省近30万美元（2.6万美元 vs. 32万美元），并减少90%的二氧化碳排放。与更大的SOTA模型RAPHAEL相比，训练成本仅为其1%。 Training Efficiency.

方法	类型	参数数量	图像数量	A100 GPU天数
DALL·E	Diff	12.0B	1.54B
GLIDE	Diff	5.0B	5.94B
LDM	Diff	1.4B	0.27B
DALL·E 2	Diff	6.5B	5.63B	41.66
SDv1.5	Diff	0.9B	3.16B	6250
GigaGAN	GAN	0.9B	0.98B	4783
Imagen	Diff	3.0B	15.36B	7132
RAPHAEL	Diff	3.0B	5.0B	60000
PixArt-α	Diff	0.6B	0.025B	675

优质表现

comparison 通过用户偏好评估，Pixart-α基础模型的表现与现有最先进的模型相当，甚至更好。

📦 安装指南

🧨 Diffusers

确保将diffusers升级到 >= 0.22.0：

pip install -U diffusers --upgrade

此外，确保安装transformers、safetensors、sentencepiece和accelerate：

pip install transformers accelerate safetensors sentencepiece

💻 使用示例

基础用法

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]

高级用法

当使用torch >= 2.0时，可通过torch.compile将推理速度提高20 - 30%。在运行管道之前，用torch.compile包装unet：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

如果受GPU显存限制，可以调用pipe.enable_model_cpu_offload来启用CPU卸载，而不是使用.to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多关于如何使用diffusers调用Pixart-α的信息，请查看Pixart-α文档。

免费Google Colab试用

你可以免费使用Google Colab从PixArt-α生成图像。点击此处尝试。

📚 详细文档

模型详情

pipeline

Pixart-α由用于潜在扩散的纯Transformer块组成，可直接根据文本提示在单次采样过程中生成1024px的图像。

源代码可在https://github.com/PixArt-alpha/PixArt-alpha获取。

模型描述

属性	详情
开发者	Pixart-α
模型类型	基于扩散Transformer的文本到图像生成模型
许可证	CreativeML Open RAIL++-M许可证
模型说明	这是一个可根据文本提示生成和修改图像的模型。它是一个Transformer潜在扩散模型，使用一个固定的预训练文本编码器（T5）和一个潜在特征编码器（VAE）。
更多信息资源	查看我们的GitHub仓库和Pixart-α的arXiv报告。

模型来源

出于研究目的，我们推荐使用generative-models的GitHub仓库（https://github.com/PixArt-alpha/PixArt-alpha），它更适合训练和推理，并且随着时间推移会添加更多先进的扩散采样器，如SA-Solver。 Hugging Face提供免费的Pixart-α推理。