PixArt-LCM-XL-2-1024-MS开源图像生成模型 - 依文本提示快速出高质量图

首页

Pixart LCM XL 2 1024 MS

由 PixArt-alpha 开发

PixArt-LCM是一个基于扩散Transformer的文本到图像生成模型，结合了Pixart-α和LCM的优势，能够根据文本提示快速生成高质量的图像。

图像生成 #快速图像生成 #高分辨率输出 #扩散Transformer

下载量 625

发布时间 : 11/29/2023

模型简介

PixArt-LCM是一个高效的文本到图像生成模型，通过结合Pixart-α和LCM技术，实现了快速且高质量的图像生成。

模型特点

快速生成

在不同硬件上，PixArt-LCM相较于其他模型，在图像生成速度上有显著提升。

高分辨率图像生成

能够在单个采样过程中直接从文本提示生成1024px的图像。

超快速推理

通过LCMs扩散蒸馏方法，实现超快速推理，仅需很少的步骤。

模型能力

文本到图像生成

高质量图像生成

快速推理

使用案例

艺术与设计

艺术品生成

在设计和其他艺术过程中生成创意图像。

生成具有艺术价值的图像

教育与创意工具

教育工具

在教育或创意工具中应用，帮助学生和创作者快速生成视觉内容。

提升学习和创作效率

研究

生成模型研究

用于生成模型的研究和开发。

推动生成模型技术的进步

🚀 Pixart-LCM模型卡

Pixart-LCM是一个基于扩散Transformer的文本到图像生成模型，结合了Pixart-α和LCM的优势，能够根据文本提示快速生成高质量的图像。它在图像生成速度上表现出色，适用于多种研究场景。

🚀 快速开始

安装依赖

确保将diffusers升级到 >= 0.23.0，并安装transformers、safetensors、sentencepiece和accelerate：

pip install -U diffusers --upgrade
pip install transformers accelerate safetensors sentencepiece

使用示例

基础用法

import torch
from diffusers import PixArtAlphaPipeline

# only 1024-MS version is supported for now
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-LCM-XL-2-1024-MS", torch_dtype=torch.float16, use_safetensors=True)

# Enable memory optimizations.
pipe.enable_model_cpu_offload()

prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt, guidance_scale=0., num_inference_steps=4).images[0]

高级用法

当使用torch >= 2.0时，你可以使用torch.compile将推理速度提高20 - 30%。在运行管道之前，用torch.compile包装unet：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

如果你受到GPU显存的限制，可以通过调用pipe.enable_model_cpu_offload来启用CPU卸载，而不是.to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

✨ 主要特性

快速生成

在不同硬件上，PixArt-LCM相较于其他模型，如SDXL LoRA LCM和标准模型，在图像生成速度上有显著提升。以下是不同硬件上的生成速度对比：

硬件	PixArt-LCM (4 steps)	SDXL LoRA LCM (4 steps)	PixArt标准 (14 steps)	SDXL标准 (25 steps)
T4 (Google Colab免费层)	3.3s	8.4s	16.0s	26.5s
A100 (80 GB)	0.51s	1.2s	2.2s	3.8s
V100 (32 GB)	0.8s	1.2s	5.5s	7.7s

直接生成高分辨率图像

Pixart-α由用于潜在扩散的纯Transformer块组成，能够在单个采样过程中直接从文本提示生成1024px的图像。

超快速推理

LCMs是一种扩散蒸馏方法，可直接在潜在空间中预测PF - ODE的解，通过很少的步骤实现超快速推理。

📦 安装指南

升级`diffusers`

pip install -U diffusers --upgrade

安装其他依赖

pip install transformers accelerate safetensors sentencepiece

📚 详细文档

模型描述

属性	详情
开发者	Pixart & LCM团队
模型类型	基于扩散Transformer的文本到图像生成模型
许可证	CreativeML Open RAIL++ - M License
模型描述	这是一个可用于根据文本提示生成和修改图像的模型。它是一个Transformer潜在扩散模型，使用一个固定的预训练文本编码器(T5)和一个潜在特征编码器(VAE)。
更多信息资源	查看我们的Pixart-α、LCM GitHub仓库以及Pixart-α、LCM在arXiv上的报告。