PixArt-LCM-XL-2-1024-MS開源圖像生成模型 - 依文本提示快速出高質量圖

首頁

Pixart LCM XL 2 1024 MS

由PixArt-alpha開發

PixArt-LCM是一個基於擴散Transformer的文本到圖像生成模型，結合了Pixart-α和LCM的優勢，能夠根據文本提示快速生成高質量的圖像。

圖像生成 #快速圖像生成 #高分辨率輸出 #擴散Transformer

下載量 625

發布時間 : 11/29/2023

模型概述

PixArt-LCM是一個高效的文本到圖像生成模型，通過結合Pixart-α和LCM技術，實現了快速且高質量的圖像生成。

模型特點

快速生成

在不同硬件上，PixArt-LCM相較於其他模型，在圖像生成速度上有顯著提升。

高分辨率圖像生成

能夠在單個採樣過程中直接從文本提示生成1024px的圖像。

超快速推理

通過LCMs擴散蒸餾方法，實現超快速推理，僅需很少的步驟。

模型能力

文本到圖像生成

高質量圖像生成

快速推理

使用案例

藝術與設計

藝術品生成

在設計和其他藝術過程中生成創意圖像。

生成具有藝術價值的圖像

教育與創意工具

教育工具

在教育或創意工具中應用，幫助學生和創作者快速生成視覺內容。

提升學習和創作效率

研究

生成模型研究

用於生成模型的研究和開發。

推動生成模型技術的進步

🚀 Pixart-LCM模型卡

Pixart-LCM是一個基於擴散Transformer的文本到圖像生成模型，結合了Pixart-α和LCM的優勢，能夠根據文本提示快速生成高質量的圖像。它在圖像生成速度上表現出色，適用於多種研究場景。

🚀 快速開始

安裝依賴

確保將diffusers升級到 >= 0.23.0，並安裝transformers、safetensors、sentencepiece和accelerate：

pip install -U diffusers --upgrade
pip install transformers accelerate safetensors sentencepiece

使用示例

基礎用法

import torch
from diffusers import PixArtAlphaPipeline

# only 1024-MS version is supported for now
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-LCM-XL-2-1024-MS", torch_dtype=torch.float16, use_safetensors=True)

# Enable memory optimizations.
pipe.enable_model_cpu_offload()

prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt, guidance_scale=0., num_inference_steps=4).images[0]

高級用法

當使用torch >= 2.0時，你可以使用torch.compile將推理速度提高20 - 30%。在運行管道之前，用torch.compile包裝unet：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

如果你受到GPU顯存的限制，可以通過調用pipe.enable_model_cpu_offload來啟用CPU卸載，而不是.to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

✨ 主要特性

快速生成

在不同硬件上，PixArt-LCM相較於其他模型，如SDXL LoRA LCM和標準模型，在圖像生成速度上有顯著提升。以下是不同硬件上的生成速度對比：

硬件	PixArt-LCM (4 steps)	SDXL LoRA LCM (4 steps)	PixArt標準 (14 steps)	SDXL標準 (25 steps)
T4 (Google Colab免費層)	3.3s	8.4s	16.0s	26.5s
A100 (80 GB)	0.51s	1.2s	2.2s	3.8s
V100 (32 GB)	0.8s	1.2s	5.5s	7.7s

直接生成高分辨率圖像

Pixart-α由用於潛在擴散的純Transformer塊組成，能夠在單個採樣過程中直接從文本提示生成1024px的圖像。

超快速推理

LCMs是一種擴散蒸餾方法，可直接在潛在空間中預測PF - ODE的解，通過很少的步驟實現超快速推理。

📦 安裝指南

升級`diffusers`

pip install -U diffusers --upgrade

安裝其他依賴

pip install transformers accelerate safetensors sentencepiece

📚 詳細文檔

模型描述

屬性	詳情
開發者	Pixart & LCM團隊
模型類型	基於擴散Transformer的文本到圖像生成模型
許可證	CreativeML Open RAIL++ - M License
模型描述	這是一個可用於根據文本提示生成和修改圖像的模型。它是一個Transformer潛在擴散模型，使用一個固定的預訓練文本編碼器(T5)和一個潛在特徵編碼器(VAE)。
更多信息資源	查看我們的Pixart-α、LCM GitHub倉庫以及Pixart-α、LCM在arXiv上的報告。