PixArt-XL-2-512x512開源圖像生成模型 - 文本輸入即可產出1024像素圖像

首頁

Pixart XL 2 512x512

由PixArt-alpha開發

Pixart-α是基於Transformer架構的文本生成圖像模型，可直接通過文本提示生成1024像素圖像，訓練效率顯著優於同類模型。

文本生成圖像 #高效文本生圖 #Transformer擴散 #低訓練成本

下載量 3,971

發布時間 : 11/4/2023

模型概述

採用純Transformer模塊構建的潛在擴散模型，使用固定預訓練文本編碼器(T5)和潛在特徵編碼器(VAE)，能夠高效生成高質量圖像。

模型特點

高效訓練

僅需Stable Diffusion v1.5訓練時間的10.8%，節省近30萬美元成本，減少90%碳排放

高質量生成

在用戶評估中表現媲美甚至超越SDXL、DALLE-2等SOTA模型

直接高分辨率生成

單次採樣即可生成1024像素圖像，無需多階段處理

模型能力

文本生成圖像

高分辨率圖像生成

藝術創作

設計輔助

使用案例

創意設計

藝術創作

根據文字描述生成藝術作品

生成具有藝術風格的圖像

概念設計

快速生成產品/場景概念圖

幫助設計師快速可視化創意

教育研究

生成模型研究

研究擴散模型的訓練效率和生成質量

提供高效的模型架構參考

🚀 🐱 Pixart-α 模型介紹

Pixart-α 是一款基於擴散變換器的文本到圖像生成模型，能根據文本提示直接生成 1024px 的圖像。它在訓練效率上表現出色，成本低且環保，生成效果與現有先進模型相當甚至更優。

🚀 快速開始

安裝依賴

確保將 diffusers 升級到 >= 0.22.0：

pip install -U diffusers --upgrade

此外，確保安裝 transformers、safetensors、sentencepiece 和 accelerate：

pip install transformers accelerate safetensors

使用基礎模型

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]

提升推理速度

當使用 torch >= 2.0 時，可以通過 torch.compile 提升 20 - 30% 的推理速度。在運行管道之前，用 torch.compile 包裝 unet：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

處理 GPU 顯存限制

如果受限於 GPU 顯存，可以調用 pipe.enable_model_cpu_offload 而不是 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多關於如何使用 diffusers 調用 Pixart-α 的信息，請查看 Pixart-α 文檔。

免費試用

你可以使用 Google Colab 免費試用 Pixart-α 生成圖像，點擊此處嘗試。

✨ 主要特性

高效訓練

PixArt-α 僅需 Stable Diffusion v1.5 訓練時間的 10.8%（675 天 vs. 6,250 天 A100 GPU 計算時間），節省近 30 萬美元（2.6 萬美元 vs. 32 萬美元），並減少 90% 的二氧化碳排放。與更大的 SOTA 模型 RAPHAEL 相比，訓練成本僅為其 1%。 Training Efficiency.

方法	類型	參數數量	圖像數量	A100 GPU 天數
DALL·E	擴散模型	120 億	154 億
GLIDE	擴散模型	50 億	594 億
LDM	擴散模型	14 億	27 億
DALL·E 2	擴散模型	65 億	563 億	4166
SDv1.5	擴散模型	9 億	316 億	6250
GigaGAN	GAN	9 億	98 億	4783
Imagen	擴散模型	30 億	1536 億	7132
RAPHAEL	擴散模型	30 億	50 億	60000
PixArt-α	擴散模型	6 億	2500 萬	675

優質生成效果

comparison 上圖展示了用戶對 Pixart-α 相對於 SDXL 0.9、Stable Diffusion 2、DALLE - 2 和 DeepFloyd 的偏好評估。Pixart-α 基礎模型的表現與現有先進模型相當甚至更優。

📦 模型信息

模型概述

pipeline

Pixart-α 由純變換器塊組成，用於潛在擴散：它可以在單次採樣過程中直接從文本提示生成 1024px 的圖像。

源代碼可在 https://github.com/PixArt-alpha/PixArt-alpha 獲取。

模型詳情

屬性	詳情
開發者	Pixart-α
模型類型	基於擴散變換器的文本到圖像生成模型
許可證	CreativeML Open RAIL++ - M 許可證
模型描述	這是一個可用於根據文本提示生成和修改圖像的模型。它是一個 Transformer 潛在擴散模型，使用一個固定的預訓練文本編碼器 (T5) 和一個潛在特徵編碼器 (VAE)。
更多信息資源	查看我們的 GitHub 倉庫和 Pixart-α 論文。

模型來源

出於研究目的，我們推薦使用 generative - models GitHub 倉庫 (https://github.com/PixArt-alpha/PixArt-alpha)，它更適合訓練和推理，並且隨著時間推移會添加更多先進的擴散採樣器，如 SA - Solver。 Hugging Face 提供免費的 Pixart-α 推理服務。