🚀 🐱 Pixart-α 模型介紹
Pixart-α 是一款基於擴散變換器的文本到圖像生成模型,能根據文本提示直接生成 1024px 的圖像。它在訓練效率上表現出色,成本低且環保,生成效果與現有先進模型相當甚至更優。
🚀 快速開始
安裝依賴
確保將 diffusers
升級到 >= 0.22.0:
pip install -U diffusers --upgrade
此外,確保安裝 transformers
、safetensors
、sentencepiece
和 accelerate
:
pip install transformers accelerate safetensors
使用基礎模型
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]
提升推理速度
當使用 torch >= 2.0
時,可以通過 torch.compile
提升 20 - 30% 的推理速度。在運行管道之前,用 torch.compile
包裝 unet
:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
處理 GPU 顯存限制
如果受限於 GPU 顯存,可以調用 pipe.enable_model_cpu_offload
而不是 .to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
更多關於如何使用 diffusers
調用 Pixart-α 的信息,請查看 Pixart-α 文檔。
免費試用
你可以使用 Google Colab 免費試用 Pixart-α 生成圖像,點擊 此處 嘗試。
✨ 主要特性
高效訓練
PixArt-α 僅需 Stable Diffusion v1.5 訓練時間的 10.8%(675 天 vs. 6,250 天 A100 GPU 計算時間),節省近 30 萬美元(2.6 萬美元 vs. 32 萬美元),並減少 90% 的二氧化碳排放。與更大的 SOTA 模型 RAPHAEL 相比,訓練成本僅為其 1%。

方法 |
類型 |
參數數量 |
圖像數量 |
A100 GPU 天數 |
DALL·E |
擴散模型 |
120 億 |
154 億 |
|
GLIDE |
擴散模型 |
50 億 |
594 億 |
|
LDM |
擴散模型 |
14 億 |
27 億 |
|
DALL·E 2 |
擴散模型 |
65 億 |
563 億 |
4166 |
SDv1.5 |
擴散模型 |
9 億 |
316 億 |
6250 |
GigaGAN |
GAN |
9 億 |
98 億 |
4783 |
Imagen |
擴散模型 |
30 億 |
1536 億 |
7132 |
RAPHAEL |
擴散模型 |
30 億 |
50 億 |
60000 |
PixArt-α |
擴散模型 |
6 億 |
2500 萬 |
675 |
優質生成效果
上圖展示了用戶對 Pixart-α 相對於 SDXL 0.9、Stable Diffusion 2、DALLE - 2 和 DeepFloyd 的偏好評估。Pixart-α 基礎模型的表現與現有先進模型相當甚至更優。
📦 模型信息
模型概述

Pixart-α 由純變換器塊組成,用於潛在擴散:它可以在單次採樣過程中直接從文本提示生成 1024px 的圖像。
源代碼可在 https://github.com/PixArt-alpha/PixArt-alpha 獲取。
模型詳情
模型來源
出於研究目的,我們推薦使用 generative - models
GitHub 倉庫 (https://github.com/PixArt-alpha/PixArt-alpha),它更適合訓練和推理,並且隨著時間推移會添加更多先進的擴散採樣器,如 SA - Solver。
Hugging Face 提供免費的 Pixart-α 推理服務。
- 倉庫地址:https://github.com/PixArt-alpha/PixArt-alpha
- 演示地址:https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
📚 使用說明
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 藝術品生成,並應用於設計和其他藝術過程。
- 教育或創意工具中的應用。
- 生成模型的研究。
- 對可能生成有害內容的模型進行安全部署。
- 探究和理解生成模型的侷限性和偏差。
超出適用範圍的使用
該模型並非用於真實、準確地呈現人物或事件,因此使用該模型生成此類內容超出了其能力範圍。
🔧 侷限性和偏差
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染清晰可讀的文本。
- 模型在處理涉及組合性的複雜任務時存在困難,例如渲染與 “一個紅色立方體放在藍色球體上” 對應的圖像。
- 一般來說,手指等細節可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
📄 許可證
本模型採用 CreativeML Open RAIL++ - M 許可證。