🚀 🐱 Pixart-α模型卡片
Pixart-α是一個基於Transformer的潛在擴散模型,可直接根據文本提示在單次採樣過程中生成1024px的圖像,在圖像生成領域具有高效、優質的特點。

✨ 主要特性
高效訓練
PixArt-α僅需Stable Diffusion v1.5訓練時間的10.8%(675天 vs. 6250天A100 GPU),節省近30萬美元(2.6萬美元 vs. 32萬美元),並減少90%的二氧化碳排放。與更大的SOTA模型RAPHAEL相比,訓練成本僅為其1%。

方法 |
類型 |
參數數量 |
圖像數量 |
A100 GPU天數 |
DALL·E |
Diff |
12.0B |
1.54B |
|
GLIDE |
Diff |
5.0B |
5.94B |
|
LDM |
Diff |
1.4B |
0.27B |
|
DALL·E 2 |
Diff |
6.5B |
5.63B |
41.66 |
SDv1.5 |
Diff |
0.9B |
3.16B |
6250 |
GigaGAN |
GAN |
0.9B |
0.98B |
4783 |
Imagen |
Diff |
3.0B |
15.36B |
7132 |
RAPHAEL |
Diff |
3.0B |
5.0B |
60000 |
PixArt-α |
Diff |
0.6B |
0.025B |
675 |
優質表現
通過用戶偏好評估,Pixart-α基礎模型的表現與現有最先進的模型相當,甚至更好。
📦 安裝指南
🧨 Diffusers
確保將diffusers
升級到 >= 0.22.0:
pip install -U diffusers --upgrade
此外,確保安裝transformers
、safetensors
、sentencepiece
和accelerate
:
pip install transformers accelerate safetensors sentencepiece
💻 使用示例
基礎用法
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]
高級用法
當使用torch >= 2.0
時,可通過torch.compile
將推理速度提高20 - 30%。在運行管道之前,用torch.compile
包裝unet
:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
如果受GPU顯存限制,可以調用pipe.enable_model_cpu_offload
來啟用CPU卸載,而不是使用.to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
更多關於如何使用diffusers
調用Pixart-α的信息,請查看Pixart-α文檔。
免費Google Colab試用
你可以免費使用Google Colab從PixArt-α生成圖像。點擊此處嘗試。
📚 詳細文檔
模型詳情

Pixart-α由用於潛在擴散的純Transformer塊組成,可直接根據文本提示在單次採樣過程中生成1024px的圖像。
源代碼可在https://github.com/PixArt-alpha/PixArt-alpha獲取。
模型描述
模型來源
出於研究目的,我們推薦使用generative-models
的GitHub倉庫(https://github.com/PixArt-alpha/PixArt-alpha),它更適合訓練和推理,並且隨著時間推移會添加更多先進的擴散採樣器,如SA-Solver。
Hugging Face提供免費的Pixart-α推理。
- 倉庫:https://github.com/PixArt-alpha/PixArt-alpha
- 演示:https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
使用場景
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 生成藝術品並用於設計和其他藝術過程。
- 用於教育或創意工具。
- 生成模型的研究。
- 安全部署可能生成有害內容的模型。
- 探索和理解生成模型的侷限性和偏差。
非適用場景
該模型並非用於準確或真實地呈現人物或事件,因此使用該模型生成此類內容超出了其能力範圍。
侷限性和偏差
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染清晰可讀的文本。
- 模型在處理涉及組合性的複雜任務時存在困難,例如渲染與“紅色立方體在藍色球體之上”對應的圖像。
- 一般來說,手指等細節可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
📄 許可證
本模型採用CreativeML Open RAIL++-M License許可證。