🚀 Pixart-LCM模型卡
Pixart-LCM是一個基於擴散Transformer的文本到圖像生成模型,結合了Pixart-α和LCM的優勢,能夠根據文本提示快速生成高質量的圖像。它在圖像生成速度上表現出色,適用於多種研究場景。
🚀 快速開始
安裝依賴
確保將diffusers
升級到 >= 0.23.0,並安裝transformers
、safetensors
、sentencepiece
和accelerate
:
pip install -U diffusers --upgrade
pip install transformers accelerate safetensors sentencepiece
使用示例
基礎用法
import torch
from diffusers import PixArtAlphaPipeline
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-LCM-XL-2-1024-MS", torch_dtype=torch.float16, use_safetensors=True)
pipe.enable_model_cpu_offload()
prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt, guidance_scale=0., num_inference_steps=4).images[0]
高級用法
當使用torch >= 2.0
時,你可以使用torch.compile
將推理速度提高20 - 30%。在運行管道之前,用torch.compile
包裝unet
:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
如果你受到GPU顯存的限制,可以通過調用pipe.enable_model_cpu_offload
來啟用CPU卸載,而不是.to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
✨ 主要特性
快速生成
在不同硬件上,PixArt-LCM相較於其他模型,如SDXL LoRA LCM和標準模型,在圖像生成速度上有顯著提升。以下是不同硬件上的生成速度對比:
硬件 |
PixArt-LCM (4 steps) |
SDXL LoRA LCM (4 steps) |
PixArt標準 (14 steps) |
SDXL標準 (25 steps) |
T4 (Google Colab免費層) |
3.3s |
8.4s |
16.0s |
26.5s |
A100 (80 GB) |
0.51s |
1.2s |
2.2s |
3.8s |
V100 (32 GB) |
0.8s |
1.2s |
5.5s |
7.7s |
直接生成高分辨率圖像
Pixart-α由用於潛在擴散的純Transformer塊組成,能夠在單個採樣過程中直接從文本提示生成1024px的圖像。
超快速推理
LCMs是一種擴散蒸餾方法,可直接在潛在空間中預測PF - ODE的解,通過很少的步驟實現超快速推理。
📦 安裝指南
升級diffusers
pip install -U diffusers --upgrade
安裝其他依賴
pip install transformers accelerate safetensors sentencepiece
📚 詳細文檔
模型描述
模型來源
- 研究用途:推薦使用我們的
generative - models
GitHub倉庫(https://github.com/PixArt-alpha/PixArt-alpha),它更適合開發訓練和推理設計。
- 演示:Hugging Face提供免費的Pixart - LCM推理。
Diffusers使用
diffusers
的使用與基礎模型Pixart-α完全相同。有關如何使用diffusers
與Pixart-α的更多信息,請查看Pixart-α文檔。
🔧 技術細節
模型架構

推理優化
當使用torch >= 2.0
時,通過torch.compile
可以將推理速度提高20 - 30%。如果受到GPU顯存限制,可以使用CPU卸載來減少顯存使用。
📄 許可證
本模型使用CreativeML Open RAIL++ - M License。
🔍 使用說明
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 藝術品生成以及在設計和其他藝術過程中的應用。
- 教育或創意工具中的應用。
- 生成模型的研究。
- 對有潛在生成有害內容能力的模型進行安全部署。
- 探索和理解生成模型的侷限性和偏差。
超出範圍的使用
該模型未經過訓練以真實地表示人物或事件,因此使用該模型生成此類內容超出了其能力範圍。
⚠️ 侷限性和偏差
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染清晰可讀的文本。
- 模型在處理涉及組合性的更復雜任務時存在困難,例如渲染對應於“一個紅色立方體在藍色球體上”的圖像。
- 一般情況下,手指等細節可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。