PixArt-Sigma-XL-2-1024-MS開源圖像生成模型 - 用文本提示輕鬆產出最高4K高分辨率圖

首頁

Pixart Sigma XL 2 1024 MS

由PixArt-alpha開發

PixArt-Σ是基於Transformer架構的潛在擴散模型，可直接通過文本提示生成高分辨率圖像（最高4K）。

圖像生成 #高分辨率圖像生成 #Transformer擴散模型 #單次採樣4K

下載量 7,283

發布時間 : 4/11/2024

模型概述

採用純Transformer模塊構建的潛在擴散模型，支持單次採樣生成1024像素、2K及4K分辨率圖像，集成T5文本編碼器和VAE潛在特徵編碼器。

模型特點

高分辨率生成

支持單次採樣生成最高4K分辨率的圖像

高效Transformer架構

採用純Transformer模塊構建，計算效率優於傳統擴散模型

多模態集成

集成T5文本編碼器和VAE潛在特徵編碼器，實現高質量文本-圖像對齊

模型能力

文本生成圖像

高分辨率圖像生成

圖像編輯

使用案例

創意設計

藝術創作輔助

根據文字描述自動生成創意概念圖

快速可視化創意構思

設計原型生成

為產品/界面設計提供快速原型

加速設計迭代過程

教育研究

生成模型研究

探索擴散Transformer架構的性能邊界

推動生成模型技術進步

🚀 🐱 PixArt-Σ模型介紹

PixArt-Σ是一個基於擴散Transformer的文生圖生成模型，可在單次採樣過程中直接從文本提示生成1024px、2K和4K圖像，為圖像生成領域帶來了高效且強大的解決方案。

row01

✨ 主要特性

模型架構

pipeline

PixArt-Σ 由用於潛在擴散的純Transformer塊組成，能夠在單次採樣過程中直接從文本提示生成1024px、2K和4K圖像。源代碼可在 GitHub 上獲取。

模型詳情

屬性	詳情
開發者	PixArt-Σ
模型類型	基於擴散Transformer的文生圖生成模型
許可證	CreativeML Open RAIL++-M License
模型描述	這是一個可用於根據文本提示生成和修改圖像的模型，它是一個 Transformer潛在擴散模型，使用一個固定的預訓練文本編碼器 (T5) 和一個潛在特徵編碼器 (VAE)。

📦 安裝指南

⚠️ 重要提示

確保將diffusers升級到 >= 0.28.0：

pip install -U diffusers --upgrade

此外，確保安裝 transformers、safetensors、sentencepiece 和 accelerate：

pip install transformers accelerate safetensors sentencepiece

對於 diffusers<0.28.0，請查看此腳本獲取幫助。

💻 使用示例

基礎用法

import torch
from diffusers import Transformer2DModel, PixArtSigmaPipeline

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
weight_dtype = torch.float16

pipe = PixArtSigmaPipeline.from_pretrained(
    "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS", 
    torch_dtype=weight_dtype,
    use_safetensors=True,
)
pipe.to(device)

# Enable memory optimizations.
# pipe.enable_model_cpu_offload()

prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt).images[0]
image.save("./catcus.png")

高級用法

當使用 torch >= 2.0 時，可通過 torch.compile 將推理速度提高20 - 30%。在運行管道之前，簡單地用 torch.compile 包裝 unet：

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

如果受GPU顯存限制，可通過調用 pipe.enable_model_cpu_offload 而不是 .to("cuda") 來啟用 CPU卸載：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多關於如何使用 diffusers 調用PixArt-Σ的信息，請查看 PixArt-Σ文檔。

📚 詳細文檔

直接用途

該模型僅用於研究目的。可能的研究領域和任務包括：

藝術品生成，以及在設計和其他藝術過程中的應用。
教育或創意工具中的應用。
生成模型的研究。
對有潛在生成有害內容能力的模型進行安全部署。
探索和理解生成模型的侷限性和偏差。

超出範圍的用途

該模型並非用於生成事實性或真實反映人物或事件的內容，因此使用該模型生成此類內容超出了其能力範圍。

🔧 技術細節

侷限性

模型無法實現完美的照片級真實感。
模型無法渲染清晰可讀的文本。
模型在處理涉及組合性的更復雜任務時存在困難，例如渲染與 “一個紅色立方體放在藍色球體上” 對應的圖像。
一般來說，手指等細節可能無法正確生成。
模型的自動編碼部分存在信息損失。

偏差

雖然圖像生成模型的能力令人印象深刻，但它們也可能強化或加劇社會偏差。

📄 許可證

本模型使用 CreativeML Open RAIL++-M License 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫