🚀 Playground v2.5 – 1024px 美學模型
本項目包含一個能生成高美學質量圖像的模型,可生成分辨率為 1024x1024 的圖像,支持縱向和橫向的寬高比。你可以結合 Hugging Face 🧨 Diffusers 來使用該模型。

Playground v2.5 是一個基於擴散模型的文本到圖像生成模型,它是 Playground v2 的繼任者。
Playground v2.5 是美學質量方面最先進的開源模型。我們的用戶研究表明,該模型在性能上優於 SDXL、Playground v2、PixArt-α、DALL-E 3 和 Midjourney 5.2。
有關我們模型的開發和訓練細節,請參考我們的 博客文章 和 技術報告。
✨ 主要特性
- 高美學質量:生成的圖像具有較高的美學水平,在用戶研究中表現優於多個同類模型。
- 多寬高比支持:支持縱向和橫向等多種寬高比。
- 先進架構:採用基於擴散模型的架構,使用兩個固定的預訓練文本編碼器(OpenCLIP-ViT/G 和 CLIP-ViT/L)。
📦 安裝指南
安裝 diffusers >= 0.27.0 及相關依賴:
pip install diffusers>=0.27.0
pip install transformers accelerate safetensors
💻 使用示例
基礎用法
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]
注意事項
⚠️ 重要提示
- 管道默認使用
EDMDPMSolverMultistepScheduler
調度器,以獲得更清晰的細節。這是 DPM++ 2M Karras 調度器的 EDM 公式 版本。guidance_scale=3.0
是該調度器的一個不錯的默認值。
- 管道還支持
EDMEulerScheduler
調度器。這是歐拉調度器的 EDM 公式 版本。guidance_scale=5.0
是該調度器的一個不錯的默認值。
📚 詳細文檔
模型描述
在 Automatic1111/ComfyUI 中使用模型
即將支持。準備好後,我們將在此模型卡片中更新使用說明。
用戶研究
本模型卡片僅簡要總結了我們的用戶研究結果。有關我們如何進行用戶研究的詳細信息,請查看我們的 技術報告。
我們進行了研究,以衡量整體美學質量,以及針對 Playground v2.5 旨在改進的特定領域,即多寬高比和人類偏好對齊。
與最先進模型的比較

Playground v2.5 的美學質量顯著優於當前最先進的開源模型 SDXL 和 PIXART-α,以及 Playground v2。由於 Playground V2.5 和 SDXL 之間的性能差異非常大,我們還將其美學質量與世界級的閉源模型(如 DALL-E 3 和 Midjourney 5.2)進行了比較,發現 Playground v2.5 也優於它們。
多寬高比

同樣,在多寬高比方面,我們也大幅優於 SDXL。
人物相關圖像的人類偏好對齊

接下來,我們專門針對人物相關圖像對 Playground v2.5 進行了基準測試,以測試人類偏好對齊。我們將 Playground v2.5 與兩個常用的基線模型進行了比較:SDXL 和 RealStock v2(SDXL 的一個社區微調版本,在真實人物數據集上進行了訓練)。
Playground v2.5 在這兩個基線模型上都有大幅超越。
MJHQ-30K 基準測試

最後,我們使用在 v2 版本發佈時 開源 的 MJHQ-30K 基準測試報告了相關指標。我們報告了整體 FID 和每個類別的 FID。所有 FID 指標均在分辨率 1024x1024 下計算。我們的結果表明,Playground v2.5 在整體 FID 和所有類別的 FID 上都優於 Playground v2 和 SDXL,特別是在人物和時尚類別中。這與用戶研究的結果一致,表明人類偏好與 MJHQ-30K 基準測試的 FID 分數之間存在相關性。
如何引用我們
@misc{li2024playground,
title={Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation},
author={Daiqing Li and Aleks Kamko and Ehsan Akhgari and Ali Sabet and Linmiao Xu and Suhail Doshi},
year={2024},
eprint={2402.17245},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 許可證
本項目採用 Playground v2.5 社區許可證。