🚀 Playground v2.5 – 1024px 美学模型
本项目包含一个能生成高美学质量图像的模型,可生成分辨率为 1024x1024 的图像,支持纵向和横向的宽高比。你可以结合 Hugging Face 🧨 Diffusers 来使用该模型。

Playground v2.5 是一个基于扩散模型的文本到图像生成模型,它是 Playground v2 的继任者。
Playground v2.5 是美学质量方面最先进的开源模型。我们的用户研究表明,该模型在性能上优于 SDXL、Playground v2、PixArt-α、DALL-E 3 和 Midjourney 5.2。
有关我们模型的开发和训练细节,请参考我们的 博客文章 和 技术报告。
✨ 主要特性
- 高美学质量:生成的图像具有较高的美学水平,在用户研究中表现优于多个同类模型。
- 多宽高比支持:支持纵向和横向等多种宽高比。
- 先进架构:采用基于扩散模型的架构,使用两个固定的预训练文本编码器(OpenCLIP-ViT/G 和 CLIP-ViT/L)。
📦 安装指南
安装 diffusers >= 0.27.0 及相关依赖:
pip install diffusers>=0.27.0
pip install transformers accelerate safetensors
💻 使用示例
基础用法
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]
注意事项
⚠️ 重要提示
- 管道默认使用
EDMDPMSolverMultistepScheduler
调度器,以获得更清晰的细节。这是 DPM++ 2M Karras 调度器的 EDM 公式 版本。guidance_scale=3.0
是该调度器的一个不错的默认值。
- 管道还支持
EDMEulerScheduler
调度器。这是欧拉调度器的 EDM 公式 版本。guidance_scale=5.0
是该调度器的一个不错的默认值。
📚 详细文档
模型描述
在 Automatic1111/ComfyUI 中使用模型
即将支持。准备好后,我们将在此模型卡片中更新使用说明。
用户研究
本模型卡片仅简要总结了我们的用户研究结果。有关我们如何进行用户研究的详细信息,请查看我们的 技术报告。
我们进行了研究,以衡量整体美学质量,以及针对 Playground v2.5 旨在改进的特定领域,即多宽高比和人类偏好对齐。
与最先进模型的比较

Playground v2.5 的美学质量显著优于当前最先进的开源模型 SDXL 和 PIXART-α,以及 Playground v2。由于 Playground V2.5 和 SDXL 之间的性能差异非常大,我们还将其美学质量与世界级的闭源模型(如 DALL-E 3 和 Midjourney 5.2)进行了比较,发现 Playground v2.5 也优于它们。
多宽高比

同样,在多宽高比方面,我们也大幅优于 SDXL。
人物相关图像的人类偏好对齐

接下来,我们专门针对人物相关图像对 Playground v2.5 进行了基准测试,以测试人类偏好对齐。我们将 Playground v2.5 与两个常用的基线模型进行了比较:SDXL 和 RealStock v2(SDXL 的一个社区微调版本,在真实人物数据集上进行了训练)。
Playground v2.5 在这两个基线模型上都有大幅超越。
MJHQ-30K 基准测试

最后,我们使用在 v2 版本发布时 开源 的 MJHQ-30K 基准测试报告了相关指标。我们报告了整体 FID 和每个类别的 FID。所有 FID 指标均在分辨率 1024x1024 下计算。我们的结果表明,Playground v2.5 在整体 FID 和所有类别的 FID 上都优于 Playground v2 和 SDXL,特别是在人物和时尚类别中。这与用户研究的结果一致,表明人类偏好与 MJHQ-30K 基准测试的 FID 分数之间存在相关性。
如何引用我们
@misc{li2024playground,
title={Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation},
author={Daiqing Li and Aleks Kamko and Ehsan Akhgari and Ali Sabet and Linmiao Xu and Suhail Doshi},
year={2024},
eprint={2402.17245},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 许可证
本项目采用 Playground v2.5 社区许可证。