🚀 Playground v2 – 512px 基础模型
本仓库包含一个基础(预训练)模型,可生成分辨率为 512x512 的图像。
该模型主要用于研究目的,不太倾向于生成具有高度美感的图像。
你可以使用 Hugging Face 🧨 Diffusers 库来使用此模型。

Playground v2 是一个基于扩散模型的文本到图像生成模型。该模型由 Playground 的研究团队从头开始训练。
根据 Playground 的 用户研究,Playground v2 生成的图像比 Stable Diffusion XL 生成的图像受用户喜爱程度高出 2.5 倍。
我们很高兴能将不同训练阶段的 中间检查点(包括评估指标)发布给社区。我们希望这将鼓励对图像生成基础模型的进一步研究。
最后,我们引入了一个新的基准 MJHQ - 30K,用于自动评估模型的美学质量。
更多详细信息请查看我们的 博客。
✨ 主要特性
📦 安装指南
安装 diffusers >= 0.24.0 及一些依赖项:
pip install transformers accelerate safetensors
💻 使用示例
基础用法
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-512px-base",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16",
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=512, height=512).images[0]
📚 详细文档
用户研究

根据 Playground 进行的用户研究,涉及超过 2600 个提示和数千名用户,Playground v2 生成的图像比 Stable Diffusion XL 生成的图像受用户喜爱程度高出 2.5 倍。
我们按照标准做法,在 PartiPrompts 和 Playground 团队策划的内部提示数据集上报告用户偏好指标。“Internal 1K” 提示数据集具有多样性,涵盖了各种类别和任务。
在用户研究期间,我们指导用户从(1)美学偏好和(2)图像 - 文本对齐两个方面评估图像对。
MJHQ - 30K 基准

我们引入了一个新的基准 MJHQ - 30K,用于自动评估模型的美学质量。该基准在高质量数据集上计算 FID 以评估美学质量。
我们从 Midjourney 精心策划了一个高质量数据集,包含 10 个常见类别,每个类别包含 3000 个样本。按照惯例,我们使用美学分数和 CLIP 分数来确保高图像质量和高图像 - 文本对齐。此外,我们格外注意使每个类别内的数据具有多样性。
对于 Playground v2,我们同时报告整体 FID 和每个类别的 FID。所有 FID 指标均在分辨率 1024x1024 下计算。我们的基准测试结果表明,我们的模型在整体 FID 和所有类别 FID 方面都优于 SDXL - 1 - 0 - refiner,特别是在人物和时尚类别中。这与用户研究的结果一致,表明人类偏好与 MJHQ - 30K 基准上的 FID 分数之间存在相关性。
我们将此基准公开,并鼓励社区采用它来评估其模型的美学质量。
中间基础模型
除了 playground - v2 - 1024px - aesthetic 之外,我们还将不同训练阶段的中间检查点发布给社区,以促进像素级基础模型的研究。在这里,我们报告在 MSCOCO14 评估集上的 FID 分数和 CLIP 分数以供参考。(请注意,我们报告的数字可能与 SDXL 发布结果中的数字不同,因为我们的提示列表可能不同。)
如何引用我们
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}
📄 许可证
本模型使用 Playground v2 社区许可证。