🚀 Playground v2 – 256px基础模型
Playground v2是一个基于扩散的文本到图像生成模型,此仓库包含一个能生成256x256分辨率图像的基础(预训练)模型。该模型主要用于研究目的,通常不会生成具有高度美感的图像。你可以使用Hugging Face的Diffusers库来使用这个模型。
🚀 快速开始
你可以按照以下步骤开始使用Playground v2模型:
- 安装
diffusers >= 0.24.0
及一些依赖项:
pip install transformers accelerate safetensors
- 使用以下代码运行模型:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-256px-base",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16",
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=256, height=256).images[0]
✨ 主要特性
- 研究导向:该模型主要用于研究目的,为图像生成的基础模型研究提供支持。
- 文本到图像生成:基于文本提示生成相应的图像。
- 用户偏好优势:根据Playground的用户研究,Playground v2生成的图像比Stable Diffusion XL生成的图像受用户喜爱程度高2.5倍。
- 性能优越:在MJHQ - 30K基准测试中,Playground v2在整体FID和所有类别FID上均优于SDXL - 1 - 0 - refiner。
📚 详细文档
模型描述
用户研究
根据Playground进行的用户研究,涉及超过2600个提示和数千名用户,Playground v2生成的图像比Stable Diffusion XL生成的图像受用户喜爱程度高2.5倍。研究在PartiPrompts和Playground团队策划的内部提示数据集上报告了用户偏好指标。“Internal 1K”提示数据集具有多样性,涵盖各种类别和任务。在用户研究中,要求用户根据(1)审美偏好和(2)图像 - 文本对齐来评估图像对。
MJHQ - 30K基准测试

我们引入了一个新的基准测试MJHQ - 30K,用于自动评估模型的审美质量。该基准在高质量数据集上计算FID以衡量审美质量。我们从Midjourney策划了一个高质量数据集,包含10个常见类别,每个类别有3000个样本。按照惯例,使用审美分数和CLIP分数确保图像质量高和图像 - 文本对齐度高,并确保每个类别内的数据具有多样性。对于Playground v2,我们报告了整体FID和每个类别的FID,所有FID指标均在1024x1024分辨率下计算。基准测试结果表明,我们的模型在整体FID和所有类别FID上均优于SDXL - 1 - 0 - refiner,特别是在人物和时尚类别中。这与用户研究结果一致,表明人类偏好与MJHQ - 30K基准测试中的FID分数相关。我们将此基准测试公开发布,并鼓励社区采用它来评估其模型的审美质量。
中间基础模型
除了playground - v2 - 1024px - aesthetic,我们还向社区发布了不同训练阶段的中间检查点,以促进像素级基础模型的研究。这里,我们在MSCOCO14评估集上报告了FID分数和CLIP分数以供参考(注意,我们报告的数字可能与SDXL发布结果中的数字不同,因为我们的提示列表可能不同)。
📄 许可证
本模型采用Playground v2社区许可证。
📝 如何引用我们
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}