🚀 Playground v2 – 256px基礎模型
Playground v2是一個基於擴散的文本到圖像生成模型,此倉庫包含一個能生成256x256分辨率圖像的基礎(預訓練)模型。該模型主要用於研究目的,通常不會生成具有高度美感的圖像。你可以使用Hugging Face的Diffusers庫來使用這個模型。
🚀 快速開始
你可以按照以下步驟開始使用Playground v2模型:
- 安裝
diffusers >= 0.24.0
及一些依賴項:
pip install transformers accelerate safetensors
- 使用以下代碼運行模型:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-256px-base",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16",
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=256, height=256).images[0]
✨ 主要特性
- 研究導向:該模型主要用於研究目的,為圖像生成的基礎模型研究提供支持。
- 文本到圖像生成:基於文本提示生成相應的圖像。
- 用戶偏好優勢:根據Playground的用戶研究,Playground v2生成的圖像比Stable Diffusion XL生成的圖像受用戶喜愛程度高2.5倍。
- 性能優越:在MJHQ - 30K基準測試中,Playground v2在整體FID和所有類別FID上均優於SDXL - 1 - 0 - refiner。
📚 詳細文檔
模型描述
用戶研究
根據Playground進行的用戶研究,涉及超過2600個提示和數千名用戶,Playground v2生成的圖像比Stable Diffusion XL生成的圖像受用戶喜愛程度高2.5倍。研究在PartiPrompts和Playground團隊策劃的內部提示數據集上報告了用戶偏好指標。“Internal 1K”提示數據集具有多樣性,涵蓋各種類別和任務。在用戶研究中,要求用戶根據(1)審美偏好和(2)圖像 - 文本對齊來評估圖像對。
MJHQ - 30K基準測試

我們引入了一個新的基準測試MJHQ - 30K,用於自動評估模型的審美質量。該基準在高質量數據集上計算FID以衡量審美質量。我們從Midjourney策劃了一個高質量數據集,包含10個常見類別,每個類別有3000個樣本。按照慣例,使用審美分數和CLIP分數確保圖像質量高和圖像 - 文本對齊度高,並確保每個類別內的數據具有多樣性。對於Playground v2,我們報告了整體FID和每個類別的FID,所有FID指標均在1024x1024分辨率下計算。基準測試結果表明,我們的模型在整體FID和所有類別FID上均優於SDXL - 1 - 0 - refiner,特別是在人物和時尚類別中。這與用戶研究結果一致,表明人類偏好與MJHQ - 30K基準測試中的FID分數相關。我們將此基準測試公開發布,並鼓勵社區採用它來評估其模型的審美質量。
中間基礎模型
除了playground - v2 - 1024px - aesthetic,我們還向社區發佈了不同訓練階段的中間檢查點,以促進像素級基礎模型的研究。這裡,我們在MSCOCO14評估集上報告了FID分數和CLIP分數以供參考(注意,我們報告的數字可能與SDXL發佈結果中的數字不同,因為我們的提示列表可能不同)。
📄 許可證
本模型採用Playground v2社區許可證。
📝 如何引用我們
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}