Playground v2開源文生圖模型 - 免費助力圖像生成研究，非高度美學化圖像

首頁

Playground V2 512px Base

由playgroundai開發

Playground v2是基於擴散原理的文生圖生成模型，由Playground研究團隊從零開始訓練完成，主要用於研究目的，通常無法生成高度美學化的圖像。

圖像生成開源協議:其他 #512px文生圖 #擴散模型 #研究級基礎模型

下載量 70

發布時間 : 11/30/2023

模型概述

該模型根據文本提示生成512x512分辨率的圖像，是潛在擴散模型，使用兩個固定的預訓練文本編碼器(OpenCLIP-ViT/G和CLIP-ViT/L)，架構與Stable Diffusion XL相同。

模型特點

高質量圖像生成

用戶研究顯示，用戶對Playground v2生成圖像的偏好度是Stable Diffusion XL的2.5倍

研究友好

發佈了不同訓練階段的中間檢查點，包括評估指標，促進圖像生成基礎模型研究

新評估基準

推出MJHQ-30K基準，通過高質量數據集上的FID分數自動評估模型美學質量

模型能力

文本到圖像生成

512x512分辨率圖像生成

使用案例

創意設計

概念藝術創作

根據文本描述生成創意概念藝術圖像

可生成多樣化的創意圖像，如'叢林中的宇航員'等場景

研究應用

擴散模型研究

作為基礎模型用於圖像生成技術的研究

提供不同訓練階段的檢查點和評估指標

🚀 Playground v2 – 512px 基礎模型

本倉庫包含一個基礎（預訓練）模型，可生成分辨率為 512x512 的圖像。

該模型主要用於研究目的，不太傾向於生成具有高度美感的圖像。

你可以使用 Hugging Face 🧨 Diffusers 庫來使用此模型。

image/png

Playground v2 是一個基於擴散模型的文本到圖像生成模型。該模型由 Playground 的研究團隊從頭開始訓練。

根據 Playground 的用戶研究，Playground v2 生成的圖像比 Stable Diffusion XL 生成的圖像受用戶喜愛程度高出 2.5 倍。

我們很高興能將不同訓練階段的中間檢查點（包括評估指標）發佈給社區。我們希望這將鼓勵對圖像生成基礎模型的進一步研究。

最後，我們引入了一個新的基準 MJHQ - 30K，用於自動評估模型的美學質量。

更多詳細信息請查看我們的博客。

✨ 主要特性

研發團隊：Playground
模型類型：基於擴散的文本到圖像生成模型
許可證：Playground v2 社區許可證
概述：該模型根據文本提示生成圖像。它是一個潛在擴散模型，使用兩個固定的預訓練文本編碼器（OpenCLIP - ViT/G 和 CLIP - ViT/L）。它遵循與 Stable Diffusion XL 相同的架構。

📦 安裝指南

安裝 diffusers >= 0.24.0 及一些依賴項：

pip install transformers accelerate safetensors

💻 使用示例

基礎用法

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-512px-base",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16",
)
pipe.to("cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=512, height=512).images[0]

📚 詳細文檔

用戶研究

image/png

根據 Playground 進行的用戶研究，涉及超過 2600 個提示和數千名用戶，Playground v2 生成的圖像比 Stable Diffusion XL 生成的圖像受用戶喜愛程度高出 2.5 倍。

我們按照標準做法，在 PartiPrompts 和 Playground 團隊策劃的內部提示數據集上報告用戶偏好指標。“Internal 1K” 提示數據集具有多樣性，涵蓋了各種類別和任務。

在用戶研究期間，我們指導用戶從（1）美學偏好和（2）圖像 - 文本對齊兩個方面評估圖像對。

MJHQ - 30K 基準

image/png

模型	整體 FID
SDXL - 1 - 0 - refiner	9.55
playground - v2 - 1024px - aesthetic	7.07

我們引入了一個新的基準 MJHQ - 30K，用於自動評估模型的美學質量。該基準在高質量數據集上計算 FID 以評估美學質量。

我們從 Midjourney 精心策劃了一個高質量數據集，包含 10 個常見類別，每個類別包含 3000 個樣本。按照慣例，我們使用美學分數和 CLIP 分數來確保高圖像質量和高圖像 - 文本對齊。此外，我們格外注意使每個類別內的數據具有多樣性。

對於 Playground v2，我們同時報告整體 FID 和每個類別的 FID。所有 FID 指標均在分辨率 1024x1024 下計算。我們的基準測試結果表明，我們的模型在整體 FID 和所有類別 FID 方面都優於 SDXL - 1 - 0 - refiner，特別是在人物和時尚類別中。這與用戶研究的結果一致，表明人類偏好與 MJHQ - 30K 基準上的 FID 分數之間存在相關性。

我們將此基準公開，並鼓勵社區採用它來評估其模型的美學質量。

中間基礎模型

模型	FID	Clip 分數
SDXL - 1 - 0 - refiner	13.04	32.62
playground - v2 - 256px - base	9.83	31.90
playground - v2 - 512px - base	9.55	32.08

除了 playground - v2 - 1024px - aesthetic 之外，我們還將不同訓練階段的中間檢查點發布給社區，以促進像素級基礎模型的研究。在這裡，我們報告在 MSCOCO14 評估集上的 FID 分數和 CLIP 分數以供參考。（請注意，我們報告的數字可能與 SDXL 發佈結果中的數字不同，因為我們的提示列表可能不同。）

如何引用我們

@misc{playground-v2,
      url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
      title={Playground v2},
      author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}