🚀 Playground v2 – 1024px Aesthetic Model
このリポジトリには、解像度1024x1024の非常に美しい画像を生成するモデルが含まれています。Hugging Face 🧨 Diffusersを使ってこのモデルを利用できます。

Playground v2 は、拡散ベースのテキストから画像を生成するモデルです。このモデルは、Playgroundの研究チームによってゼロから学習されました。
Playgroundのユーザー調査によると、Playground v2で生成された画像は、Stable Diffusion XLで生成された画像よりも 2.5 倍多く好まれています。
私たちは、異なる学習段階の中間チェックポイントを、評価指標も含めてコミュニティに公開することを嬉しく思います。これが画像生成の基礎モデルに関するさらなる研究を促進することを期待しています。
最後に、モデルの美学的品質を自動評価するための新しいベンチマーク MJHQ-30K を導入します。
詳細については、ブログ をご覧ください。
🚀 クイックスタート
モデルの概要
🧨 Diffusersを使ったモデルの使用方法
diffusers >= 0.24.0 といくつかの依存関係をインストールします。
pip install transformers accelerate safetensors
モデルを使用するには、以下のスニペットを実行します。
⚠️ 重要提示
guidance_scale=3.0
の使用を推奨します。
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-1024px-aesthetic",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
Automatic1111/ComfyUIを使ったモデルの使用方法
Automatic1111やComfyUIなどのソフトウェアでモデルを使用するには、playground-v2.fp16.safetensors
ファイルを使用できます。
📚 ドキュメント
ユーザー調査

Playgroundによって実施されたユーザー調査によると、2,600以上のプロンプトと数千人のユーザーを対象とした調査で、Playground v2で生成された画像は、Stable Diffusion XL で生成された画像よりも 2.5 倍多く好まれています。
私たちは、標準的な方法に従って、PartiPrompts とPlaygroundチームによって作成された内部プロンプトデータセットに関するユーザーの好みの指標を報告しています。「Internal 1K」プロンプトデータセットは多様で、さまざまなカテゴリとタスクをカバーしています。
ユーザー調査では、ユーザーに対して、(1) 美学的な好みと (2) 画像とテキストの一致度の両方に基づいて画像のペアを評価するように指示しました。
MJHQ-30Kベンチマーク

私たちは、モデルの美学的品質を自動評価するための新しいベンチマーク MJHQ-30K を導入します。このベンチマークは、高品質なデータセットでFIDを計算することで、美学的品質を測定します。
私たちは、Midjourneyから高品質なデータセットを作成しました。このデータセットは10の一般的なカテゴリを含み、各カテゴリには3,000のサンプルが含まれています。一般的な方法に従って、美学的スコアとCLIPスコアを使用して、高い画像品質と高い画像とテキストの一致度を確保しています。さらに、各カテゴリ内のデータが多様になるように配慮しています。
Playground v2については、全体のFIDとカテゴリごとのFIDの両方を報告しています。すべてのFID指標は解像度1024x1024で計算されています。私たちのベンチマーク結果は、私たちのモデルが全体のFIDとすべてのカテゴリのFIDでSDXL-1-0-refinerを上回っていることを示しています。特に人物とファッションのカテゴリで優れています。これは、ユーザー調査の結果と一致しており、人間の好みとMJHQ-30KベンチマークでのFIDスコアの間に相関があることを示しています。
私たちはこのベンチマークを公開し、コミュニティがモデルの美学的品質をベンチマークするためにこれを採用することを奨励します。
中間ベースモデル
playground-v2-1024px-aesthetic の他に、私たちは異なる学習段階の中間チェックポイントをコミュニティに公開しています。これは、画素レベルの基礎モデルの研究を促進するためです。ここでは、参照用にMSCOCO14評価セットでのFIDスコアとCLIPスコアを報告しています。(私たちが報告している数値は、SDXLの公開された結果で報告されている数値と異なる場合があります。これは、私たちのプロンプトリストが異なる可能性があるためです。)
引用方法
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Linmiao and Doshi, Suhail}
}
📄 ライセンス
このモデルは Playground v2 Community License の下で提供されています。