🚀 Playground v2.5 – 1024px Aesthetic Model
このリポジトリには、解像度1024x1024の高度に美的な画像や、縦横比のポートレートとランドスケープ画像を生成するモデルが含まれています。Hugging Face 🧨 Diffusersを使用してこのモデルを利用できます。

Playground v2.5 は拡散ベースのテキストから画像を生成するモデルで、Playground v2 の後継モデルです。
Playground v2.5は、美的品質において最先端のオープンソースモデルです。ユーザー調査によると、このモデルはSDXL、Playground v2、PixArt-α、DALL-E 3、Midjourney 5.2を上回っています。
モデルの開発とトレーニングの詳細については、ブログ記事 と 技術レポート を参照してください。
✨ 主な機能
- 高度な美的品質:ユーザー調査で、SDXL、Playground v2、PixArt-α、DALL-E 3、Midjourney 5.2を上回る美的品質を実証。
- 多様なアスペクト比対応:1024x1024の解像度で、ポートレートとランドスケープのアスペクト比に対応。
- 最先端のアーキテクチャ:Stable Diffusion XLと同じアーキテクチャを採用。
📦 インストール
🧨 Diffusersを使用してモデルを利用するには、以下の手順で必要な依存関係をインストールします。
pip install diffusers>=0.27.0
pip install transformers accelerate safetensors
💻 使用例
基本的な使用法
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]
高度な使用法
from diffusers import DiffusionPipeline, EDMEulerScheduler
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
pipe.scheduler = EDMEulerScheduler()
prompt = "A beautiful sunset over the ocean, warm colors, high resolution"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=5).images[0]
📚 ドキュメント
モデルの説明
ユーザー調査
このモデルカードでは、ユーザー調査結果の概要のみを提供しています。ユーザー調査の詳細については、技術レポート を参照してください。
最先端モデルとの比較

Playground v2.5の美的品質は、現在の最先端のオープンソースモデルであるSDXLやPIXART-α、さらにはPlayground v2を大きく上回っています。Playground V2.5とSDXLの性能差が非常に大きかったため、DALL-E 3やMidjourney 5.2などの世界クラスのクローズドソースモデルとも美的品質を比較したところ、Playground v2.5が上回っていることがわかりました。
多様なアスペクト比

同様に、多様なアスペクト比に関しても、SDXLを大きく上回っています。
人物関連画像の人間嗜好の一致度

次に、人物関連の画像に特化してPlayground v2.5をベンチマークし、人間嗜好の一致度をテストしました。Playground v2.5を2つの一般的に使用されるベースラインモデル、SDXLと、現実的な人物データセットでトレーニングされたSDXLのコミュニティファインチューンモデルであるRealStock v2と比較しました。
Playground v2.5は両方のベースラインモデルを大きく上回っています。
MJHQ-30Kベンチマーク

最後に、v2リリース時にオープンソース化したMJHQ-30Kベンチマークを使用したメトリクスを報告します。全体のFIDとカテゴリ別のFIDの両方を報告しています。すべてのFIDメトリクスは解像度1024x1024で計算されています。結果から、Playground v2.5は全体のFIDとすべてのカテゴリのFIDにおいて、Playground v2とSDXLを上回っており、特に人物とファッションのカテゴリで顕著です。これはユーザー調査の結果と一致しており、人間の嗜好とMJHQ-30KベンチマークのFIDスコアの間に相関があることを示しています。
🔧 技術詳細
このモデルは、2つの固定された事前学習済みテキストエンコーダー(OpenCLIP-ViT/GとCLIP-ViT/L)を使用する潜在拡散モデルです。Stable Diffusion XLと同じアーキテクチャに従っており、テキストプロンプトに基づいて画像を生成します。
📄 ライセンス
このモデルは Playground v2.5 Community License の下で提供されています。
引用方法
@misc{li2024playground,
title={Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation},
author={Daiqing Li and Aleks Kamko and Ehsan Akhgari and Ali Sabet and Linmiao Xu and Suhail Doshi},
year={2024},
eprint={2402.17245},
archivePrefix={arXiv},
primaryClass={cs.CV}
}