🚀 Playground v2 – 512px ベースモデル
このリポジトリには、解像度512x512の画像を生成するベース(事前学習)モデルが含まれています。
このモデルは主に研究目的で使用されます。高度に美的な画像を生成する傾向はありません。
Hugging Face 🧨 Diffusersを使用してこのモデルを利用することができます。

Playground v2 は、拡散ベースのテキストから画像を生成するモデルです。このモデルは、Playground の研究チームによってゼロから学習されました。
Playgroundのユーザー調査によると、Playground v2が生成する画像は、Stable Diffusion XLが生成する画像よりも 2.5 倍多く好まれています。
我々は、評価指標を含む、さまざまな学習段階の中間チェックポイントをコミュニティに公開することを嬉しく思います。これにより、画像生成の基礎モデルに関するさらなる研究が促進されることを期待しています。
最後に、モデルの美的品質を自動評価するための新しいベンチマーク MJHQ-30K を紹介します。
詳細については、ブログ をご覧ください。
🚀 クイックスタート
モデルの説明
📦 インストール
Diffusers 0.24.0以上といくつかの依存関係をインストールします。
pip install transformers accelerate safetensors
💻 使用例
基本的な使用法
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-512px-base",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16",
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=512, height=512).images[0]
ユーザー調査

Playgroundが実施したユーザー調査によると、2,600以上のプロンプトと数千人のユーザーを対象に行われたこの調査では、Playground v2が生成する画像は、Stable Diffusion XL が生成する画像よりも 2.5 倍多く好まれています。
我々は、標準的な手法に従って、PartiPrompts とPlaygroundチームが作成した内部プロンプトデータセットに関するユーザーの好みの指標を報告しています。「Internal 1K」プロンプトデータセットは多様で、さまざまなカテゴリとタスクをカバーしています。
ユーザー調査中、我々はユーザーに対して、(1) 美的な好みと (2) 画像とテキストの整合性の両方に基づいて画像ペアを評価するよう指示しました。
MJHQ-30Kベンチマーク

我々は、モデルの美的品質を自動評価するための新しいベンチマーク MJHQ-30K を紹介します。このベンチマークは、高品質なデータセットに対してFIDを計算して、美的品質を測定します。
我々は、Midjourneyから高品質なデータセットを収集しました。このデータセットは10の一般的なカテゴリを持ち、各カテゴリには3,000のサンプルが含まれています。一般的な手法に従って、美的スコアとCLIPスコアを使用して、高い画像品質と高い画像とテキストの整合性を確保しています。さらに、各カテゴリ内でデータが多様化するように配慮しています。
Playground v2に関して、我々は全体のFIDとカテゴリごとのFIDの両方を報告しています。すべてのFID指標は解像度1024x1024で計算されています。我々のベンチマーク結果は、我々のモデルが全体のFIDとすべてのカテゴリのFIDにおいてSDXL-1-0-refinerを上回っていることを示しています。特に、人物とファッションのカテゴリで顕著です。これは、ユーザー調査の結果と一致しており、人間の好みとMJHQ-30KベンチマークのFIDスコアの間に相関があることを示しています。
我々はこのベンチマークを公開し、コミュニティがモデルの美的品質をベンチマークするために採用することを奨励します。
中間ベースモデル
playground-v2-1024px-aesthetic 以外にも、我々はさまざまな学習段階の中間チェックポイントをコミュニティに公開して、画素レベルの基礎モデルの研究を促進しています。ここでは、参照用にMSCOCO14評価セットにおけるFIDスコアとCLIPスコアを報告しています。(注: 我々が報告している数値は、SDXLの公開結果に報告されている数値と異なる場合があります。これは、我々のプロンプトリストが異なる可能性があるためです。)
引用方法
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}
📄 ライセンス