🚀 Playground v2 – 256pxベースモデル
Playground v2は拡散ベースのテキストから画像への生成モデルです。このリポジトリには、256x256解像度の画像を生成できるベース(事前学習済み)モデルが含まれています。このモデルは主に研究目的で使用され、通常は高度な美感を持つ画像を生成することはありません。あなたはHugging FaceのDiffusersライブラリを使用してこのモデルを利用することができます。
🚀 クイックスタート
あなたは以下の手順に従って、Playground v2モデルの使用を開始することができます。
diffusers >= 0.24.0
といくつかの依存関係をインストールします。
pip install transformers accelerate safetensors
- 以下のコードを使用してモデルを実行します。
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-256px-base",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16",
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=256, height=256).images[0]
✨ 主な機能
- 研究指向:このモデルは主に研究目的で使用され、画像生成の基礎モデル研究をサポートします。
- テキストから画像への生成:テキストプロンプトに基づいて対応する画像を生成します。
- ユーザー嗜好の優位性:Playgroundのユーザー研究によると、Playground v2が生成する画像はStable Diffusion XLが生成する画像よりもユーザーに2.5倍好まれています。
- 性能卓越:MJHQ - 30Kベンチマークテストでは、Playground v2は全体のFIDとすべてのカテゴリのFIDにおいてSDXL - 1 - 0 - refinerを上回っています。
📚 ドキュメント
モデルの説明
ユーザー研究
Playgroundが行ったユーザー研究によると、2600以上のプロンプトと数千人のユーザーを対象として、Playground v2が生成する画像はStable Diffusion XLが生成する画像よりもユーザーに2.5倍好まれています。この研究では、PartiPromptsとPlaygroundチームが作成した内部プロンプトデータセットでユーザー嗜好指標を報告しています。「Internal 1K」プロンプトデータセットは多様性があり、さまざまなカテゴリとタスクをカバーしています。ユーザー研究では、ユーザーに(1)審美嗜好と(2)画像 - テキストの一致度に基づいて画像ペアを評価するよう依頼しました。
MJHQ - 30Kベンチマークテスト

私たちは、モデルの審美品質を自動評価するための新しいベンチマークテストMJHQ - 30Kを導入しました。このベンチマークは、高品質データセットでFIDを計算して審美品質を測定します。私たちはMidjourneyから10の一般的なカテゴリを含む高品質データセットを作成し、各カテゴリに3000個のサンプルを用意しました。慣例に従って、審美スコアとCLIPスコアを使用して画像品質と画像 - テキストの一致度を高く保ち、各カテゴリ内のデータの多様性を確保しました。Playground v2については、全体のFIDと各カテゴリのFIDを報告しており、すべてのFID指標は1024x1024解像度で計算されています。ベンチマークテストの結果は、私たちのモデルが全体のFIDとすべてのカテゴリのFIDにおいてSDXL - 1 - 0 - refinerを上回っていることを示しており、特に人物とファッションのカテゴリで顕著です。これはユーザー研究の結果と一致しており、人間の嗜好がMJHQ - 30KベンチマークテストのFIDスコアと関連していることを示しています。私たちはこのベンチマークを公開し、コミュニティがモデルの審美品質を評価するために採用することを奨励します。
中間ベースモデル
playground - v2 - 1024px - aestheticに加えて、私たちはコミュニティにさまざまな学習段階の中間チェックポイントを公開し、ピクセルレベルの基礎モデルの研究を促進しています。ここでは、MSCOCO14評価セットでFIDスコアとCLIPスコアを報告して参考にしています(注意:私たちが報告する数字は、SDXLの公開結果の数字と異なる場合があります。なぜなら、私たちのプロンプトリストが異なる可能性があるからです)。
📄 ライセンス
このモデルはPlayground v2コミュニティライセンスの下で提供されています。
📝 引用方法
@misc{playground-v2,
url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
title={Playground v2},
author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}