Playground v2オープンソース文章から画像生成モデル - 画像生成研究を無料で支援、高度に美学化された画像ではない

Playground V2 512px Base

playgroundaiによって開発

Playground v2は拡散原理に基づくテキストから画像生成モデルで、Playground研究チームによってゼロから訓練され、主に研究目的で使用され、通常は高度に美学化された画像を生成することはできません。

画像生成オープンソースライセンス:その他 #512pxテキストから画像生成 #拡散モデル #研究レベルの基礎モデル

ダウンロード数 70

リリース時間 : 11/30/2023

モデル概要

このモデルはテキストプロンプトに基づいて512x512解像度の画像を生成し、潜在拡散モデルであり、2つの固定された事前学習済みテキストエンコーダー(OpenCLIP - ViT/GとCLIP - ViT/L)を使用し、アーキテクチャはStable Diffusion XLと同じです。

モデル特徴

高品質画像生成

ユーザー調査によると、ユーザーはPlayground v2が生成する画像の方をStable Diffusion XLの2.5倍好むと回答しています。

研究に適している

異なる訓練段階の中間チェックポイントを公開し、評価指標も含めて、画像生成基礎モデルの研究を促進します。

新しい評価基準

MJHQ - 30K基準を導入し、高品質データセット上のFIDスコアによってモデルの美学的品質を自動評価します。

モデル能力

テキストから画像生成

512x512解像度の画像生成

使用事例

クリエイティブデザイン

コンセプトアート制作

テキスト記述に基づいてクリエイティブなコンセプトアート画像を生成します。

「ジャングルの中の宇宙飛行士」などの様々なクリエイティブ画像を生成できます。

研究応用

拡散モデル研究

画像生成技術の研究のための基礎モデルとして使用されます。

異なる訓練段階のチェックポイントと評価指標を提供します。

🚀 Playground v2 – 512px ベースモデル

このリポジトリには、解像度512x512の画像を生成するベース（事前学習）モデルが含まれています。

このモデルは主に研究目的で使用されます。高度に美的な画像を生成する傾向はありません。

Hugging Face 🧨 Diffusersを使用してこのモデルを利用することができます。

image/png

Playground v2 は、拡散ベースのテキストから画像を生成するモデルです。このモデルは、Playground の研究チームによってゼロから学習されました。

Playgroundのユーザー調査によると、Playground v2が生成する画像は、Stable Diffusion XLが生成する画像よりも 2.5 倍多く好まれています。

我々は、評価指標を含む、さまざまな学習段階の中間チェックポイントをコミュニティに公開することを嬉しく思います。これにより、画像生成の基礎モデルに関するさらなる研究が促進されることを期待しています。

最後に、モデルの美的品質を自動評価するための新しいベンチマーク MJHQ-30K を紹介します。

詳細については、ブログをご覧ください。

🚀 クイックスタート

モデルの説明

開発元: Playground
モデルタイプ: 拡散ベースのテキストから画像を生成するモデル
ライセンス: Playground v2 Community License
概要: このモデルは、テキストプロンプトに基づいて画像を生成します。2つの固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/G と CLIP-ViT/L) を使用する潜在拡散モデルです。Stable Diffusion XL と同じアーキテクチャに従っています。

📦 インストール

Diffusers 0.24.0以上といくつかの依存関係をインストールします。

pip install transformers accelerate safetensors

💻 使用例

基本的な使用法

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-512px-base",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16",
)
pipe.to("cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, width=512, height=512).images[0]

ユーザー調査

image/png

Playgroundが実施したユーザー調査によると、2,600以上のプロンプトと数千人のユーザーを対象に行われたこの調査では、Playground v2が生成する画像は、Stable Diffusion XL が生成する画像よりも 2.5 倍多く好まれています。

我々は、標準的な手法に従って、PartiPrompts とPlaygroundチームが作成した内部プロンプトデータセットに関するユーザーの好みの指標を報告しています。「Internal 1K」プロンプトデータセットは多様で、さまざまなカテゴリとタスクをカバーしています。

ユーザー調査中、我々はユーザーに対して、(1) 美的な好みと (2) 画像とテキストの整合性の両方に基づいて画像ペアを評価するよう指示しました。

MJHQ-30Kベンチマーク

image/png

モデル	全体のFID
SDXL-1-0-refiner	9.55
playground-v2-1024px-aesthetic	7.07

我々は、モデルの美的品質を自動評価するための新しいベンチマーク MJHQ-30K を紹介します。このベンチマークは、高品質なデータセットに対してFIDを計算して、美的品質を測定します。

我々は、Midjourneyから高品質なデータセットを収集しました。このデータセットは10の一般的なカテゴリを持ち、各カテゴリには3,000のサンプルが含まれています。一般的な手法に従って、美的スコアとCLIPスコアを使用して、高い画像品質と高い画像とテキストの整合性を確保しています。さらに、各カテゴリ内でデータが多様化するように配慮しています。

Playground v2に関して、我々は全体のFIDとカテゴリごとのFIDの両方を報告しています。すべてのFID指標は解像度1024x1024で計算されています。我々のベンチマーク結果は、我々のモデルが全体のFIDとすべてのカテゴリのFIDにおいてSDXL-1-0-refinerを上回っていることを示しています。特に、人物とファッションのカテゴリで顕著です。これは、ユーザー調査の結果と一致しており、人間の好みとMJHQ-30KベンチマークのFIDスコアの間に相関があることを示しています。

我々はこのベンチマークを公開し、コミュニティがモデルの美的品質をベンチマークするために採用することを奨励します。

中間ベースモデル

モデル	FID	Clip Score
SDXL-1-0-refiner	13.04	32.62
playground-v2-256px-base	9.83	31.90
playground-v2-512px-base	9.55	32.08

playground-v2-1024px-aesthetic 以外にも、我々はさまざまな学習段階の中間チェックポイントをコミュニティに公開して、画素レベルの基礎モデルの研究を促進しています。ここでは、参照用にMSCOCO14評価セットにおけるFIDスコアとCLIPスコアを報告しています。（注: 我々が報告している数値は、SDXLの公開結果に報告されている数値と異なる場合があります。これは、我々のプロンプトリストが異なる可能性があるためです。）

引用方法

@misc{playground-v2,
      url={[https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic](https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic)},
      title={Playground v2},
      author={Li, Daiqing and Kamko, Aleks and Sabet, Ali and Akhgari, Ehsan and Xu, Lin and Doshi, Suhail}
}