diffusers - インペインティング - テキストボックスオープンソース画像生成モデル

ホーム

Diffusers Inpainting Text Box

gligenによって開発

Stable Diffusionは潜在的なテキストから画像への拡散モデルで、任意のテキスト入力からリアルな画像を生成できます。

画像生成オープンソースライセンス:Openrail #テキストから画像生成 #高解像度拡散モデル #アート創作ツール

ダウンロード数 130

リリース時間 : 3/11/2023

モデル概要

拡散ベースのテキストから画像生成モデルで、潜在拡散モデルアーキテクチャを採用し、テキスト記述から高品質な画像を生成します。

モデル特徴

高品質画像生成

テキスト入力から高解像度（512x512）のリアルな画像を生成可能

分類器不要ガイダンスサンプリング

10%のテキスト条件ドロップアウト最適化を採用し、生成品質を向上

メモリ最適化

アテンションスライシング技術をサポートし、4GB未満のGPUメモリでも動作可能

マルチプラットフォーム対応

PyTorchとJAX/Flaxフレームワークをサポートし、GPU/TPUで動作可能

モデル能力

テキストから画像生成

アート創作

デザイン支援

クリエイティブビジュアライゼーション

使用事例

アート創作

コンセプトアート生成

テキスト記述から迅速にコンセプトアート画像を生成

ゲームや映画などのプレプロダクション設計に利用可能

スタイライズド画像創作

様々なアートスタイルのプロンプトを組み合わせてユニークな画像を生成

ディズニースタイル、サイバーパンクスタイルなど

教育研究

生成モデル研究

生成モデルの限界と可能性を探求

学術研究や実験に利用

クリエイティブツール開発

モデルを基にしたクリエイティブ支援ツールの開発

デザイン支援アプリ、アート創作ツールなど

🚀 Stable Diffusion v1-4 モデルカード

Stable Diffusionは、任意のテキスト入力を元に写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。 Stable Diffusionの機能について詳しくは、🤗のStable Diffusion with 🧨Diffusersブログをご覧ください。

Stable-Diffusion-v1-4 チェックポイントは、Stable-Diffusion-v1-2 チェックポイントの重みで初期化され、その後、解像度512x512で225kステップ、「laion-aesthetics v2 5+」で微調整され、分類器なしガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップしました。

ここの重みは、🧨 Diffusersライブラリで使用することを想定しています。CompVis Stable Diffusionコードベースにロードする重みを探している場合は、こちらをご覧ください。

📚 詳細ドキュメント

モデルの詳細

属性	詳情
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は、Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
モデルの説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Model であり、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用しています。
詳細情報のリソース	GitHub Repository, Paper
引用	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

利用例

私たちは、Stable Diffusionを実行するために 🤗のDiffusersライブラリの使用をお勧めします。

基本的な使用法

pip install --upgrade diffusers transformers scipy

デフォルトのPNDMスケジューラでパイプラインを実行する:

import torch
from diffusers import StableDiffusionPipeline

model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"


pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")

⚠️ 重要提示

GPUメモリが制限され、利用可能なGPU RAMが4GB未満の場合は、上記のようにデフォルトのfloat32精度ではなく、float16精度でStableDiffusionPipelineをロードするようにしてください。これは、diffusersに重みがfloat16精度であることを期待するように指示することで行うことができます。

import torch

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
pipe.enable_attention_slicing()

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")

ノイズスケジューラを交換するには、from_pretrained に渡します:

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler

model_id = "CompVis/stable-diffusion-v1-4"

# ここではEulerスケジューラを使用する
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")

高度な使用法

TPUやGPUでStableDiffusionを使用してより高速な推論を行うには、JAX/Flaxを利用できます。

デフォルトのPNDMSchedulerでパイプラインを実行する

import jax
import numpy as np
from flax.jax_utils import replicate
from flax.training.common_utils import shard

from diffusers import FlaxStableDiffusionPipeline

pipeline, params = FlaxStableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", revision="flax", dtype=jax.numpy.bfloat16
)

prompt = "a photo of an astronaut riding a horse on mars"

prng_seed = jax.random.PRNGKey(0)
num_inference_steps = 50

num_samples = jax.device_count()
prompt = num_samples * [prompt]
prompt_ids = pipeline.prepare_inputs(prompt)

# 入力と乱数生成器をシャーディングする
params = replicate(params)
prng_seed = jax.random.split(prng_seed, num_samples)
prompt_ids = shard(prompt_ids)

images = pipeline(prompt_ids, params, prng_seed, num_inference_steps, jit=True).images
images = pipeline.numpy_to_pil(np.asarray(images.reshape((num_samples,) + images.shape[-3:])))

⚠️ 重要提示

TPUメモリが制限されている場合は、上記のようにデフォルトの float32 精度ではなく、bfloat16 精度で FlaxStableDiffusionPipeline をロードするようにしてください。これは、diffusersに「bf16」ブランチから重みをロードするように指示することで行うことができます。

import jax
import numpy as np
from flax.jax_utils import replicate
from flax.training.common_utils import shard

from diffusers import FlaxStableDiffusionPipeline

pipeline, params = FlaxStableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", revision="bf16", dtype=jax.numpy.bfloat16
)

prompt = "a photo of an astronaut riding a horse on mars"

prng_seed = jax.random.PRNGKey(0)
num_inference_steps = 50

num_samples = jax.device_count()
prompt = num_samples * [prompt]
prompt_ids = pipeline.prepare_inputs(prompt)

# 入力と乱数生成器をシャーディングする
params = replicate(params)
prng_seed = jax.random.split(prng_seed, num_samples)
prompt_ids = shard(prompt_ids)

images = pipeline(prompt_ids, params, prng_seed, num_inference_steps, jit=True).images
images = pipeline.numpy_to_pil(np.asarray(images.reshape((num_samples,) + images.shape[-3:])))

用途

直接利用

このモデルは研究目的のみを想定しています。考えられる研究分野やタスクには以下が含まれます。

有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの限界とバイアスの調査と理解。
アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
教育または創造的なツールでの応用。
生成モデルに関する研究。

除外される用途については以下で説明します。

誤用、悪意のある使用、および想定外の使用

注: このセクションは DALLE-MINIモデルカードから引用されていますが、Stable Diffusion v1にも同様に適用されます。

このモデルは、人々に敵意的または疎外感を与える環境を生み出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像の生成や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

想定外の使用

このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または広めること。
本人の同意なしでの個人のなりすまし。
見る人の同意なしの性的なコンテンツ。
誤情報とディスインフォメーション
重大な暴力とグロテスクな描写
著作権またはライセンスされた素材をその使用条件に違反して共有すること。
著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。

制限とバイアス

制限

このモデルは完全な写真のようなリアリズムを達成しません。
このモデルは読み取り可能なテキストをレンダリングできません。
このモデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
顔や人全体が適切に生成されない場合があります。
このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
このモデルの自動符号化部分は損失があります。
このモデルは大規模なデータセット LAION-5B で訓練されており、成人向けの素材が含まれており、追加の安全メカニズムと考慮なしでは製品での使用に適していません。
データセットを重複排除するための追加の措置は取られていません。その結果、訓練データに重複する画像についてある程度の記憶が見られます。訓練データは https://rom1504.github.io/clip-retrieval/ で検索でき、記憶された画像の検出に役立つ可能性があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は、LAION-2B(en) のサブセットで訓練されており、主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これはモデルの全体的な出力に影響を与え、白人と西洋文化がしばしばデフォルトとして設定されます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。

安全モジュール

このモデルの意図された使用法は、Diffusersの Safety Checker を使用することです。このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と照合することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは画像生成後の CLIPTextModel の埋め込み空間で有害な概念のクラス確率を比較します。これらの概念は生成された画像とともにモデルに渡され、各NSFW概念の手動で設計された重みと比較されます。

トレーニング

トレーニングデータ

モデル開発者は、モデルを訓練するために以下のデータセットを使用しました。

LAION-2B (en) とそのサブセット (次のセクションを参照)

トレーニング手順

Stable Diffusion v1-4は、オートエンコーダと拡散モデルを組み合わせた潜在的な拡散モデルであり、オートエンコーダの潜在空間で訓練されます。トレーニング中は、

画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状H x W x 3の画像を形状H/f x W/f x 4の潜在表現にマッピングします。
テキストプロンプトはViT-L/14テキストエンコーダを通じてエンコードされます。
テキストエンコーダの非プール出力は、クロスアテンションを介して潜在的な拡散モデルのUNetバックボーンに供給されます。
損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。

現在、以下のように訓練された4つのチェックポイントを提供しています。

stable-diffusion-v1-1: 解像度 256x256 で237,000ステップ、laion2B-en で。解像度 512x512 で194,000ステップ、laion-high-resolution (LAION-5Bから解像度 >= 1024x1024 の170Mの例) で。
stable-diffusion-v1-2: stable-diffusion-v1-1 から再開。解像度 512x512 で515,000ステップ、「laion-improved-aesthetics」(laion2B-enのサブセットで、元のサイズ >= 512x512、推定美学スコア > 5.0、推定ウォーターマーク確率 < 0.5 の画像にフィルタリングされています。ウォーターマークの推定はLAION-5Bのメタデータから、美学スコアは improved aesthetics estimator を使用して推定されています) で。
stable-diffusion-v1-3: stable-diffusion-v1-2 から再開。解像度 512x512 で195,000ステップ、「laion-improved-aesthetics」で、分類器なしガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップしました。
stable-diffusion-v1-4 stable-diffusion-v1-2 から再開。解像度 512x512 で225,000ステップ、「laion-aesthetic」で。

📄 ライセンス

このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスにより、さらに権利と使用方法が指定されています。

CreativeML OpenRAILライセンスでは、以下のことが指定されています。

モデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはなりません。
作成者は、あなたが生成する出力に対して何らかの権利を主張しません。あなたはそれらを自由に使用でき、その使用について責任を負い、ライセンスに定められた規定に違反してはなりません。
あなたは重みを再配布し、モデルを商業的におよび/またはサービスとして使用することができます。その場合、ライセンスと同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があることに注意してください (ライセンス全体を注意深く読んでください)。

完全なライセンスをこちらで注意深くお読みください: https://huggingface.co/spaces/CompVis/stable-diffusion-license