🚀 SD-XL Inpainting 0.1 モデルカード
SD-XL Inpainting 0.1は、任意のテキスト入力を元に写真のようにリアルな画像を生成することができる潜在的なテキスト-to-画像拡散モデルです。さらに、マスクを使用して画像のインペインティングが可能です。
SD-XL Inpainting 0.1は、stable-diffusion-xl-base-1.0
の重みで初期化されました。このモデルは、解像度1024x1024で40kステップトレーニングされ、分類器フリーガイダンスサンプリングを改善するためにテキスト条件付けを5%ドロップしました。インペインティングのために、UNetには追加の5つの入力チャネル(エンコードされたマスク画像用の4つとマスク自体用の1つ)があり、非インペインティングチェックポイントを復元した後、その重みはゼロで初期化されます。トレーニング中には、合成マスクを生成し、25%の確率ですべてをマスクします。

🚀 クイックスタート
💻 使用例
基本的な使用法
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20,
strength=0.99,
generator=generator,
).images[0]
動作原理:
image |
mask_image |
 |
 |
prompt |
Output |
a tiger sitting on a park bench |
 |
📚 ドキュメント
モデルの説明
使用方法
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育用または創造的なツールでのアプリケーション。
- 生成モデルに関する研究。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限やバイアスの調査と理解。
除外される使用方法については以下で説明します。
想定外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するようにトレーニングされていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
制限とバイアス
制限
- モデルは完全な写真のようなリアリズムを達成できません。
- モデルは読み取り可能なテキストをレンダリングできません。
- モデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
- 顔や一般的な人物は適切に生成されない場合があります。
- モデルのオートエンコーディング部分は損失があります。
- 強度パラメータが1に設定された場合(つまり、完全にマスクされた画像からインペインティングを開始する場合)、画像の品質が低下します。モデルは画像の非マスク部分を保持しますが、画像は鮮明さを失います。これについて調査中であり、次のバージョンで改善する予定です。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルはCreativeML Open RAIL++-M Licenseの下で提供されています。