🚀 stable-diffusion-xl-inpainting-1.0-GGUF
このモデルは、テキスト入力に基づいて写真のようにリアルな画像を生成でき、マスクを使用して画像のインペインティングも可能です。実験的なモデルで、特定の環境でのみサポートされています。
ライセンス: openrail++
ベースモデル: stabilityai/stable-diffusion-xl-base-1.0
タグ:
- stable-diffusion-xl
- stable-diffusion-xl-diffusers
- text-to-image
- diffusers
- inpainting
推論: false
⚠️ 重要提示
このモデルは実験的なもので、gpustack/llama-box v0.0.98+ のみでサポートされています。
モデル作成者: Diffusers
オリジナルモデル: stable-diffusion-xl-1.0-inpainting-0.1
GGUF量子化: llama-boxによってパッチが適用されたstable-diffusion.cpp ac54e に基づいています。
量子化 |
OpenAI CLIP ViT-L/14量子化 |
OpenCLIP ViT-G/14量子化 |
VAE量子化 |
FP16 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
FP16 |
🚀 クイックスタート
モデル概要

SD-XL Inpainting 0.1は、潜在的なテキストから画像への拡散モデルで、任意のテキスト入力に基づいて写真のようにリアルな画像を生成でき、マスクを使用して画像のインペインティングも可能です。このモデルは stable-diffusion-xl-base-1.0
の重みで初期化され、解像度1024x1024で40kステップ訓練され、分類器フリーガイダンスサンプリングを改善するためにテキスト条件付けを5%ドロップしています。インペインティングのために、UNetには5つの追加入力チャネル(エンコードされたマスク画像用の4つとマスク自体用の1つ)があり、非インペインティングチェックポイントを復元した後、その重みはゼロで初期化されます。訓練中に合成マスクを生成し、25%の確率ですべてをマスクします。
使用方法
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20,
strength=0.99,
generator=generator,
).images[0]
動作の仕組み:
image |
mask_image |
 |
 |
prompt |
Output |
a tiger sitting on a park bench |
 |
📚 ドキュメント
モデルの説明
使用用途
直接的な使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育または創造的ツールでの応用。
- 生成モデルの研究。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限とバイアスの調査と理解。
以下に除外される使用方法を説明します。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
制限とバイアス
制限
- このモデルは完全な写真のようなリアリズムを達成しません。
- このモデルは読めるテキストをレンダリングできません。
- このモデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
- 顔や一般的な人物は適切に生成されない場合があります。
- モデルのオートエンコーディング部分は損失があります。
- 強度パラメータが1に設定された場合(つまり、完全にマスクされた画像からインペインティングを開始する場合)、画像の品質が低下します。モデルは画像の非マスク部分を保持しますが、画像は鮮明さを失います。これについて調査中で、次のバージョンで改善する予定です。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルは CreativeML Open RAIL++-M License の下で提供されています。