🚀 stable-diffusion-xl-inpainting-1.0-GGUF
stable-diffusion-xl-inpainting-1.0-GGUF 是一個文本到圖像的擴散模型,能夠根據文本輸入生成逼真圖像,還具備通過掩碼進行圖像修復的額外能力。該模型由 Diffusers 團隊開發,基於 stable-diffusion-xl-base-1.0 權重初始化。
🚀 快速開始
!!! 僅由 gpustack/llama-box v0.0.98+ 提供實驗性支持 !!!
模型創建者:Diffusers
原始模型:stable-diffusion-xl-1.0-inpainting-0.1
GGUF 量化:基於由 llama-box 打補丁的 stable-diffusion.cpp ac54e。
量化方式 |
OpenAI CLIP ViT-L/14 量化 |
OpenCLIP ViT-G/14 量化 |
VAE 量化 |
FP16 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
FP16 |
✨ 主要特性
SD-XL Inpainting 0.1 是一個潛在的文本到圖像擴散模型,能夠根據任何文本輸入生成逼真的圖像,並具有使用掩碼修復圖片的額外能力。該模型使用 stable-diffusion-xl-base-1.0
權重進行初始化,在 1024x1024 分辨率下訓練了 40k 步,並以 5% 的概率丟棄文本條件以改善無分類器引導採樣。對於圖像修復,UNet 有 5 個額外的輸入通道(4 個用於編碼掩碼圖像,1 個用於掩碼本身),其權重在恢復非修復檢查點後初始化為零。在訓練過程中,會生成合成掩碼,並以 25% 的概率對整個圖像進行掩碼處理。
💻 使用示例
基礎用法
from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")
img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"
image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))
prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)
image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20,
strength=0.99,
generator=generator,
).images[0]
效果展示
輸入圖像 |
掩碼圖像 |
 |
 |
提示詞 |
輸出圖像 |
a tiger sitting on a park bench |
 |
📚 詳細文檔
模型描述
用途
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 藝術品生成,以及在設計和其他藝術過程中的應用。
- 在教育或創意工具中的應用。
- 生成模型的研究。
- 對有可能生成有害內容的模型進行安全部署。
- 探索和理解生成模型的侷限性和偏差。
超出範圍的使用
該模型並非用於真實或準確地表示人物或事件,因此使用該模型生成此類內容超出了該模型的能力範圍。
侷限性和偏差
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染清晰可讀的文本。
- 模型在處理更復雜的組合性任務時存在困難,例如渲染與 “一個紅色立方體放在藍色球體上” 對應的圖像。
- 面部和人物通常可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
- 當強度參數設置為 1(即從完全掩碼的圖像開始進行圖像修復)時,圖像質量會下降。模型會保留圖像的非掩碼內容,但圖像看起來不夠清晰。目前正在對此進行研究並開發下一版本。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
📄 許可證
本模型採用 CreativeML Open RAIL++-M License 許可證。