Stable Diffusion XL Inpainting 1.0-GGUF開源模型 - 免費實現文本生圖與圖像修復

首頁

Stable Diffusion Xl Inpainting 1.0 GGUF

由gpustack開發

基於Stable Diffusion XL的文本生成圖像模型，具備圖像修復功能，能夠根據文本輸入和掩碼修改圖像內容。

圖像生成 #高分辨率圖像修復 #文本引導編輯 #1024x1024生成

下載量 387

發布時間 : 12/24/2024

模型概述

這是一個潛在的文本到圖像擴散模型，能夠根據任何文本輸入生成逼真的圖像，並具備通過使用掩碼修復圖片的額外功能。

模型特點

高分辨率圖像生成

支持1024x1024高分辨率圖像生成

圖像修復功能

可通過掩碼對圖像特定區域進行內容修復

雙文本編碼器

使用OpenCLIP-ViT/G和CLIP-ViT/L雙文本編碼器提升文本理解能力

量化支持

提供多種量化版本（FP16、Q8_0、Q4_1、Q4_0）以適應不同硬件需求

模型能力

文本生成圖像

圖像修復

高分辨率圖像生成

基於掩碼的內容編輯

使用案例

創意設計

藝術創作

根據文本描述生成藝術作品

生成符合描述的高質量圖像

圖像修復

修復圖像中的損壞或不需要的部分

無縫修復圖像指定區域

教育工具

視覺教學輔助

快速生成教學用視覺材料

根據教學內容生成相關圖像

🚀 stable-diffusion-xl-inpainting-1.0-GGUF

stable-diffusion-xl-inpainting-1.0-GGUF 是一個文本到圖像的擴散模型，能夠根據文本輸入生成逼真圖像，還具備通過掩碼進行圖像修復的額外能力。該模型由 Diffusers 團隊開發，基於 stable-diffusion-xl-base-1.0 權重初始化。

🚀 快速開始

!!! 僅由 gpustack/llama-box v0.0.98+ 提供實驗性支持 !!!

模型創建者：Diffusers
原始模型：stable-diffusion-xl-1.0-inpainting-0.1
GGUF 量化：基於由 llama-box 打補丁的 stable-diffusion.cpp ac54e。

量化方式	OpenAI CLIP ViT-L/14 量化	OpenCLIP ViT-G/14 量化	VAE 量化
FP16	FP16	FP16	FP16
Q8_0	FP16	FP16	FP16
Q4_1	FP16	FP16	FP16
Q4_0	FP16	FP16	FP16

✨ 主要特性

SD-XL Inpainting 0.1 是一個潛在的文本到圖像擴散模型，能夠根據任何文本輸入生成逼真的圖像，並具有使用掩碼修復圖片的額外能力。該模型使用 stable-diffusion-xl-base-1.0 權重進行初始化，在 1024x1024 分辨率下訓練了 40k 步，並以 5% 的概率丟棄文本條件以改善無分類器引導採樣。對於圖像修復，UNet 有 5 個額外的輸入通道（4 個用於編碼掩碼圖像，1 個用於掩碼本身），其權重在恢復非修復檢查點後初始化為零。在訓練過程中，會生成合成掩碼，並以 25% 的概率對整個圖像進行掩碼處理。

💻 使用示例

基礎用法

from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")

img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"

image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))

prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)

image = pipe(
  prompt=prompt,
  image=image,
  mask_image=mask_image,
  guidance_scale=8.0,
  num_inference_steps=20,  # steps between 15 and 30 work well for us
  strength=0.99,  # make sure to use `strength` below 1.0
  generator=generator,
).images[0]

效果展示

輸入圖像	掩碼圖像

提示詞	輸出圖像
a tiger sitting on a park bench

📚 詳細文檔

模型描述

開發者：The Diffusers 團隊
模型類型：基於擴散的文本到圖像生成模型
許可證：CreativeML Open RAIL++-M License
模型說明：這是一個可用於根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用兩個固定的預訓練文本編碼器（OpenCLIP-ViT/G 和 CLIP-ViT/L）。

用途

直接使用

該模型僅用於研究目的。可能的研究領域和任務包括：

藝術品生成，以及在設計和其他藝術過程中的應用。
在教育或創意工具中的應用。
生成模型的研究。
對有可能生成有害內容的模型進行安全部署。
探索和理解生成模型的侷限性和偏差。

超出範圍的使用

該模型並非用於真實或準確地表示人物或事件，因此使用該模型生成此類內容超出了該模型的能力範圍。

侷限性和偏差

侷限性

模型無法實現完美的照片級真實感。
模型無法渲染清晰可讀的文本。
模型在處理更復雜的組合性任務時存在困難，例如渲染與 “一個紅色立方體放在藍色球體上” 對應的圖像。
面部和人物通常可能無法正確生成。
模型的自動編碼部分存在信息損失。
當強度參數設置為 1（即從完全掩碼的圖像開始進行圖像修復）時，圖像質量會下降。模型會保留圖像的非掩碼內容，但圖像看起來不夠清晰。目前正在對此進行研究並開發下一版本。