SDXL開源AI模型 - 免費部署輕鬆生成逼真貓照片

首頁

Sdxl

由ControlNetLoRA開發

基於stabilityai/stable-diffusion-xl-base-1.0的ControlNet PEFT LoHa模型，主要用於生成逼真的貓照片。

圖像生成開源協議:Openrail #ControlNet微調 #LoHa適配器 #高分辨率圖像生成

下載量 314

發布時間 : 4/15/2025

模型概述

這是一個基於ControlNet PEFT LoHa技術的圖像生成模型，能夠根據文本提示生成高質量的逼真圖像，特別擅長生成貓的照片。

模型特點

ControlNet PEFT LoHa技術

採用ControlNet PEFT LoHa技術，從stable-diffusion-xl-base-1.0模型派生而來，提供更高效的圖像生成能力。

逼真圖像生成

能夠生成高質量的逼真圖像，特別擅長生成貓的照片。

詳細的訓練參數設置

訓練過程中使用了詳細的參數設置，保證模型的穩定性和準確性。

模型能力

文本到圖像生成

逼真圖像生成

圖像風格轉換

使用案例

圖像生成

生成逼真的貓照片

根據文本提示生成高質量的逼真貓照片。

生成的圖像具有高分辨率和逼真效果。

🚀 simpletuner-controlnet-sdxl-lora-test

這是一個基於 stabilityai/stable-diffusion-xl-base-1.0 的 ControlNet PEFT LoHa。

在訓練過程中使用的主要驗證提示為：

一張逼真的貓的照片

🚀 快速開始

此項目基於特定的基礎模型和驗證提示進行訓練，可通過以下步驟進行推理操作。

✨ 主要特性

基於 ControlNet PEFT LoHa 技術，從 stabilityai/stable-diffusion-xl-base-1.0 模型派生而來。
可實現文本到圖像的轉換，生成逼真的圖像。
訓練和驗證過程有詳細的參數設置，保證模型的穩定性和準確性。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫的官方文檔進行安裝，如 diffusers、torch 等。

💻 使用示例

基礎用法

import torch
from diffusers import DiffusionPipeline

model_id = 'stabilityai/stable-diffusion-xl-base-1.0'
adapter_id = 'bghira/simpletuner-controlnet-sdxl-lora-test'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16) # loading directly in bf16
pipeline.load_lora_weights(adapter_id)

prompt = "A photo-realistic image of a cat"
negative_prompt = 'blurry, cropped, ugly'

## Optional: quantise the model to save on vram.
## Note: The model was not quantised during training, so it is not necessary to quantise it during inference time.
#from optimum.quanto import quantize, freeze, qint8
#quantize(pipeline.unet, weights=qint8)
#freeze(pipeline.unet)
    
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu') # the pipeline is already in its target precision level
model_output = pipeline(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=20,
    generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
    width=1024,
    height=1024,
    guidance_scale=4.2,
    guidance_rescale=0.0,
).images[0]

model_output.save("output.png", format="PNG")

高級用法

文檔未提及高級用法相關代碼示例，可根據實際需求調整推理參數，如 prompt、negative_prompt、num_inference_steps 等。

📚 詳細文檔

驗證設置

CFG：4.2
CFG 重縮放：0.0
步數：20
採樣器：ddim
種子：42
分辨率：1024x1024

注意：驗證設置不一定與訓練設置相同。

你可以在以下圖庫中找到一些示例圖像：

文本編碼器未進行訓練。你可以重用基礎模型的文本編碼器進行推理。

訓練設置

訓練輪數：4
訓練步數：100
學習率：0.0001
- 學習率調度：恆定
- 預熱步數：0
最大梯度值：2.0
有效批量大小：1
- 微批量大小：1
- 梯度累積步數：1
- GPU 數量：1
梯度檢查點：啟用
預測類型：epsilon（額外參數=['training_scheduler_timestep_spacing=trailing', 'inference_scheduler_timestep_spacing=trailing']）
優化器：bnb-lion8bit
可訓練參數精度：純 BF16
基礎模型精度：no_change
字幕丟棄概率：0.1%
LoRA 秩：128
LoRA 阿爾法：128.0
LoRA 丟棄率：0.1
LoRA 初始化風格：默認

數據集

antelope-data

重複次數：0
圖像總數：24
縱橫比桶總數：1
分辨率：1.048576 兆像素
裁剪：是
裁剪風格：居中
裁剪縱橫比：方形
用於正則化數據：否

🔧 技術細節

本項目基於 ControlNet PEFT LoHa 技術，從 stabilityai/stable-diffusion-xl-base-1.0 模型派生而來。在訓練過程中，使用了特定的驗證提示和詳細的訓練參數設置，以保證模型的性能和準確性。同時，在推理過程中，可通過加載基礎模型和適配器權重進行圖像生成。