SDXL开源AI模型 - 免费部署轻松生成逼真猫照片

首页

Sdxl

由 ControlNetLoRA 开发

基于stabilityai/stable-diffusion-xl-base-1.0的ControlNet PEFT LoHa模型，主要用于生成逼真的猫照片。

图像生成开源协议:Openrail #ControlNet微调 #LoHa适配器 #高分辨率图像生成

下载量 314

发布时间 : 4/15/2025

模型简介

这是一个基于ControlNet PEFT LoHa技术的图像生成模型，能够根据文本提示生成高质量的逼真图像，特别擅长生成猫的照片。

模型特点

ControlNet PEFT LoHa技术

采用ControlNet PEFT LoHa技术，从stable-diffusion-xl-base-1.0模型派生而来，提供更高效的图像生成能力。

逼真图像生成

能够生成高质量的逼真图像，特别擅长生成猫的照片。

详细的训练参数设置

训练过程中使用了详细的参数设置，保证模型的稳定性和准确性。

模型能力

文本到图像生成

逼真图像生成

图像风格转换

使用案例

图像生成

生成逼真的猫照片

根据文本提示生成高质量的逼真猫照片。

生成的图像具有高分辨率和逼真效果。

🚀 simpletuner-controlnet-sdxl-lora-test

这是一个基于 stabilityai/stable-diffusion-xl-base-1.0 的 ControlNet PEFT LoHa。

在训练过程中使用的主要验证提示为：

一张逼真的猫的照片

🚀 快速开始

此项目基于特定的基础模型和验证提示进行训练，可通过以下步骤进行推理操作。

✨ 主要特性

基于 ControlNet PEFT LoHa 技术，从 stabilityai/stable-diffusion-xl-base-1.0 模型派生而来。
可实现文本到图像的转换，生成逼真的图像。
训练和验证过程有详细的参数设置，保证模型的稳定性和准确性。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的官方文档进行安装，如 diffusers、torch 等。

💻 使用示例

基础用法

import torch
from diffusers import DiffusionPipeline

model_id = 'stabilityai/stable-diffusion-xl-base-1.0'
adapter_id = 'bghira/simpletuner-controlnet-sdxl-lora-test'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16) # loading directly in bf16
pipeline.load_lora_weights(adapter_id)

prompt = "A photo-realistic image of a cat"
negative_prompt = 'blurry, cropped, ugly'

## Optional: quantise the model to save on vram.
## Note: The model was not quantised during training, so it is not necessary to quantise it during inference time.
#from optimum.quanto import quantize, freeze, qint8
#quantize(pipeline.unet, weights=qint8)
#freeze(pipeline.unet)
    
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu') # the pipeline is already in its target precision level
model_output = pipeline(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=20,
    generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
    width=1024,
    height=1024,
    guidance_scale=4.2,
    guidance_rescale=0.0,
).images[0]

model_output.save("output.png", format="PNG")

高级用法

文档未提及高级用法相关代码示例，可根据实际需求调整推理参数，如 prompt、negative_prompt、num_inference_steps 等。

📚 详细文档

验证设置

CFG：4.2
CFG 重缩放：0.0
步数：20
采样器：ddim
种子：42
分辨率：1024x1024

注意：验证设置不一定与训练设置相同。

你可以在以下图库中找到一些示例图像：

文本编码器未进行训练。你可以重用基础模型的文本编码器进行推理。

训练设置

训练轮数：4
训练步数：100
学习率：0.0001
- 学习率调度：恒定
- 预热步数：0
最大梯度值：2.0
有效批量大小：1
- 微批量大小：1
- 梯度累积步数：1
- GPU 数量：1
梯度检查点：启用
预测类型：epsilon（额外参数=['training_scheduler_timestep_spacing=trailing', 'inference_scheduler_timestep_spacing=trailing']）
优化器：bnb-lion8bit
可训练参数精度：纯 BF16
基础模型精度：no_change
字幕丢弃概率：0.1%
LoRA 秩：128
LoRA 阿尔法：128.0
LoRA 丢弃率：0.1
LoRA 初始化风格：默认

数据集

antelope-data

重复次数：0
图像总数：24
纵横比桶总数：1
分辨率：1.048576 兆像素
裁剪：是
裁剪风格：居中
裁剪纵横比：方形
用于正则化数据：否

🔧 技术细节

本项目基于 ControlNet PEFT LoHa 技术，从 stabilityai/stable-diffusion-xl-base-1.0 模型派生而来。在训练过程中，使用了特定的验证提示和详细的训练参数设置，以保证模型的性能和准确性。同时，在推理过程中，可通过加载基础模型和适配器权重进行图像生成。