🚀 SDXL-512
SDXL-512是一个基于SDXL 1.0微调的检查点,旨在更轻松地在512x512分辨率及其附近生成更高保真度的图像。该模型能有效解决在特定分辨率下图像生成的复杂性问题,为用户提供更便捷的图像生成体验。

🚀 快速开始
安装依赖
确保将diffusers
升级到 >= 0.18.2:
pip install diffusers --upgrade
此外,确保安装transformers
、safetensors
、accelerate
以及invisible_watermark
:
pip install invisible_watermark transformers accelerate safetensors
运行示例
运行管道(如果不更换调度器,它将使用默认的EulerDiscreteScheduler,在本示例中,我们将其更换为EulerAncestralDiscreteScheduler):
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
pipe = StableDiffusionXLPipeline.from_pretrained(
"hotshotco/SDXL-512",
use_safetensors=True,
).to('cuda')
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
prompt = "a woman laughing"
negative_prompt = ""
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=512,
height=512,
target_size=(1024, 1024),
original_size=(4096, 4096),
num_inference_steps=50
).images[0]
image.save("woman_laughing.png")
✨ 主要特性
- SDXL-512从SDXL 1.0微调而来,专门用于在512x512分辨率及其附近更简单地生成更高保真度的图像。
- 模型在精心策划的多宽高比数据集上进行微调,交替使用低分辨率和高分辨率批次(每个宽高比),以不损害基础模型在更高分辨率下的现有性能。
- 推荐与Hotshot-XL一起使用。
📚 详细文档
模型描述
属性 |
详情 |
开发者 |
Natural Synthetics Inc. |
模型类型 |
基于扩散的文生图生成模型 |
许可证 |
CreativeML Open RAIL++-M License |
模型描述 |
这是一个可用于在512x512分辨率及其附近生成和修改更高保真度图像的模型。 |
更多信息资源 |
查看我们的 GitHub 仓库。 |
微调基础模型 |
Stable Diffusion XL 1.0 |
注意事项
需要再次强调的是,SDXL-512并非旨在比SDXL “更好”,而是为了简化在512x512分辨率及其附近生成更高保真度输出的提示过程。
🔧 技术细节
SDXL-512模型使用学习率为1e - 6,在7000步上进行微调,批量大小为64。微调数据集为多宽高比的精心策划数据集,通过交替使用低分辨率和高分辨率批次(每个宽高比),避免损害基础模型在更高分辨率下的现有性能。
📄 许可证
本模型使用CreativeML Open RAIL++ - M License许可证。
⚠️ 局限性和偏差
局限性
- 模型无法实现完美的照片级真实感。
- 模型无法渲染清晰可读的文本。
- 模型在处理涉及组合性的更复杂任务时存在困难,例如渲染与 “一个红色立方体放在蓝色球体上” 对应的图像。
- 面部和人物通常可能无法正确生成。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。