🚀 sd35m-reflow
这是一个基于 stabilityai/stable-diffusion-3.5-medium 的标准PEFT LoRA模型。该模型主要用于文本到图像的生成任务,能够根据输入的文本描述生成高质量的图像。
🚀 快速开始
以下是使用该模型进行推理的基本步骤:
import torch
from diffusers import DiffusionPipeline
model_id = 'stabilityai/stable-diffusion-3.5-medium'
adapter_id = 'bghira/sd35m-reflow'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipeline.load_lora_weights(adapter_id)
prompt = "A photo-realistic image of a cat"
negative_prompt = 'blurry, cropped, ugly'
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
model_output = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_inference_steps=8,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
width=1024,
height=1024,
guidance_scale=1.0,
skip_guidance_layers=[],
).images[0]
model_output.save("output.png", format="PNG")
✨ 主要特性
- 基于
stabilityai/stable-diffusion-3.5-medium
基础模型,生成高质量的图像。
- 文本编码器未经过训练,可复用基础模型的文本编码器进行推理。
📚 详细文档
验证设置
- CFG:
1.0
- CFG Rescale:
0.0
- 步数:
8
- 采样器:
FlowMatchEulerDiscreteScheduler
- 随机种子:
42
- 分辨率:
1024x1024
- 跳过层引导:
skip_guidance_layers=[],
注意:验证设置不一定与训练设置相同。
你可以在以下图库中找到一些示例图像:
训练设置
属性 |
详情 |
训练轮数 |
1 |
训练步数 |
500 |
学习率 |
0.0001 |
学习率调度 |
constant_with_warmup |
预热步数 |
500 |
最大梯度值 |
0.1 |
有效批量大小 |
32 |
微批量大小 |
4 |
梯度累积步数 |
1 |
GPU数量 |
8 |
梯度检查点 |
True |
预测类型 |
flow_matching (额外参数=['flow_schedule_auto_shift', 'shift=0.0']) |
优化器 |
adamw_bf16 |
可训练参数精度 |
Pure BF16 |
基础模型精度 |
no_change |
字幕丢弃概率 |
10.0% |
LoRA秩 |
16 |
LoRA Alpha |
None |
LoRA丢弃率 |
0.1 |
LoRA初始化风格 |
default |
数据集
photo10k
- 重复次数: 0
- 图像总数: ~10040
- 纵横比桶总数: 2
- 分辨率: 1.048576 兆像素
- 裁剪: False
- 裁剪风格: None
- 裁剪纵横比: None
- 用于正则化数据: No
📄 许可证
本项目使用其他许可证。