🚀 rangerover-phase1-2e-4-constant-wcrops
这是一个基于 black-forest-labs/FLUX.1-dev 的标准PEFT LoRA模型。该模型可用于文本到图像的转换,能生成高质量的图像。
🚀 快速开始
本项目是一个基于特定基础模型的标准PEFT LoRA模型。在使用模型时,需要了解验证设置和训练设置的相关参数,同时可以参考推理部分的代码示例进行图像生成。
📦 安装指南
文档未提及具体安装步骤,可参考基础模型 black-forest-labs/FLUX.1-dev 的安装说明。
💻 使用示例
基础用法
import torch
from diffusers import DiffusionPipeline
model_id = 'black-forest-labs/FLUX.1-dev'
adapter_id = 'mipat12/rangerover-phase1-2e-4-constant-wcrops'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
pipeline.load_lora_weights(adapter_id)
prompt = "An astronaut is riding a horse through the jungles of Thailand."
from optimum.quanto import quantize, freeze, qint8
quantize(pipeline.transformer, weights=qint8)
freeze(pipeline.transformer)
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
model_output = pipeline(
prompt=prompt,
num_inference_steps=20,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
width=1344,
height=768,
guidance_scale=3.0,
).images[0]
model_output.save("output.png", format="PNG")
高级用法
文档未提及高级用法相关代码,可根据基础用法进行拓展,例如调整更多的参数以获得不同风格的图像。
📚 详细文档
验证设置
- CFG:
3.0
- CFG Rescale:
0.0
- Steps:
20
- Sampler:
FlowMatchEulerDiscreteScheduler
- Seed:
42
- Resolution:
1344x768
- Skip-layer guidance:
注意:验证设置不一定与训练设置相同。
你可以在以下图库中找到一些示例图像:
文本编码器未进行训练。你可以在推理时复用基础模型的文本编码器。
训练设置
属性 |
详情 |
训练轮数 |
2 |
训练步数 |
10000 |
学习率 |
8e - 05 |
学习率调度 |
多项式 |
热身步数 |
100 |
最大梯度值 |
0.1 |
有效批量大小 |
3 |
微批量大小 |
3 |
梯度累积步数 |
1 |
GPU数量 |
1 |
梯度检查点 |
启用 |
预测类型 |
流匹配(额外参数=['shift = 3.0', 'flux_guidance_mode = constant', 'flux_guidance_value = 1.0', 'flow_matching_loss = compatible', 'flux_lora_target = all']) |
优化器 |
adamw_bf16 |
可训练参数精度 |
纯BF16 |
基础模型精度 |
int8 - quanto |
字幕丢弃概率 |
5.0% |
LoRA秩 |
64 |
LoRA Alpha |
无 |
LoRA丢弃率 |
0.1 |
LoRA初始化风格 |
默认 |
数据集
本模型使用了多个数据集进行训练,以下是各数据集的相关信息:
数据集名称 |
重复次数 |
图像总数 |
纵横比桶总数 |
分辨率 |
是否裁剪 |
裁剪风格 |
裁剪纵横比 |
是否用于正则化数据 |
klimt - background - 512 |
22 |
79 |
4 |
0.262144兆像素 |
否 |
无 |
无 |
否 |
klimt - background - 768 |
22 |
79 |
3 |
0.589824兆像素 |
否 |
无 |
无 |
否 |
klimt - background - 1024 |
11 |
79 |
17 |
1.048576兆像素 |
否 |
无 |
无 |
否 |
klimt - background - 1536 |
5 |
69 |
19 |
2.359296兆像素 |
否 |
无 |
无 |
否 |
klimt - background - 512 - crop |
11 |
77 |
1 |
0.262144兆像素 |
是 |
随机 |
方形 |
否 |
klimt - background - 768 - crop |
11 |
74 |
1 |
0.589824兆像素 |
是 |
随机 |
方形 |
否 |
klimt - background - 512 - tight - crop |
11 |
77 |
1 |
0.262144兆像素 |
是 |
随机 |
方形 |
否 |
klimt - background - 768 - tight - crop |
11 |
74 |
1 |
0.589824兆像素 |
是 |
随机 |
方形 |
否 |
klimt - background - 1024 - crop |
5 |
70 |
1 |
1.048576兆像素 |
是 |
随机 |
方形 |
否 |
📄 许可证
本项目使用其他许可证。具体许可证信息请参考相关链接。