通量Lora训练模型 - 开源完成文生图、图生图，支持高分辨率图像生成

首页

Flux Lora Training

由 hok00i3 开发

这是一个基于FLUX.1-dev模型的PEFT LoRA模型，专注于文生图和图生图任务，支持高分辨率图像生成。

图像生成开源协议:其他 #照片级真实感 #二次元人物生成 #高分辨率图像

下载量 39

发布时间 : 1/10/2025

模型简介

该模型是一个标准的PEFT LoRA，源自FLUX.1-dev基础模型，主要用于生成高质量的照片级真实感图像，特别擅长生成日本二十岁出头女性的精细图像。

模型特点

高分辨率图像生成

支持4k、8k高分辨率图像生成，具有照片级真实感。

精细控制

通过详细的提示词可以精确控制生成图像的细节，如服装、表情、场景等。

LoRA微调

使用LoRA技术进行微调，保持基础模型能力的同时增加特定风格生成能力。

模型能力

文生图

图生图

高分辨率图像生成

照片级真实感图像生成

使用案例

艺术创作

动漫风格人物生成

生成日本动漫风格的精细人物图像，可控制服装、表情等细节。

示例图片展示了穿着水手服的女性角色在教室中的图像。

概念设计

角色设计

快速生成角色概念图，用于游戏或动画前期设计。

🚀 flux-lora-training

这是一个基于 black-forest-labs/FLUX.1-dev 的标准PEFT LoRA模型。它可用于文本到图像、图像到图像等多种任务，为图像生成提供了强大的支持。

✨ 主要特性

基于 black-forest-labs/FLUX.1-dev 基础模型派生而来。
支持文本到图像、图像到图像等多种图像生成任务。
提供了详细的训练和验证设置。

📦 安装指南

文档未提及具体安装步骤，故跳过该章节。

💻 使用示例

基础用法

import torch
from diffusers import DiffusionPipeline

model_id = 'black-forest-labs/FLUX.1-dev'
adapter_id = 'hok00i3/flux-lora-training'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16) # loading directly in bf16
pipeline.load_lora_weights(adapter_id)

prompt = "(ultra detailed,photo,photograph,best quality,high resolution,4k,8k,photorealistic,Japanese early twenties,(slim) and curvy body,waist,detailed beautiful eyes,super detailed eyes and skins,very beautiful woman:3.0), (Wearing tight short sleeves white (one piece) sailor uniform, blue collar, red neckerchief, dark blue pleated dress, standing in empty classroom,sweet smiling:2.0), long straight hair, standing in empty classroom,"


## Optional: quantise the model to save on vram.
## Note: The model was not quantised during training, so it is not necessary to quantise it during inference time.
#from optimum.quanto import quantize, freeze, qint8
#quantize(pipeline.transformer, weights=qint8)
#freeze(pipeline.transformer)
    
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu') # the pipeline is already in its target precision level
model_output = pipeline(
    prompt=prompt,
    num_inference_steps=20,
    generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
    width=1024,
    height=1024,
    guidance_scale=3.5,
).images[0]

model_output.save("output.png", format="PNG")

📚 详细文档

验证设置

CFG：3.5
CFG Rescale：0.0
步数：20
采样器：FlowMatchEulerDiscreteScheduler
种子：42
分辨率：1024x1024
跳过层引导：

注意：验证设置不一定与训练设置相同。

你可以在以下图库中找到一些示例图像：

文本编码器未进行训练。你可以重用基础模型的文本编码器进行推理。

训练设置

训练轮数：92
训练步数：2400
学习率：0.0001
- 学习率调度：constant_with_warmup
- 预热步数：100
最大梯度值：1.0
有效批量大小：1
- 微批量大小：1
- 梯度累积步数：1
- GPU数量：1
梯度检查点：True
预测类型：flow-matching (额外参数=['flow_schedule_auto_shift', 'shift=0.0', 'flux_guidance_mode=constant', 'flux_guidance_value=1.0', 'flow_matching_loss=compatible', 'flux_lora_target=all+ffs'])
优化器：adamw_bf16
可训练参数精度：Pure BF16
基础模型精度：no_change
字幕丢弃概率：0.0%
LoRA秩：16
LoRA Alpha：None
LoRA丢弃率：0.1
LoRA初始化风格：default