flux-lora-training開源模型 - 免費實現文本生圖、圖像生成圖像功能

首頁

Flux Lora Training

由Forezeztgump開發

這是一個基於FLUX.1-dev的標準PEFT LoRA衍生模型，專注於文本生成圖像和圖像生成圖像任務。

圖像生成開源協議:其他 #高分辨率圖像生成 #流匹配優化 #LoRA微調

下載量 94

發布時間 : 4/15/2025

模型概述

該模型是基於black-forest-labs/FLUX.1-dev的標準PEFT LoRA衍生模型，主要用於文本生成圖像和圖像生成圖像任務。訓練期間使用的主要驗證提示詞為'照片：$kora貓在窗臺上睡覺。'

模型特點

LoRA微調

使用PEFT LoRA技術對基礎模型進行微調，保持模型輕量化

高分辨率輸出

支持1024x1024高分辨率圖像生成

流匹配預測

採用流匹配預測類型，優化圖像生成過程

模型能力

文本生成圖像

圖像生成圖像

使用案例

創意圖像生成

寵物圖像生成

根據文本描述生成特定品種的寵物圖像

示例中展示了'$kora貓在窗臺上睡覺'的圖像生成效果

🚀 flux-lora-training

這是一個基於 black-forest-labs/FLUX.1-dev 的標準PEFT LoRA模型，可用於文本到圖像的轉換。

🚀 快速開始

本項目是從 black-forest-labs/FLUX.1-dev 派生而來的標準PEFT LoRA。

訓練期間使用的主要驗證提示為：

photo of $kora the cat sleeping on a windowsill.

✨ 主要特性

基於標準PEFT LoRA技術。
適用於文本到圖像、圖像到圖像等多種任務。

📦 安裝指南

文檔未提及安裝步驟，可參考原模型 black-forest-labs/FLUX.1-dev 的安裝說明。

💻 使用示例

基礎用法

import torch
from diffusers import DiffusionPipeline

model_id = 'black-forest-labs/FLUX.1-dev'
adapter_id = 'Forezeztgump/flux-lora-training'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16) # loading directly in bf16
pipeline.load_lora_weights(adapter_id)

prompt = "photo of $kora the cat sleeping on a windowsill."


## Optional: quantise the model to save on vram.
## Note: The model was not quantised during training, so it is not necessary to quantise it during inference time.
#from optimum.quanto import quantize, freeze, qint8
#quantize(pipeline.transformer, weights=qint8)
#freeze(pipeline.transformer)
    
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu') # the pipeline is already in its target precision level
model_output = pipeline(
    prompt=prompt,
    num_inference_steps=15,
    generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
    width=1024,
    height=1024,
    guidance_scale=3.5,
).images[0]

model_output.save("output.png", format="PNG")

📚 詳細文檔

驗證設置

CFG: 3.5
CFG Rescale: 0.0
步數: 15
採樣器: FlowMatchEulerDiscreteScheduler
隨機種子: 42
分辨率: 1024x1024
跳過層引導:

注意：驗證設置不一定與訓練設置相同。

你可以在以下圖庫中找到一些示例圖像：

文本編碼器未進行訓練。你可以重用基礎模型的文本編碼器進行推理。

訓練設置

訓練輪數: 384
訓練步數: 5000
學習率: 0.0001
- 學習率調度: constant_with_warmup
- 熱身步數: 100
最大梯度值: 1.0
有效批量大小: 4
- 微批量大小: 4
- 梯度累積步數: 1
- GPU數量: 1
梯度檢查點: True
預測類型: flow-matching (額外參數=['flow_schedule_auto_shift', 'shift=0.0', 'flux_guidance_mode=constant', 'flux_guidance_value=1.0', 'flow_matching_loss=compatible', 'flux_lora_target=all+ffs'])
優化器: adamw_bf16
可訓練參數精度: Pure BF16
基礎模型精度: no_change
字幕丟棄概率: 0.0%
LoRA秩: 16
LoRA Alpha: None
LoRA丟棄率: 0.1
LoRA初始化風格: default