🚀 quilt-1m-finetuned-sd3.5
本項目是基於 sd3/unknown-model 進行的全秩微調模型。它主要用於文本到圖像的生成任務,能根據輸入的文本描述生成逼真的圖像。
🚀 快速開始
你可以參考以下代碼示例進行推理:
import torch
from diffusers import DiffusionPipeline
model_id = 'Minh-Ha/quilt-1m-finetuned-sd3.5'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
prompt = "A photo-realistic pathology image"
negative_prompt = 'blurry, cropped, ugly'
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
model_output = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_inference_steps=20,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
width=1024,
height=1024,
guidance_scale=3.0,
).images[0]
model_output.save("output.png", format="PNG")
✨ 主要特性
- 基於預訓練模型進行全秩微調,提升圖像生成效果。
- 支持文本到圖像、圖像到圖像的生成任務。
- 可通過調整推理參數生成不同風格和分辨率的圖像。
📚 詳細文檔
驗證設置
- CFG:
3.0
- CFG Rescale:
0.0
- 步數:
20
- 採樣器:
FlowMatchEulerDiscreteScheduler
- 種子:
42
- 分辨率:
1024x1024
- 跳過層引導:
注意:驗證設置不一定與訓練設置相同。
你可以在以下圖庫中找到一些示例圖像:
文本編碼器未進行訓練,你可以重用基礎模型的文本編碼器進行推理。
訓練設置
屬性 |
詳情 |
訓練輪數 |
0 |
訓練步數 |
10000 |
學習率 |
5e-06 |
學習率調度 |
多項式 |
熱身步數 |
100 |
最大梯度值 |
2.0 |
有效批量大小 |
16 |
微批量大小 |
1 |
梯度累積步數 |
4 |
GPU數量 |
4 |
梯度檢查點 |
是 |
預測類型 |
flow_matching (額外參數=['shift=3']) |
優化器 |
adamw_bf16 |
可訓練參數精度 |
Pure BF16 |
基礎模型精度 |
no_change |
字幕丟棄概率 |
0.1% |
數據集
images-512
- 重複次數:1
- 圖像總數:~417748
- 縱橫比桶總數:1
- 分辨率:0.262144 兆像素
- 裁剪:是
- 裁剪風格:隨機
- 裁剪縱橫比:方形
- 是否用於正則化數據:否
images-768
- 重複次數:1
- 圖像總數:~266740
- 縱橫比桶總數:1
- 分辨率:0.589824 兆像素
- 裁剪:是
- 裁剪風格:隨機
- 裁剪縱橫比:方形
- 是否用於正則化數據:否
images-1024
- 重複次數:1
- 圖像總數:~246816
- 縱橫比桶總數:1
- 分辨率:1.048576 兆像素
- 裁剪:是
- 裁剪風格:隨機
- 裁剪縱橫比:方形
- 是否用於正則化數據:否
📄 許可證
本項目使用其他許可證。