🚀 simpletuner-finetuned-sd3
這是一個基於 sd3/unknown-model 的全秩微調模型。該模型主要用於文本到圖像的生成任務,能夠根據輸入的文本生成高質量的圖像。
🚀 快速開始
此模型是基於 sd3/unknown-model 的全秩微調模型。訓練期間使用的主要驗證提示為:
A photo-realistic pathology image
✨ 主要特性
- 文本到圖像生成:支持根據輸入的文本生成相應的圖像。
- 圖像到圖像轉換:可對輸入的圖像進行轉換。
- 多種參數設置:提供豐富的訓練和驗證參數設置。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
import torch
from diffusers import DiffusionPipeline
model_id = 'Minh-Ha/simpletuner-finetuned-sd3'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
prompt = "A photo-realistic pathology image"
negative_prompt = 'blurry, cropped, ugly'
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
model_output = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_inference_steps=20,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
width=1024,
height=1024,
guidance_scale=3.0,
).images[0]
model_output.save("output.png", format="PNG")
📚 詳細文檔
驗證設置
- CFG:
3.0
- CFG Rescale:
0.0
- 步數:
20
- 採樣器:
FlowMatchEulerDiscreteScheduler
- 種子:
42
- 分辨率:
1024x1024
- 跳過層引導:
注意:驗證設置不一定與訓練設置相同。
你可以在以下圖庫中找到一些示例圖像:
文本編碼器未進行訓練。你可以重用基礎模型的文本編碼器進行推理。
訓練設置
- 訓練輪數: 1
- 訓練步數: 5000
- 學習率: 5e-06
- 最大梯度值: 2.0
- 有效批量大小: 4
- 微批量大小: 1
- 梯度累積步數: 4
- GPU 數量: 1
- 梯度檢查點: True
- 預測類型: flow_matching (額外參數=['shift=3'])
- 優化器: adamw_bf16
- 可訓練參數精度: Pure BF16
- 基礎模型精度:
no_change
- 字幕丟棄概率: 0.1%
數據集
images-512
- 重複次數: 1
- 圖像總數: 3061
- 縱橫比桶總數: 1
- 分辨率: 0.262144 兆像素
- 裁剪: True
- 裁剪樣式: 居中
- 裁剪縱橫比: 正方形
- 用於正則化數據: 否
images-768
- 重複次數: 1
- 圖像總數: 2242
- 縱橫比桶總數: 1
- 分辨率: 0.589824 兆像素
- 裁剪: True
- 裁剪樣式: 居中
- 裁剪縱橫比: 正方形
- 用於正則化數據: 否
images-1024
- 重複次數: 1
- 圖像總數: 1449
- 縱橫比桶總數: 1
- 分辨率: 1.048576 兆像素
- 裁剪: True
- 裁剪樣式: 居中
- 裁剪縱橫比: 正方形
- 用於正則化數據: 否
🔧 技術細節
文檔未提供足夠的技術細節描述,暫不展示。
📄 許可證
本項目使用其他許可證。