🚀 SDXL-512
SDXL-512是一個基於SDXL 1.0微調的檢查點,旨在更輕鬆地在512x512分辨率及其附近生成更高保真度的圖像。該模型能有效解決在特定分辨率下圖像生成的複雜性問題,為用戶提供更便捷的圖像生成體驗。

🚀 快速開始
安裝依賴
確保將diffusers
升級到 >= 0.18.2:
pip install diffusers --upgrade
此外,確保安裝transformers
、safetensors
、accelerate
以及invisible_watermark
:
pip install invisible_watermark transformers accelerate safetensors
運行示例
運行管道(如果不更換調度器,它將使用默認的EulerDiscreteScheduler,在本示例中,我們將其更換為EulerAncestralDiscreteScheduler):
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
pipe = StableDiffusionXLPipeline.from_pretrained(
"hotshotco/SDXL-512",
use_safetensors=True,
).to('cuda')
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
prompt = "a woman laughing"
negative_prompt = ""
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=512,
height=512,
target_size=(1024, 1024),
original_size=(4096, 4096),
num_inference_steps=50
).images[0]
image.save("woman_laughing.png")
✨ 主要特性
- SDXL-512從SDXL 1.0微調而來,專門用於在512x512分辨率及其附近更簡單地生成更高保真度的圖像。
- 模型在精心策劃的多寬高比數據集上進行微調,交替使用低分辨率和高分辨率批次(每個寬高比),以不損害基礎模型在更高分辨率下的現有性能。
- 推薦與Hotshot-XL一起使用。
📚 詳細文檔
模型描述
屬性 |
詳情 |
開發者 |
Natural Synthetics Inc. |
模型類型 |
基於擴散的文生圖生成模型 |
許可證 |
CreativeML Open RAIL++-M License |
模型描述 |
這是一個可用於在512x512分辨率及其附近生成和修改更高保真度圖像的模型。 |
更多信息資源 |
查看我們的 GitHub 倉庫。 |
微調基礎模型 |
Stable Diffusion XL 1.0 |
注意事項
需要再次強調的是,SDXL-512並非旨在比SDXL “更好”,而是為了簡化在512x512分辨率及其附近生成更高保真度輸出的提示過程。
🔧 技術細節
SDXL-512模型使用學習率為1e - 6,在7000步上進行微調,批量大小為64。微調數據集為多寬高比的精心策劃數據集,通過交替使用低分辨率和高分辨率批次(每個寬高比),避免損害基礎模型在更高分辨率下的現有性能。
📄 許可證
本模型使用CreativeML Open RAIL++ - M License許可證。
⚠️ 侷限性和偏差
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染清晰可讀的文本。
- 模型在處理涉及組合性的更復雜任務時存在困難,例如渲染與 “一個紅色立方體放在藍色球體上” 對應的圖像。
- 面部和人物通常可能無法正確生成。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。