🚀 Furception v1.0
Furception v1.0 是由 Project RedRocket 推出的一款 VAE 解碼器微調模型。它基於 e621 上的圖像,從 stabilityai/sd - vae - ft - mse 恢復訓練而來。該模型在清晰度和輸出平滑度之間取得了良好平衡,能有效處理圖像相關問題。
🚀 快速開始
Furception v1.0 是一個基於 e621 圖像對 VAE 解碼器進行微調的模型,它從 stabilityai/sd - vae - ft - mse 恢復訓練。訓練過程中混合使用了 MAE 和 MSE 損失,以在圖像的清晰度和輸出的平滑度之間保持可接受的平衡。並且在 Oklab 顏色空間中計算損失,以便根據哪些顏色通道在感知上更重要來優先進行圖像重建。
測試表明,當在基於相似數據訓練的模型上使用時,該 VAE 擅長消除不需要的高頻噪聲。在純色圖像上的效果比在寫實或繪畫風格圖像上更明顯,但在任何類型的圖像上都未發現明顯的性能損失。在低分辨率生成圖像上效果更顯著,但在所有分辨率下都有改進。由於數據集中不同風格的多樣性,它可能對更廣泛的藝術風格具有一定的泛化能力。
以下是默認 VAE (kl - f8) 和 Furception v1.0 的效果對比:
默認 VAE (kl - f8) |
Furception v1.0 |
 |
 |
可以注意到,輸出整體更平滑,並且在高細節區域的邊緣周圍的偽影明顯減少。
📄 許可證
此 VAE 可根據 [CC BY - NC - SA 4.0 許可協議](https://creativecommons.org/licenses/by - nc - sa/4.0/) 使用。該許可僅適用於模型的使用、部署和模型權重的分發。此許可不適用於由該 VAE 解碼的圖像,只要不是用於商業目的創建圖像,你可以根據任何許可(甚至是公共領域許可)發佈這些圖像。你可以自由且鼓勵將此 VAE 與模型一起分發,只要你給予適當的引用並且 VAE 攜帶此許可(模型的其餘部分不需要共享此許可,儘管其分發必須是非商業性的),同時建議你包含版本號,以便人們知道未來是否需要獲取更新版本。
🔧 技術細節
訓練方式
總體訓練基本與 LDM 類似。在 MAE、MSE 和 LPIPS 方面,使用了與 LDM 以及 sd - vae - ft - mse(在 LPIPS 情況下)相同的相對基礎權重。損失目標中判別器的權重是動態設置的,使得判別器的梯度範數是重建損失的一半,這與 LDM 相同。使用了與 LDM 類似的判別器,但重新參數化為帶有梯度懲罰的 Wasserstein 損失,並將其組歸一化層替換為層歸一化。
訓練參數
版本 1.0 的訓練使用了不同下采樣級別的隨機方形裁剪(使用帶抗鋸齒的 Lanczos 方法),並進行隨機旋轉和翻轉。訓練以批量大小 32 運行了 150,000 步。使用與 sd - vae - ft - mse 類似的衰減率(根據批量大小進行縮放)來累積 EMA 權重,這些 EMA 權重即為模型的發佈版本。
📚 詳細文檔
項目貢獻
- 開發和研究主導:@drhead
- 研究和開發協助:@RedHotTensors
- 額外研究協助:@lodestones 和 Thessalo
- 數據集整理:@lodestones 和 Bannanapuncakes,@RedHotTensors 提供額外整理
- 系統管理協助:dogarrowtype
參考項目
- CompVis Latent Diffusion: https://github.com/CompVis/latent - diffusion/
- StabilityAI sd - vae - ft - mse: https://huggingface.co/stabilityai/sd - vae - ft - mse
- LPIPS by Richard Zhang, et al: https://github.com/richzhang/PerceptualSimilarity
- OkLab by Björn Ottosson: https://bottosson.github.io/posts/oklab/
- fine - tune - models by Jonathan Chang: https://github.com/cccntu/fine - tune - models/
依賴框架
- Flax by Google Brain: https://github.com/google/flax
- Huggingface Diffusers: https://github.com/huggingface/diffusers
在此,向無數將作品公開以供此非商業研究項目合理使用的藝術家表示深深的感謝。