furception_vae開源圖像解碼器 - 優化圖像重建質量，免費提升圖像效果

首頁

Furception Vae

由RedRocket開發

這是一個基於stabilityai/sd-vae-ft-mse微調的VAE解碼器，專門針對e621圖像數據進行優化，採用MAE和MSE混合損失函數，在Oklab色彩空間中計算損失，以提升圖像重建質量。

圖像生成 #高頻噪聲抑制 #Oklab色彩優化 #動漫風格增強

下載量 26

發布時間 : 1/12/2024

模型概述

Furception v1.0是一個VAE解碼器，專注於圖像到圖像的轉換任務，特別優化了在純色圖像上的表現，能有效減少高頻噪聲和邊緣偽影，適用於多種藝術風格的圖像處理。

模型特點

優化的色彩空間處理

在Oklab色彩空間中計算損失，優先考慮感知上更重要的顏色通道，提升圖像重建質量。

混合損失函數

結合MAE和MSE損失，平衡清晰度和平滑輸出，減少高頻噪聲。

廣泛的藝術風格適應性

由於訓練數據包含多種藝術風格，該VAE對多種藝術風格具有一定的泛化能力。

模型能力

圖像重建

噪聲減少

邊緣偽影消除

色彩優化

使用案例

藝術創作

動漫圖像優化

用於優化動漫風格圖像，減少高頻噪聲和邊緣偽影。

輸出圖像更平滑，細節區域的偽影顯著減少。

圖像處理

低分辨率圖像增強

提升低分辨率生成圖像的質量。

在所有分辨率下均有改進，低分辨率效果更為顯著。

🚀 Furception v1.0

Furception v1.0 是由 Project RedRocket 推出的一款 VAE 解碼器微調模型。它基於 e621 上的圖像，從 stabilityai/sd - vae - ft - mse 恢復訓練而來。該模型在清晰度和輸出平滑度之間取得了良好平衡，能有效處理圖像相關問題。

🚀 快速開始

Furception v1.0 是一個基於 e621 圖像對 VAE 解碼器進行微調的模型，它從 stabilityai/sd - vae - ft - mse 恢復訓練。訓練過程中混合使用了 MAE 和 MSE 損失，以在圖像的清晰度和輸出的平滑度之間保持可接受的平衡。並且在 Oklab 顏色空間中計算損失，以便根據哪些顏色通道在感知上更重要來優先進行圖像重建。

測試表明，當在基於相似數據訓練的模型上使用時，該 VAE 擅長消除不需要的高頻噪聲。在純色圖像上的效果比在寫實或繪畫風格圖像上更明顯，但在任何類型的圖像上都未發現明顯的性能損失。在低分辨率生成圖像上效果更顯著，但在所有分辨率下都有改進。由於數據集中不同風格的多樣性，它可能對更廣泛的藝術風格具有一定的泛化能力。

以下是默認 VAE (kl - f8) 和 Furception v1.0 的效果對比：

默認 VAE (kl - f8)	Furception v1.0

可以注意到，輸出整體更平滑，並且在高細節區域的邊緣周圍的偽影明顯減少。

📄 許可證

此 VAE 可根據 [CC BY - NC - SA 4.0 許可協議](https://creativecommons.org/licenses/by - nc - sa/4.0/) 使用。該許可僅適用於模型的使用、部署和模型權重的分發。此許可不適用於由該 VAE 解碼的圖像，只要不是用於商業目的創建圖像，你可以根據任何許可（甚至是公共領域許可）發佈這些圖像。你可以自由且鼓勵將此 VAE 與模型一起分發，只要你給予適當的引用並且 VAE 攜帶此許可（模型的其餘部分不需要共享此許可，儘管其分發必須是非商業性的），同時建議你包含版本號，以便人們知道未來是否需要獲取更新版本。

🔧 技術細節

訓練方式

總體訓練基本與 LDM 類似。在 MAE、MSE 和 LPIPS 方面，使用了與 LDM 以及 sd - vae - ft - mse（在 LPIPS 情況下）相同的相對基礎權重。損失目標中判別器的權重是動態設置的，使得判別器的梯度範數是重建損失的一半，這與 LDM 相同。使用了與 LDM 類似的判別器，但重新參數化為帶有梯度懲罰的 Wasserstein 損失，並將其組歸一化層替換為層歸一化。

訓練參數

版本 1.0 的訓練使用了不同下采樣級別的隨機方形裁剪（使用帶抗鋸齒的 Lanczos 方法），並進行隨機旋轉和翻轉。訓練以批量大小 32 運行了 150,000 步。使用與 sd - vae - ft - mse 類似的衰減率（根據批量大小進行縮放）來累積 EMA 權重，這些 EMA 權重即為模型的發佈版本。

📚 詳細文檔

項目貢獻

開發和研究主導：@drhead
研究和開發協助：@RedHotTensors
額外研究協助：@lodestones 和 Thessalo
數據集整理：@lodestones 和 Bannanapuncakes，@RedHotTensors 提供額外整理
系統管理協助：dogarrowtype

參考項目

CompVis Latent Diffusion: https://github.com/CompVis/latent - diffusion/
StabilityAI sd - vae - ft - mse: https://huggingface.co/stabilityai/sd - vae - ft - mse
LPIPS by Richard Zhang, et al: https://github.com/richzhang/PerceptualSimilarity
OkLab by Björn Ottosson: https://bottosson.github.io/posts/oklab/
fine - tune - models by Jonathan Chang: https://github.com/cccntu/fine - tune - models/