🚀 Furception v1.0
Furception v1.0 是由 Project RedRocket 推出的一款 VAE 解码器微调模型。它基于 e621 上的图像,从 stabilityai/sd - vae - ft - mse 恢复训练而来。该模型在清晰度和输出平滑度之间取得了良好平衡,能有效处理图像相关问题。
🚀 快速开始
Furception v1.0 是一个基于 e621 图像对 VAE 解码器进行微调的模型,它从 stabilityai/sd - vae - ft - mse 恢复训练。训练过程中混合使用了 MAE 和 MSE 损失,以在图像的清晰度和输出的平滑度之间保持可接受的平衡。并且在 Oklab 颜色空间中计算损失,以便根据哪些颜色通道在感知上更重要来优先进行图像重建。
测试表明,当在基于相似数据训练的模型上使用时,该 VAE 擅长消除不需要的高频噪声。在纯色图像上的效果比在写实或绘画风格图像上更明显,但在任何类型的图像上都未发现明显的性能损失。在低分辨率生成图像上效果更显著,但在所有分辨率下都有改进。由于数据集中不同风格的多样性,它可能对更广泛的艺术风格具有一定的泛化能力。
以下是默认 VAE (kl - f8) 和 Furception v1.0 的效果对比:
默认 VAE (kl - f8) |
Furception v1.0 |
 |
 |
可以注意到,输出整体更平滑,并且在高细节区域的边缘周围的伪影明显减少。
📄 许可证
此 VAE 可根据 [CC BY - NC - SA 4.0 许可协议](https://creativecommons.org/licenses/by - nc - sa/4.0/) 使用。该许可仅适用于模型的使用、部署和模型权重的分发。此许可不适用于由该 VAE 解码的图像,只要不是用于商业目的创建图像,你可以根据任何许可(甚至是公共领域许可)发布这些图像。你可以自由且鼓励将此 VAE 与模型一起分发,只要你给予适当的引用并且 VAE 携带此许可(模型的其余部分不需要共享此许可,尽管其分发必须是非商业性的),同时建议你包含版本号,以便人们知道未来是否需要获取更新版本。
🔧 技术细节
训练方式
总体训练基本与 LDM 类似。在 MAE、MSE 和 LPIPS 方面,使用了与 LDM 以及 sd - vae - ft - mse(在 LPIPS 情况下)相同的相对基础权重。损失目标中判别器的权重是动态设置的,使得判别器的梯度范数是重建损失的一半,这与 LDM 相同。使用了与 LDM 类似的判别器,但重新参数化为带有梯度惩罚的 Wasserstein 损失,并将其组归一化层替换为层归一化。
训练参数
版本 1.0 的训练使用了不同下采样级别的随机方形裁剪(使用带抗锯齿的 Lanczos 方法),并进行随机旋转和翻转。训练以批量大小 32 运行了 150,000 步。使用与 sd - vae - ft - mse 类似的衰减率(根据批量大小进行缩放)来累积 EMA 权重,这些 EMA 权重即为模型的发布版本。
📚 详细文档
项目贡献
- 开发和研究主导:@drhead
- 研究和开发协助:@RedHotTensors
- 额外研究协助:@lodestones 和 Thessalo
- 数据集整理:@lodestones 和 Bannanapuncakes,@RedHotTensors 提供额外整理
- 系统管理协助:dogarrowtype
参考项目
- CompVis Latent Diffusion: https://github.com/CompVis/latent - diffusion/
- StabilityAI sd - vae - ft - mse: https://huggingface.co/stabilityai/sd - vae - ft - mse
- LPIPS by Richard Zhang, et al: https://github.com/richzhang/PerceptualSimilarity
- OkLab by Björn Ottosson: https://bottosson.github.io/posts/oklab/
- fine - tune - models by Jonathan Chang: https://github.com/cccntu/fine - tune - models/
依赖框架
- Flax by Google Brain: https://github.com/google/flax
- Huggingface Diffusers: https://github.com/huggingface/diffusers
在此,向无数将作品公开以供此非商业研究项目合理使用的艺术家表示深深的感谢。