🚀 Baka-Diffusion
Baka-Diffusion 是一个基于一系列微调/U-Net 块合并的潜在扩散模型,旨在突破基于 SD1.x 模型的限制。该模型使用了 Danbooru 标签系统。
🚀 快速开始
Baka-Diffusion 是一个基于一系列微调/U-Net 块合并的潜在扩散模型,旨在突破基于 SD1.x 模型的限制。本仓库的模型使用 Danbooru 标签系统。
✨ 主要特性
- U-Net 块合并:部分模型在不同 CFG 尺度下功能有所不同,建议使用 CFG 3 - 9。
- 多模型版本:有 Baka-Diffusion[General] 和 Baka-Diffusion[S3D] 等版本,满足不同需求。
- 推理技巧:提供文本反转和 FreeU 等推理技巧,提升模型生成效果。
⚠️ 免责声明
您需对自己生成的内容负责,无论内容是 NSFW 还是 SFW。AI 模型不包含易于访问的明确视觉内容。
🔧 模型简介
由于 U-Net 块合并 的特性,部分模型在 CFG 尺度下的表现有所不同。通常建议在 CFG 3 - 9 的范围内使用本仓库的模型。超过此范围虽然仍可使用,但可能会出现伪影、可见的残留噪声或色彩过度饱和的问题。
Baka-Diffusion[通用版]
Baka-Diffusion[通用版] 的设计理念是成为一张空白画布,不过分强调风格化。它旨在与大多数 LoRA/LyCORIS 模型兼容,并且在连贯性上优于 [S3D]。为实现这一目标,使用了一些推理技巧。在长提示下,生成结果出现色彩过度饱和的问题得到解决,并且 CFG 在这个版本中更加稳定。
Baka-Diffusion[S3D]
Baka-Diffusion[S3D] 旨在呈现微妙的 3D 纹理外观,并模拟自然光照,与常规 Baka-Diffusion 模型中的典型动漫风格光照有所不同。它专为高分辨率设计,相较于传统的 512x768,更适合 600x896 的分辨率。该模型与 LoRA / LyCORIS 等低秩网络配合良好,确保了兼容性和多功能性。
负向设置: (最差质量, 低质量:1.2), 低分辨率, 糟糕的人体结构
🔧 推理技巧
文本反转
“为什么 Hosioka 建议人们在使用模型时同时使用文本反转?他是不是傻?” 使用如 Aikimi 的 SimpleNegativeV1 这样的轻量级负向文本反转,可以在不牺牲风格的前提下,显著提升模型的整体连贯性。非常感谢 Aikimi!。
这是我为 FreeU 设定的预设,可引导模型生成更美观的结果,并且在生成更亮和更暗的图像时,能让模型具有 ZeroTerminalSNR 效果。
过渡平滑度可选。
📝 注意事项和发现
点击查看
在这个架构内训练一个独立的美学模型,似乎几乎不可能不牺牲人体结构质量。即使使用精心策划的数据集,模型也无法收敛为高质量的美学模型。相反,它似乎收敛为所有训练图像的平均值,即使努力保持数据集的一致性也是如此。我想知道这个问题是否是插图本身的性质所固有的。与训练专注于写实的模型不同,训练一个专注于美学的动漫模型结果是一件令人头疼的事情。
我采取的解决方案只是一个权宜之计,我尝试将一个人体结构表现良好的模型的块合并到训练好的美学模型中。如果你熟悉块加权合并,你就会知道这种问题很难解决,即使了解每个 U-Net 层的作用也是如此。这是一个耗时的过程,不幸的是,可能会让作者有点抓狂。即使这种方法也有缺点。许多模型作者经常进行的鲁莽合并会导致整体连贯性变差。我对各种模型进行了实验,大多数模型都无法绘制简单的表情。
现在谈谈训练器。每个人都使用 Kohya 或 EveryDream2 进行微调。根据我对两者的经验,Kohya 在全量微调方面有所不足,而 EveryDream2 在这方面表现出色。每个训练器都有我希望能合并到一个训练器中的功能。例如,EveryDream2 允许在训练其余部分时冻结文本编码器中的层以保留父数据。另一方面,Kohya 有神经元丢弃功能,该功能可以迫使层(X)学习层(Y)擅长的内容。从表面上看,两个训练器都有各自的优缺点。每个训练器在某些功能上表现出色,但在其他方面有所不足。
例如,如果 OUT5 擅长学习面部特征,但 IN00 不擅长,网络丢弃功能可以让你指示 OUT5 暂时休息,让 IN00 专注于掌握绘制面部的技能。这种方法迫使目标层(X)在其薄弱领域得到改进,同时暂时停止其他层的学习,以防止它们以相同的速度学习并过拟合。下面是一个简单的信息图。
如果你想要进行全量微调,选择 EveryDream2;如果你想要低秩适配器,Kohya 可以满足你的需求。但说实话,我只是希望 EveryDream2 能有 Kohya 的功能。感谢 Freon 和 Kohya 开发了这些训练器!
最后,我决定暂停创建更多的模型。我想休息一下,等待几年,直到开源扩散模型成熟。我仍然会偶尔进行生成和低秩适配器的制作。感谢使用 Baka-Diffusion!
🔗 致谢
- 擦除: https://github.com/rohitgandikota/erasing
- 运行时块合并: https://github.com/ashen-sensored/sd-webui-runtime-block-merge
- 超级合并器: https://github.com/hako-mikan/sd-webui-supermerger
- KL-F8 Anime2 VAE: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/vae/kl-f8-anime2.ckpt
- 简单负向: https://civitai.com/models/87243?modelVersionId=92840
- (你)
📄 许可证
本项目采用 CC BY-NC 4.0 许可证。
2021 年,我只是想生成一些钻头头发型的动漫女孩……怎么会发展成这样……无论如何,我希望大家喜欢我的作品。