🚀 大型动漫图像生成模型 - RouWei-0.7
RouWei-0.7 是一款基于先进技术微调的文本到图像生成模型,使用了 700 万张独特图片(约 200 万带有自然文本描述)进行训练,在动漫图像生成领域具有出色的性能和丰富的功能。
🚀 快速开始
本模型使用了先进技术对 Illustrious 进行大规模微调,数据集从 1400 万张动漫艺术及其他媒体图片(包括私有数据集)中挑选并平衡而来。在 Civitai 上查看更多详细描述
Vpred 版本现已推出!
✨ 主要特性
核心优势
- 更好的提示遵循度:能够精准理解并遵循输入的提示信息。
- 出色的美学、解剖结构和稳定性:生成的图像不仅美观,而且人体结构准确,风格稳定且多样。
- 鲜艳的色彩和光滑的渐变:色彩鲜艳,过渡自然,无色彩灼烧痕迹。
- 全亮度范围:即使使用 epsilon 也能呈现完整的亮度范围。
- 丰富的风格和角色知识:掌握数万个风格和几乎任何角色的特征。
与原始 Illustrious 和 NoobAI 相比
- 无水印困扰:生成的图像不再带有恼人的水印。
- 提示分割更优:无标签渗透问题,提示分割更准确。
- 无角色标签渗透:避免了角色标签渗透带来的副作用,如不必要的服装、风格和构图变化。
- 更好的连贯性和解剖结构:生成的图像连贯性更好,人体结构更准确。
- 艺术家风格还原:能够准确还原艺术家的风格。
- 风格稳定性高:每种风格(包括基础风格)在不同种子下都稳定,无随机波动。
- 新知识融入:模型融入了新的知识。
数据集截止日期
2024 年 12 月 20 日。
📚 详细文档
特性与提示
本模型既适用于基于短 booru 标签的提示,也适用于长而复杂的自然文本提示。结合标签和自然文本短语可获得最佳效果。标签使用经典的 danbooru 风格,逗号分隔且无下划线。
基本设置
- 图像分辨率:txt2img 约 100 万像素,任何长宽比且分辨率为 64 的倍数(如 1024x1024、1152x、1216x832 等)。
- 采样器:Euler_a。
- CFG 值:epsilon 模式下为 4 - 8,vpred 模式下为 3 - 5。
- 步数:20 - 28 步。
- 其他采样器:LCM/PCM/DMD 未测试,cfg++ 采样器效果良好。
- 高分辨率修复:x1.5 潜在空间 + 去噪 0.6 或任何 gan + 去噪 0.3 - 0.55。
请注意,vpred 版本需要较低的 CFG 值。
示例可在仓库中找到,更多示例请查看 civitai。
质量标签
- 正标签:
masterpiece, best quality
- 负标签:
low quality, worst quality
不使用其他元标签,如 lowres,低分辨率图像已根据其重要性进行移除或使用 DAT 进行上采样和清理。
负提示
worst quality, low quality, watermark
为获得最佳效果,请保持负提示简洁。滥用流行序列不会改善结果,反而会导致不必要的效果、偏差和低质量图像。
艺术家风格
模型掌握超过 35000 种艺术家风格。风格列表,Mega 上的示例网格。使用时需加上 by
,否则效果不佳。
通用风格
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style
自然文本
可与 booru 标签结合使用,效果良好。在输入风格和质量标签后使用自然文本,也可仅使用 booru 标签。数据集中约 200 万张图片带有由 Opus-Vision、GPT-4o、Gemini 和 ToriiGate 生成的混合自然文本描述。
0.7 版本在提示理解和分割方面有多项改进。为获得最佳性能,请关注 CLIP 75 令牌块以及提示的分割方式。
亮度/颜色/对比度
可使用额外的元标签进行控制:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr
Vpred 版本
RouWei-0.7 的 Vpred 版本现已推出,开箱即用,无色彩灼烧或相关问题。建议使用较低的 CFG 值(3 - 5),其他生成设置相同。避免使用一些旨在减少色彩灼烧的实验性采样器,否则会导致低质量图像。
基础模型
Epsilon 和 vpred 版本在主要训练后进行了简单的美学优化,以改善细节和连贯性。如果需要在合并、提取或微调时不引入这些后期优化,可以使用 RouWei 的基础版本。
Discord 服务器
加入 Discord
安全性
模型可能会根据相应提示生成 NSFW 图像,建议添加额外的过滤机制。输出结果可能不准确或具有挑衅性,请勿将其作为参考。
📄 许可证
与 illustrious 使用相同的许可证,请查看原始页面了解限制。可自由用于合并、微调等,但请保留链接。
致谢
感谢众多匿名人士以及 Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、rred、Soviet Cat、Sv1.、T. 等的帮助。
捐赠
- BTC:bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
- ETH/USDT(e):0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
- XMR:47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
属性 |
详情 |
模型类型 |
文本到图像生成模型 |
训练数据 |
从 1400 万张动漫艺术及其他媒体图片(包括私有数据集)中挑选的 700 万张独特图片(约 200 万带有自然文本描述) |
⚠️ 重要提示
vpred 版本需要较低的 CFG 值,且避免使用一些旨在减少色彩灼烧的实验性采样器,否则会导致低质量图像。
💡 使用建议
为获得最佳效果,可结合使用标签和自然文本短语,保持负提示简洁,并关注 CLIP 75 令牌块以及提示的分割方式。