🚀 Animagine XL 3.0 Base
Animagine XL 3.0 Base 是先进的动漫文本到图像模型 Animagine XL 3.0 的基础版本。该基础版本涵盖了模型开发的前两个阶段,专注于建立核心功能并完善关键方面,为 Animagine XL 3.0 的完整功能奠定了基础。它采用基于迁移学习的两阶段开发过程,有效解决了第一阶段训练完成后 UNet 中存在的问题,如解剖结构不合理等。不过,该模型不建议用于推理,建议将其作为构建其他模型的基础。如需进行推理,请使用 Animagine XL 3.0。
✨ 主要特性
- 作为先进动漫图像生成模型的基础阶段,专注于构建动漫图像的核心能力。
- 强调对基础概念的理解和初始提示的解释,为高级功能奠定基础。
- 采用两阶段开发过程,有效解决 UNet 中的问题。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
基础用法
1girl/1boy, character name, from what series, everything else in any order.
高级用法
文档未提供高级用法示例,故跳过此部分。
📚 详细文档
模型详情
使用指南
标签顺序
在此版本中,提示方式略有不同。为获得最佳效果,建议遵循结构化提示模板,因为我们是按照以下方式训练模型的:
1girl/1boy, character name, from what series, everything else in any order.
特殊标签
与上一版本一样,该模型在训练时使用了一些特殊标签,以引导生成结果的质量、评级以及发布时间。即使不使用这些特殊标签,模型也能正常工作,但如果希望更轻松地控制模型,建议使用它们。
质量修饰符
质量修饰符 |
得分标准 |
masterpiece |
>150 |
best quality |
100 - 150 |
high quality |
75 - 100 |
medium quality |
25 - 75 |
normal quality |
0 - 25 |
low quality |
-5 - 0 |
worst quality |
<-5 |
评级修饰符
评级修饰符 |
评级标准 |
rating: general |
通用 |
rating: sensitive |
敏感 |
rating: questionable , nsfw |
有问题 |
rating: explicit , nsfw |
明确 |
年份修饰符
这些标签有助于引导生成结果呈现现代或复古的动漫艺术风格,范围从 newest
到 oldest
。
年份标签 |
年份范围 |
Newest |
2022 到 2023 |
late |
2019 到 2021 |
mid |
2015 到 2018 |
early |
2011 到 2014 |
oldest |
2005 到 2010 |
推荐设置
为引导模型生成高美学的图像,建议使用以下负面提示:
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name
为获得更高质量的结果,建议在提示前添加:
masterpiece, best quality
不过,使用 masterpiece
、best quality
时需谨慎,因为许多高分训练数据集中包含 NSFW 内容。建议在负面提示中添加 nsfw
、rating: sensitive
,在正面提示中添加 rating: general
。同时,建议使用较低的无分类器引导(CFG Scale),约为 5 - 7,采样步数低于 30,并使用 Euler Ancestral(Euler a)作为采样器。
多方面分辨率
该模型支持生成以下尺寸的图像:
尺寸 |
纵横比 |
1024 x 1024 |
1:1 方形 |
1152 x 896 |
9:7 |
896 x 1152 |
7:9 |
1216 x 832 |
19:13 |
832 x 1216 |
13:19 |
1344 x 768 |
7:4 水平 |
768 x 1344 |
4:7 垂直 |
1536 x 640 |
12:5 水平 |
640 x 1536 |
5:12 垂直 |
训练和超参数
- Animagine XL 3.0 在 2 个配备 80GB 内存的 A100 GPU 上训练了 21 天,超过 500 个 GPU 小时。训练过程包括三个阶段:
- 特征对齐阶段:使用 120 万张图像让模型熟悉基本的动漫概念。
- 优化 UNet 阶段:使用 2500 个精选数据集仅对 UNet 进行微调。
超参数
阶段 |
轮数 |
UNet 学习率 |
是否训练文本编码器 |
文本编码器学习率 |
批量大小 |
混合精度 |
噪声偏移 |
特征对齐阶段 |
10 |
7.5e - 6 |
是 |
3.75e - 6 |
48 x 2 |
fp16 |
无 |
优化 UNet 阶段 |
10 |
2e - 6 |
否 |
无 |
48 |
fp16 |
0.0357 |
模型比较
训练配置
配置项 |
Animagine XL 2.0 |
Animagine 3.0 |
GPU |
A100 80G |
2 x A100 80G |
数据集 |
170k + 83k 张图像 |
1271990 + 3500 张图像 |
打乱分隔符 |
无 |
是 |
全局轮数 |
20 |
20 |
学习率 |
1e - 6 |
7.5e - 6 |
批量大小 |
32 |
48 x 2 |
是否训练文本编码器 |
是 |
是 |
是否训练特殊标签 |
是 |
是 |
图像分辨率 |
1024 |
1024 |
桶分辨率 |
2048 x 512 |
2048 x 512 |
源代码和训练配置可在此处获取:https://github.com/cagliostrolab/sd - scripts/tree/main/notebook
局限性
尽管 “Animagine XL 3.0” 在动漫文本到图像生成方面取得了显著进展,但了解其局限性对于明确其最佳使用场景和未来改进方向至关重要。
- 概念优先于艺术风格:该模型更注重学习概念而非特定的艺术风格,这可能导致与前作相比在美学吸引力上存在差异。
- 非写实设计:Animagine XL 3.0 并非用于生成写实或逼真的图像,而是专注于动漫风格的艺术作品。
- 解剖结构挑战:尽管有所改进,但模型在处理复杂的解剖结构时仍可能遇到困难,尤其是在动态姿势中,偶尔会出现不准确的情况。
- 数据集限制:120 万张图像的训练数据集可能无法涵盖所有动漫角色或系列,限制了模型生成不太知名或较新角色的能力。
- 自然语言处理:该模型未针对自然语言解释进行优化,需要更结构化和具体的提示才能获得最佳结果。
- NSFW 内容风险:使用 “masterpiece” 或 “best quality” 等高质量标签可能会无意中生成 NSFW 内容,因为高分训练数据集中此类图像较为普遍。
这些局限性指出了未来版本可能需要改进的方向,并强调了精心设计提示以获得最佳结果的重要性。了解这些限制可以帮助用户更好地掌握模型的能力并调整预期。
致谢
我们衷心感谢为 Animagine XL 3.0 开发做出贡献的整个团队和社区,包括提供资源和见解的合作伙伴和协作者。
- 主要资助方:感谢提供开源资助支持我们的研究。
- Cagliostro Lab 协作者:感谢在预训练期间进行质量检查,并在微调期间整理数据集。
- Kohya SS:感谢提供必要的训练脚本,并合并了我们关于
keep_tokens_separator
或打乱分隔符的 PR。
- Camenduru 服务器社区:感谢提供宝贵的见解、支持和质量检查。
- NovelAI:感谢启发我们如何构建数据集并使用标签顺序进行标注。
协作者
🔧 技术细节
文档未提供足够的技术实现细节,故跳过此章节。
📄 许可证
Animagine XL 3.0 现在使用 Fair AI Public License 1.0 - SD,该许可证与 Stable Diffusion 模型兼容。关键点如下:
- 修改共享:如果您对 Animagine XL 3.0 进行了修改,则必须同时共享您的修改内容和原始许可证。
- 源代码可访问性:如果您修改后的版本可以通过网络访问,则应提供一种方式(如下载链接)让他人获取源代码。这也适用于派生模型。
- 分发条款:任何分发都必须遵循此许可证或具有类似规则的其他许可证。
- 合规性:如不遵守规定,必须在 30 天内进行修复,否则将终止许可证,强调透明度和遵守开源价值观。
选择此许可证的目的是确保 Animagine XL 3.0 保持开放和可修改,符合开源社区的精神。它保护了贡献者和用户的权益,鼓励建立一个协作、道德的开源社区,确保模型不仅受益于社区的投入,还尊重开源开发的自由。