模型简介
模型特点
模型能力
使用案例
🚀 ArtiWaifu Diffusion 2.0
我们发布了 ArtiWaifu Diffusion 2.0 模型,旨在生成美观且还原度高的动漫风格插画。该模型是 Stable Diffusion XL 模型的迭代版本,掌握了 9000 多种艺术风格和 6000 多个动漫角色,可通过 触发词 生成图像。作为一款专注于动漫的图像生成模型,它在生成高质量动漫图像方面表现出色,尤其擅长生成具有高度可识别风格和角色的图像,同时保持一致的高质量美学表达。
🚀 快速开始
我们已发布了 ArtiWaifu Diffusion 2.0 模型,该模型基于 Stable Diffusion XL 模型迭代而来,可通过触发词生成动漫风格的图像。下面将为你介绍该模型的使用指南。
✨ 主要特性
- 丰富的艺术风格和角色:掌握了 9000 多种艺术风格和 6000 多个动漫角色,能够生成多样化的动漫图像。
- 高质量图像生成:擅长生成具有高度可识别风格和角色的图像,同时保持一致的高质量美学表达。
- 稳定的人体结构:相比 ArtiWaifu Diffusion 1.0,2.0 版本在人体结构的生成上更加稳定。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
# 配置参数
- **CFG scale**:<span style="color:cyan">5 - 11</span>
- **分辨率**:面积(= 宽度 x 高度)约为 1024x1024。不低于 256x256,且长度和宽度均为 32 的倍数。
- **采样方法**:Euler A(<span style="color:cyan">20+</span> 步)或 DPM++ 2M Karras(<span style="color:cyan">~35</span> 步)
# 由于特殊的训练方法,AWA 的最佳推理步数高于常规值。随着推理步数的增加,生成图像的质量会持续提高...
# 问题:为什么不使用标准的 SDXL 分辨率?
# 答案:因为训练中使用的分桶算法不遵循固定的分桶集。虽然这不符合位置编码,但我们未观察到任何不良影响。
高级用法
# 所有文本到图像的扩散模型对提示词都非常敏感,AWA Diffusion 也不例外。即使提示词中有拼写错误,或者用下划线代替空格,都会影响生成结果。
# AWA Diffusion 鼓励用户使用以逗号加空格(`, `)分隔的 **标签** 来编写提示词。虽然模型也支持自然语言描述作为提示词,或者两者混合使用,但逐标签格式更加稳定和友好。
# 当描述特定的 ACG 概念,如角色、风格或场景时,建议用户从 [Danbooru 标签](https://danbooru.donmai.us/tags) 中选择标签,并将 Danbooru 标签中的下划线替换为空格,以确保模型准确理解你的需求。例如,`bishop_(chess)` 应写成 `bishop (chess)`,在像 AUTOMATIC1111 WebUI 这样使用括号来加权提示词的推理工具中,标签内的所有括号都应进行转义,即 `bishop \(chess\)`。
📚 详细文档
模型详情
AWA Diffusion 模型是在 ArtiWaifu Diffusion 1.0 的基础上进行微调的,选用了 250 万张高质量动漫图像作为数据集,涵盖了广泛的流行和小众动漫概念。AWA Diffusion 采用了我们最先进的训练策略,使用户能够轻松引导模型生成特定角色或风格的图像,同时保持高图像质量和美学表达。
与 ArtiWaifu Diffusion 1.0 相比,2.0 版本具有以下主要特点:
- 更多的艺术风格和角色;
- 更稳定的人体结构。
模型信息
属性 | 详情 |
---|---|
开发者 | Euge |
资助方 | Neta.art |
模型类型 | 生成式文本到图像模型 |
微调基础模型 | ArtiWaifu Diffusion 1.0 |
许可证 | Fair AI Public License 1.0 - SD |
提示词策略
标签顺序
包括 AWA Diffusion 在内的大多数扩散模型对逻辑排序的标签理解得更好。虽然标签顺序不是强制性的,但它可以帮助模型更好地理解你的需求。一般来说,标签在顺序中越靠前,对生成的影响就越大。
以下是一个标签排序的示例。该示例组织了标签的顺序,先添加 艺术风格标签 和 角色标签,因为风格和主题对图像最为重要。随后,按重要性依次添加其他标签。最后,将 美学标签 和 质量标签 放在末尾,以进一步强调图像的美学效果。
艺术风格(by xxx) -> 角色(1 frieren (sousou no frieren)) -> 种族(精灵) -> 构图(牛仔视角) -> 绘画风格(厚涂) -> 主题(奇幻主题) -> 主要环境(森林中,白天) -> 背景(渐变背景) -> 动作(坐在地上) -> 表情(面无表情) -> 主要特征(白发) -> 其他特征(双马尾,绿眼,嘴唇微张) -> 服装(穿着白色连衣裙) -> 服装配饰(褶边) -> 其他物品(手持魔杖) -> 次要环境(草地,阳光) -> 美学(美丽色彩,细节丰富) -> 质量(最佳质量) -> 次要描述(鸟类,云朵,蝴蝶)
标签顺序不是固定不变的。灵活编写提示词可以获得更好的效果。例如,如果某个概念(如风格)的效果太强,影响了图像的美学吸引力,可以将其移到后面的位置以减少其影响。
负面提示词
AWA Diffusion 不一定需要负面提示词。如果使用负面提示词,并不是越多越好。它们应该 尽可能简洁,并且易于模型识别。过多的负面词汇可能会导致生成结果变差。
以下是一些推荐使用负面提示词的场景:
- 水印:
签名
,标志
,艺术家姓名
; - 质量:
最差质量
,低分辨率
,丑陋
,抽象
; - 风格:
现实生活
,3D
,赛璐璐
,草图
,草稿
; - 人体结构:
变形的手
,融合的手指
,多余的肢体
,多余的手臂
,缺失的手臂
,多余的腿
,缺失的腿
,多余的手指
,较少的手指
。
触发词
在提示词中添加触发词,告知模型你想要生成的概念。触发词可以包括角色名称、艺术风格、场景、动作、质量等。
触发词提示
- 拼写错误:模型对触发词的拼写非常敏感。即使只有一个字母的差异,也可能导致触发失败或产生意外结果。
- 括号转义:在使用依赖括号来加权提示词的推理工具(如 AUTOMATIC1111 WebUI)时,要注意对触发词中的括号进行转义,例如
1 lucy (cyberpunk)
应写成1 lucy \(cyberpunk\)
。 - 触发效果预览:通过在 Danbooru 上搜索标签来预览标签,更好地理解标签的含义和用法。
风格标签
风格标签分为两种类型:绘画风格标签 和 艺术风格标签。绘画风格标签 描述图像中使用的绘画技巧或媒介,如油画、水彩画、平涂和厚涂。艺术风格标签 代表图像背后艺术家的艺术风格。
AWA Diffusion 支持以下 绘画风格标签:
- Danbooru 标签中可用的绘画风格标签,如
油画
,水彩画
,平涂
等; - AID XL 0.8 支持的所有绘画风格标签,如
平涂 - 厚涂
等; - Neta Art XL 2.0 支持的所有风格标签,如
古风
等;
完整的绘画风格标签列表请参阅 绘画风格标签列表。
AWA Diffusion 支持以下 艺术风格标签:
- Danbooru 标签中可用的艺术风格标签,如
by yoneyama mai
,by wlop
等; - AID XL 0.8 支持的所有艺术风格标签,如
by antifreeze3
,by 7thknights
等; - 从 Pixiv 共同收集的一些风格标签,如
by trickortreat
,by shiroski
等;
完整的艺术风格标签列表请参阅 艺术风格标签列表。
标签库中标签的数量越多,艺术风格的训练就越充分,生成的保真度也就越高。通常,标签数量超过 50 的艺术风格标签会产生更好的生成结果。
风格标签提示
- 强度调整:你可以通过改变提示词中风格标签的顺序或权重来调整风格的强度。将风格标签前置可以增强其效果,而将其后置则会减弱其效果。
角色标签
角色标签描述生成图像中的角色 IP。使用角色标签将引导模型生成角色的 外观特征。
角色标签也需要从 角色标签列表 中获取。要生成特定的角色,首先在标签库中找到对应的触发词,将触发词中的所有下划线 _
替换为空格
,并在角色名称前加上 1
。
例如,1 ayanami rei
触发模型生成动漫《新世纪福音战士》中的角色绫波丽,对应 Danbooru 标签 ayanami_rei
;1 asuna (sao)
触发模型生成《刀剑神域》中的角色亚丝娜,对应 Danbooru 标签 asuna_(sao)
。
标签库中标签的数量越多,角色的训练就越充分,生成的保真度也就越高。通常,标签数量超过 100 的角色标签会产生更好的生成结果。
角色标签提示
- 角色服装:为了实现更灵活的角色服装搭配,角色标签不会刻意引导模型绘制角色的官方服装。要生成特定官方服装的角色,除了触发词外,还应在提示词中包含服装的描述,例如 "1 lucy (cyberpunk), 穿着白色短夹克,内搭紧身衣,短裤,过膝长袜,臀部通风口"。
- 系列注释:一些角色标签在角色名称后包含额外的括号注释。括号和其中的注释不能省略,例如
1 lucy (cyberpunk)
不能写成1 lucy
。除此之外,不需要添加任何额外的注释,例如,不需要在角色标签后添加角色所属的系列标签。 - 已知问题 1:在生成某些角色时,可能会出现神秘的特征变形,例如
1 asui tsuyu
触发《我的英雄学院》中的角色蛙吹梅雨时,眼睛之间可能会出现一条额外的黑线。这是因为模型错误地将大圆眼睛解释为眼镜,因此应在负面提示词中包含眼镜
以避免此问题。 - 已知问题 2:在生成不太受欢迎的角色时,由于数据/训练不足,AWA Diffusion 可能会生成特征恢复不完整的图像。在这种情况下,建议在提示词中除了角色名称之外,详细描述角色的起源、种族、头发颜色、服装等。
角色标签触发示例
触发词 | 说明 |
---|---|
1 lucy (cyberpunk) | ‚úÖ 正确的角色标签 |
1 lucy | ‚ùå 缺少括号注释 |
1 lucy (cyber) | ‚ùå 错误的括号注释 |
lucy (cyberpunk) | ‚ùå 缺少前缀 1 |
1 lucy cyberpunk | ‚ùå 缺少括号 |
1 lucy (cyberpunk | ‚ùå 括号未闭合 |
1 lucky (cyberpunk) | ‚ùå 拼写错误 |
1 lucy (cyberpunk: edgerunners) | ‚ùå 括号注释不符合所需的角色标签 |
质量标签和美学标签
对于 AWA Diffusion,在正面提示词中包含质量描述 非常重要。质量描述与质量标签和美学标签有关。
质量标签直接描述生成图像的美学质量,影响细节、纹理、人体结构、照明、颜色等。添加质量标签有助于模型生成更高质量的图像。质量标签从高到低排序如下: 惊人质量 -> 最佳质量 -> 高质量 -> 正常质量 -> 低质量 -> 最差质量
美学标签描述生成图像的美学特征,帮助模型生成具有艺术吸引力的图像。除了典型的美学词汇,如 透视
,光影
之外,AWA Diffusion 经过特殊训练,对美学触发词如 美丽色彩
,细节丰富
和 美学
有很好的响应,分别表达吸引人的颜色、细节和整体美感。
推荐的通用质量描述方式是:(你的提示词), 美丽色彩,细节丰富,惊人质量
质量和美学标签提示
- 标签数量:只需要一个质量标签;可以添加多个美学标签。
- 标签位置:质量和美学标签的位置不固定,但通常放在提示词的末尾。
- 相对质量:质量没有绝对的等级;隐含的质量符合一般的美学标准,不同用户对质量的感知可能不同。
评级标签
评级标签描述生成图像内容的暴露程度。评级标签从高到低排序如下:
评级:通用(或 安全) -> 评级:暗示性 -> 评级:有问题 -> 评级:明确(或 不适合工作场合)
提示词示例
示例 1
A by yoneyama mai, 1 frieren, 1girl, solo, 奇幻主题, 微笑, 手持魔杖, 美丽色彩, 惊人质量
- by yoneyama mai 触发米山舞的艺术风格,放在前面以增强效果。
- 1 frieren 触发系列《葬送的芙莉莲》中的角色芙莉莲。
- 美丽色彩 描述生成图像中的美丽颜色。
- 惊人质量 描述生成图像的惊人质量。
B by nixeu, 1 lucy (cyberpunk), 1girl, solo, 牛仔视角, 渐变背景, 白色短夹克, 内搭紧身衣, 短裤, 过膝长袜, 臀部通风口, 细节丰富, 最佳质量
示例 2:风格混合
通过叠加多个不同的风格标签,你可以生成具有多种风格特征的图像。
A 简单混合 by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 初音未来, 坐姿, 手臂支撑, 微笑, 细节丰富, 惊人质量
B 加权混合 使用 AUTOMATIC1111 WebUI 提示词加权语法(括号加权),对不同的风格标签进行加权,以更好地控制生成图像的风格。
(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 初音未来, 坐姿, 手臂支撑, 微笑, 细节丰富, 惊人质量
C 高级混合
使用 AUTOMATIC1111 WebUI 提示词加权语法(括号加权),可以使用 |
符号直接混合两个单词。
(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 初音未来, 坐姿, 手臂支撑, 微笑, 细节丰富, 惊人质量
示例 3:多角色场景
通过在提示词中添加多个角色标签,你可以生成同一画面中有多个角色的图像。与其他类似模型相比,AWA 在多角色场景中表现更好,但仍不稳定。
A 混合性别场景 1girl and 1boy, 1 甘雨 girl, 1 五条悟 boy, 美丽色彩, 惊人质量
B 同性场景 2girls, 1 甘雨 girl, 1 宵宫 girl, 美丽色彩, 惊人质量
🔧 技术细节
文档未提及技术实现细节,故跳过此章节。
📄 许可证
本模型使用 Fair AI Public License 1.0 - SD 许可证。
未来工作
与 V1.0 一样,AWA Diffusion 有望将高级 美学 与全面的 知识 相结合。它既不应有传统 AI 的油腻感,也不应成为缺乏知识的花瓶。我们将继续探索更先进的训练技术和策略,并在数据集中添加更多更好的数据,不断提高模型的质量。
支持我们
训练 AWA Diffusion 会产生大量成本。如果你认可我们的工作,请考虑通过 Ko-fi 支持我们,以帮助我们进行研发工作。感谢你的喜爱和支持!

