模型简介
模型特点
模型能力
使用案例
🚀 BPModel
BPModel是一个基于Stable Diffusion的实验性模型,它基于特定的数据集训练,能生成特定风格的图像,在动漫图像生成领域有独特表现。
🚀 快速开始
BPModel是一个基于 Joseph Cheung 的 ACertainty 的实验性Stable Diffusion模型。使用时,你可以根据不同需求选择不同的模型文件,如 bp_1024_e10.ckpt
不包含任何VAE,使用 AUTOMATIC1111/stable-diffusion-webui 时需搭配其他流行的VAE;若没有VAE和文本编码器,可使用 bp_1024_with_vae_te.ckpt
;若要继续训练,可使用 bp_1024_e10_ema.ckpt
。为获得更好的性能,强烈建议使用Clip skip 2,并在 AUTOMATIC1111/stable-diffusion-webui 设置中开启 “Upscale latent space image when doing hires. fix
”。
✨ 主要特性
- 高分辨率训练:该模型在高分辨率(如768甚至1024)下进行训练,这在之前的Stable Diffusion模型中较为少见。
- 独特数据集:使用来自 Sankaku Complex 的5k高质量带注释图像进行训练,数据集公开于 Crosstyan/BPDataset。
- 减少过拟合:通过ACertainty(完整Danbooru)和Stable Diffusion(LAION)的强先验知识,减少了因在相对小的数据集上微调而导致的过拟合影响。
- 生成效果较好:相较于其他动漫模型,能生成更符合预期的猫咪形象,但仍存在一些不足。
📦 安装指南
文档未提及具体安装命令,故跳过此章节。
💻 使用示例
基础用法
使用示例代码保持不变:
# 此部分文档未提供基础用法示例代码
高级用法
文档未提供高级用法示例代码,故跳过此部分。
示例展示
以下是一些使用该模型生成图像的示例及参数:
by (fkey:1) (shion:0.4) [sketch:0.75] (closed mouth expressionless:1) cat ears nekomimi 1girl, wearing a white sailor uniform with a short skirt and white pantyhose standing on the deck of a yacht, cowboy shot, and the sun setting behind her in the background, light particle, bokeh
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, worst quality, low quality, normal quality, lipstick, 2koma, 3koma, dutch angle, blush, from behind
Steps: 28, Sampler: Euler a, CFG scale: 12, Seed: 4236324744, Size: 960x1600, Model hash: 855959a4, Denoising strength: 0.7, Clip skip: 2, ENSD: 31337, First pass size: 0x0
1girl in black serafuku standing in a field solo, food, fruit, lemon, bubble, planet, moon, orange \(fruit\), lemon slice, leaf, fish, orange slice, by (tabi:1.25), spot color, looking at viewer, closeup cowboy shot
Negative prompt: (bad:0.81), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:0.81), (speech:0.81), (worst:0.81), (blush:0.9), 2koma, 3koma, 4koma, collage, lipstick
Steps: 18, Sampler: DDIM, CFG scale: 7, Seed: 2017390109, Size: 768x1600, Model hash: fed5b383, Batch size: 4, Batch pos: 1, Denoising strength: 0.7, Clip skip: 2, ENSD: 31337, First pass size: 0x0
更多示例可在 images 文件夹中查看。
📚 详细文档
更新记录
- 2023-01-02:花费更多GPU时长进一步训练,使其有一点过拟合。可查看 bp_mk3.safetensors 和 bp_mk5.safetensors。需自备VAE!若无法加载 safetensors,请更新WebUI。在
images
文件夹中添加了大量样本! - 2023-01-06:查看 NMFSAN 以了解使用自定义嵌入训练的新模型。
模型介绍
BPModel是基于 Joseph Cheung 的 ACertainty 的实验性Stable Diffusion模型。训练该模型的原因是之前很少有以768甚至1024为基础分辨率(base_res
)训练的模型。该模型使用来自 Sankaku Complex 的5k高质量带注释图像进行训练,数据集公开于 Crosstyan/BPDataset。
高分辨率模型的训练需要大量的GPU时长和成本。该模型在512分辨率下训练30个epoch花费了10个V100 GPU时长,在768分辨率下训练30个epoch花费了60个V100 GPU时长,在1024分辨率下训练10个epoch花费了100个V100 GPU时长。1024分辨率模型的训练结果与768分辨率模型相比,没有显著改进,且资源需求高。但768分辨率的训练结果优于512分辨率,值得考虑。
训练脚本使用 Mikubill/naifu-diffusion,也推荐查看 CCRcmcpe/scal-sdt。以下是768和1024分辨率的纵横比桶配置:
# 768
arb:
enabled: true
debug: false
base_res: [768, 768]
max_size: [1152, 768]
divisible: 64
max_ar_error: 4
min_dim: 512
dim_limit: 1792
# 1024
arb:
enabled: true
debug: false
base_res: [1024, 1024]
max_size: [1536, 1024]
divisible: 64
max_ar_error: 4
min_dim: 960
dim_limit: 2389
模型局限性
- 人体生成问题:如 SCAL-SDT Wiki 中所述,Stable Diffusion无法正确生成人体,例如一只手可能会生成6根手指。
- 生成效果不完美:虽然BPModel能生成更符合预期的猫咪形象,但仍存在复制粘贴效果,如 Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 中所示。
- 过拟合问题:由于在相对小的数据集上微调,BPModel本身容易过拟合,但ACertainty和Stable Diffusion的先验知识有助于减少过拟合影响。
- 艺术家名称误判:数据集中部分图像的标题包含艺术家名称,但CLIP在分词时可能会误判,如 as109 会被分词为
[as, 1, 0, 9]
,fuzichoco 会变成[fu, z, ic, hoco]
。 - 语言漂移问题:该问题仍然存在,除非能找到生成更好标题或手动标注图像的方法。
模型使用说明
- 模型文件选择:
- 若使用 AUTOMATIC1111/stable-diffusion-webui,
bp_1024_e10.ckpt
不包含任何VAE,需搭配其他流行的VAE使用。 - 若没有VAE和文本编码器,可使用
bp_1024_with_vae_te.ckpt
,但不包含EMA权重,且为fp16。 - 若要继续训练,可使用
bp_1024_e10_ema.ckpt
,这是ema unet权重,精度为fp32。
- 若使用 AUTOMATIC1111/stable-diffusion-webui,
- 性能优化建议:强烈建议使用Clip skip 2,并在 AUTOMATIC1111/stable-diffusion-webui 设置中开启 “
Upscale latent space image when doing hires. fix
”,这样在使用Highres. fix
时会添加复杂细节。
模型名称解释
询问 chatGPT 后,“BP” 缩写的一些创意解释如下:
以下是对缩写 "BP" 的一些创意解释:
- Brightest Point - 这可能指的是一个卓越的辉煌或清晰的时刻。
- Brainpower - 该缩写指的是需要大量脑力或智力才能完成的事情。
- Bespoke Partition - 一个定制的分隔两个不同区域的部分。
- Bukkake Picchi - 一种日本风格的米饭菜肴。
- Bokeh Picker - 一种传统的日本摄影技术,涉及从数字图像中选择光点。
- Bipolarity - 两个不同且对立的元素或观点。
请注意,“BP” 通常用作 “blood pressure”(血压)的缩写,因此需要根据上下文来确定该缩写最恰当的解释。
作者个人称其为 “Big Pot”。
🔧 技术细节
训练资源与效果
高分辨率模型的训练需要大量的GPU时长和成本。该模型在不同分辨率下的训练情况如下:
- 在512分辨率下训练30个epoch花费了10个V100 GPU时长。
- 在768分辨率下训练30个epoch花费了60个V100 GPU时长。
- 在1024分辨率下训练10个epoch花费了100个V100 GPU时长。
1024分辨率模型的训练结果与768分辨率模型相比,没有显著改进,且资源需求高,在32G VRAM的V100上只能实现批量大小为1。但768分辨率的训练结果优于512分辨率,值得考虑。
配置参数
以下是768和1024分辨率的纵横比桶配置:
# 768
arb:
enabled: true
debug: false
base_res: [768, 768]
max_size: [1152, 768]
divisible: 64
max_ar_error: 4
min_dim: 512
dim_limit: 1792
# 1024
arb:
enabled: true
debug: false
base_res: [1024, 1024]
max_size: [1536, 1024]
divisible: 64
max_ar_error: 4
min_dim: 960
dim_limit: 2389
📄 许可证
该模型是开放访问的,所有人都可以使用,并遵循CreativeML OpenRAIL-M许可证,该许可证进一步规定了权利和使用方式。CreativeML OpenRAIL许可证规定:
- 不能使用该模型故意生成或分享非法或有害的输出或内容。
- 作者对生成的输出不主张任何权利,用户可以自由使用它们,并对其使用负责,且使用不得违反许可证中的规定。
- 可以重新分发权重,并将模型用于商业用途或作为服务。如果这样做,请务必包含与许可证中相同的使用限制,并向所有用户分享CreativeML OpenRAIL-M许可证的副本(请完整仔细阅读许可证)。请阅读完整的许可证 here。

