niji-diffusion-xl-base-1.0开源模型 - 实现动漫风格文本到图像高效生成

首页

Niji Diffusion Xl Base 1.0

由 inu-ai 开发

基于SDXL(stable-diffusion-xl-base-1.0)的动漫风格文本到图像生成模型，使用niji-v5数据集进行LoRA微调

图像生成 #动漫风格生成 #高分辨率插画 #nijijourney优化

下载量 62

发布时间 : 8/1/2023

模型简介

这是一个偏向动漫风格的SDXL模型，专门针对nijijourney风格的图像生成进行了优化，适合生成高质量的动漫风格插画。

模型特点

动漫风格优化

专门针对nijijourney风格的动漫图像进行了优化训练

高质量输出

能够生成高分辨率、细节丰富的动漫风格图像

LoRA微调技术

使用LoRA微调技术对SDXL基础模型进行了针对性优化

模型能力

文本到图像生成

动漫风格图像生成

高分辨率图像生成

使用案例

动漫创作

角色设计

生成各种风格的动漫角色形象

可生成高质量、风格统一的动漫角色

场景创作

生成不同主题的动漫场景

可生成东京、蒸汽朋克、奇幻等多种主题场景

🚀 虹猫扩散XL基础版1.0

这是一款向动漫风格靠拢的「SDXL(stable-diffusion-xl-base-1.0)」模型。它是基于「niji-v5」数据集进行LoRA微调并合并后的模型，可用于文本到图像的生成。

🚀 快速开始

本模型可使用niji-diffusion-xl-base-1.0.safetensors与stable-diffusion-webui，按照以下参数生成图像：

提示词

masterpiece, best quality, high quality, absurdres, 1girl, flower

负面提示词

worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry

PNG信息

Steps: 28, Sampler: Euler a, CFG scale: 7, Seed: 1, Size: 1536x1024, Model hash: 791d0c791e, Model: sd_xl_niji_1.0, Clip skip: 2, ENSD: 31337, Token merging ratio: 0.5, Eta: 0.67, Version: v1.5.1

其他示例提示词

提示词：

1girl

缩略图

提示词：

1girl, tokyo

缩略图

提示词：

1girl, steampunk

缩略图

提示词：

1girl, fantasy

缩略图

⚠️ 重要提示

由于本模型总共仅使用了约13000张到100张图片进行训练，因此在提示词中输入多个内容时，生成的图像可能不再具有niji风格。不过，在负面提示词中输入多个内容似乎没有问题。

✨ 主要特性

基于「SDXL(stable-diffusion-xl-base-1.0)」模型，向动漫风格调整。
使用「niji-v5」数据集进行LoRA微调并合并。

📦 安装指南

文档未提及安装相关内容，暂无法提供。

💻 使用示例

基础用法

使用niji-diffusion-xl-base-1.0.safetensors与stable-diffusion-webui，按照上述提示词和参数生成图像。

高级用法

文档未提及高级使用场景，暂无法提供。

📚 详细文档

更新履历

2023年8月14日
- 挑选了约1000张nijijourney的图像进行训练。虽然记录了操作步骤，但不确定哪些操作起到了作用。
- 列出了超参数，但之后与v11和sd-webui-supermerger进行了层次合并（类似block_lr的合适比率），因此一次未能完成最终效果。
- 最后将blur以约 -0.05 的比例，LECO创建的anime以1的比例进行LoRA合并完成模型。

超参数	值
GPU	RTX3090 24GB
optimizer_type	PagedLion8bit
optimizer_args	weight_decay=0.01, betas=.9,.999
block_lr	0,1e - 08,1e - 08,1e - 08,1e - 08,1e - 07,1e - 07,1e - 07,1e - 06,1e - 06,1e - 05,1e - 05,1e - 05,1e - 06,1e - 06,1e - 07,1e - 07,1e - 07,1e - 08,1e - 08,1e - 08,1e - 08,0
lr_scheduler	cosine
lr_warmup_steps	100
gradient_checkpointing
mixed_precision	bf16
full_bf16
max_token_length	225
min_snr_gamma	5
noise_offset	0.0357
max_train_epochs	3
batch_size	12
enable_bucket	true
resolution	[1024,1024]

2023年8月11日
- 混合上次的nijijourney图像，使用12000张图像进行训练。
- 优化器使用Lion(4e - 06, cosine, weight_decay=0.015, betas=.9,.999)。
2023年8月7日
- 使用约4500张nijijourney的图像进行全量微调。
- 将VAE替换为在fp16下不会损坏的版本。
- 学习率1e - 07似乎过低，图像变化不大，计划下次提高学习率。
2023年8月1日
- 使用约100张nijijourney的图像进行LoRA微调等操作。

模型的制作方法

参考「轻松☆复印机学习法（肯定是初级篇）」，对「模糊（blur）」进行LoRA DreamBooth训练，并将该LoRA模型以负比例合并到SDXL模型中。
从niji - v5中挑选100张背景和头发绘制详细的图像，对步骤1得到的模型进行LoRA微调，并将该LoRA模型合并到SDXL模型中。

未来模型的改进

希望能够将模型作为LoRA模型进行分发。由于在512dim(rank)下训练的LoRA模型文件大小达到了3GB，因此本次将其合并到了SDXL模型中。

感想

调整过程困难，多次返工。希望之后能将制作方法制作成视频。

致谢

衷心感谢创建和分发模型、训练数据及训练工具的各位。

依赖库

[sd - scripts](https://github.com/kohya - ss/sd - scripts/tree/sdxl) 4072f723c12822e2fa1b2e076cc1f90b8f4e30c9
[bitsandbytes](https://github.com/jllllll/bitsandbytes - windows - webui) 0.39.1
Pytorch 2.0.0+cu117
xformers 0.0.19