hitokomoru-diffusion-v2开源模型 - 基于知名作品生成动漫风图像，支持特定标签

首页

Hitokomoru Diffusion V2

由 Linaqruf 开发

基于日本艺术家Hitokomoru作品微调的动漫风格文本生成图像模型，支持Danbooru标签输入

图像生成英语开源协议:Openrail #动漫风格生成 #高美学图像 #Danbooru标签支持

下载量 27

发布时间 : 1/16/2023

模型简介

这是一个基于waifu-diffusion-1-4微调的潜在扩散模型，专门用于生成高质量的动漫风格图像。模型通过257幅Danbooru收集的作品训练，支持非正方形分辨率输出。

模型特点

动漫风格优化

基于日本艺术家Hitokomoru作品微调，专精于生成高质量动漫人物图像

宽高比支持

通过宽高比分桶工具预处理，支持非正方形分辨率输出

标签兼容性

兼容Danbooru标签系统，可使用常见动漫特征标签生成图像

美学优化

通过特定正向/反向提示词组合可显著提升生成图像质量

模型能力

文本生成图像

动漫风格图像生成

人物特征控制

场景细节控制

使用案例

动漫创作

动漫角色设计

通过详细特征描述生成定制动漫角色

高质量动漫人物图像，可精确控制发色、眼睛颜色等特征

场景概念图

生成带有复杂背景的动漫场景

包含光照、天气、季节等细节的完整场景图像

艺术创作

插画生成

快速生成动漫风格插画

可直接用于商业或个人的插画作品

🚀 Hitokomoru Diffusion V2

Hitokomoru Diffusion V2 是一个基于文本生成图像的模型，它在日本艺术家的作品上进行训练，能够根据文本提示生成高质量的动漫风格图像，支持使用 Danbooru 标签来生成特定风格的图像。

🚀 快速开始

Hitokomoru Diffusion V2 是一个潜在扩散模型，它在日本艺术家 „Éí„Éà„Åì„ÇÇ„Çã/Hitokomoru 的作品上进行训练。当前模型是基于 waifu-diffusion-1-4 (wd-1-4-anime_e2.ckpt) 进行微调的，学习率为 2.0e-6，训练步数为 15000，批量大小为 4，使用从 Danbooru 收集的 257 幅艺术作品 进行训练。该模型是 hitokomoru-diffusion 的延续，之前的版本是基于 Anything V3.0 进行微调的。数据集使用 Aspect Ratio Bucketing Tool 进行了预处理，以便可以转换为潜在空间并在非方形分辨率下进行训练。和其他动漫风格的 Stable Diffusion 模型一样，它也支持使用 Danbooru 标签来生成图像。

例如：1girl, white hair, golden eyes, beautiful eyes, detail, flower meadow, cumulonimbus clouds, lighting, detailed sky, garden

可以结合 Automatic1111's Stable Diffusion Webui 使用，详见：使用方法
也可以结合 üß® diffusers 使用

✨ 主要特性

基于特定艺术家作品训练：在日本艺术家 „Éí„Éà„Åì„ÇÇ„Çã/Hitokomoru 的作品上进行训练，能生成具有该艺术家风格的图像。
支持 Danbooru 标签：和其他动漫风格的 Stable Diffusion 模型一样，支持使用 Danbooru 标签来生成特定风格的图像。
非方形分辨率训练：数据集使用 Aspect Ratio Bucketing Tool 进行预处理，可在非方形分辨率下进行训练。

📦 安装指南

使用 Automatic1111's Stable Diffusion Webui

从这里下载 hitokomoru-v2.ckpt 文件，或者从这里下载 safetensors 版本。
该模型是基于 waifu-diffusion-v1-4-epoch-2 微调的，而后者又是基于 stable-diffusion-2-1-base 微调的。因此，要在 Automatic1111's Stable Diffusion Webui 中运行该模型，需要将推理配置 .YAML 文件放在模型旁边，可以从这里找到该文件。

使用 Diffusers

需要安装以下依赖才能运行管道：

pip install diffusers transformers accelerate scipy safetensors

💻 使用示例

基础用法

import torch
from torch import autocast
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "Linaqruf/hitokomoru-diffusion-v2"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "masterpiece, best quality, high quality, 1girl, solo, sitting, confident expression, long blonde hair, blue eyes, formal dress"
negative_prompt = "worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry"

with autocast("cuda"):
    image = pipe(prompt, 
                 negative_prompt=negative_prompt, 
                 width=512,
                 height=728,
                 guidance_scale=12,
                 num_inference_steps=50).images[0]
    
image.save("anime_girl.png")

高级用法

在使用时，需要根据官方 Waifu Diffusion 1.4 发布说明调整提示词，以获得更高质量的图像。

理想的负提示词示例：

worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry

为了获得高美学效果，提示词前应添加以下内容：

masterpiece, best quality, high quality, absurdres

📚 详细文档

模型详情

属性	详情
开发者	Linaqruf
模型类型	基于扩散的文本到图像生成模型
功能描述	该模型可根据文本提示生成和修改图像
许可证	CreativeML Open RAIL++-M License
微调基础模型	waifu-diffusion-v1-4-epoch-2

示例图像的提示词和设置

masterpiece, best quality, high quality, 1girl, solo, sitting, confident expression, long blonde hair, blue eyes, formal dress, jewelry, make-up, luxury, close-up, face, upper body.

Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 994051800, Size: 512x768, Model hash: ea61e913a0, Model: hitokomoru-v2, Batch size: 2, Batch pos: 0, Denoising strength: 0.6, Clip skip: 2, ENSD: 31337, Hires upscale: 1.5, Hires steps: 20, Hires upscaler: Latent (nearest-exact)

示例图像

Anime Girl

🔧 技术细节

该模型基于 waifu-diffusion-1-4 (wd-1-4-anime_e2.ckpt) 进行微调，学习率为 2.0e-6，训练步数为 15000，批量大小为 4，使用从 Danbooru 收集的 257 幅艺术作品 进行训练。数据集使用 Aspect Ratio Bucketing Tool 进行了预处理，以便可以转换为潜在空间并在非方形分辨率下进行训练。

📄 许可证

该模型是开放访问的，所有人都可以使用，采用 CreativeML OpenRAIL-M 许可证进一步规定了权利和使用方式。

CreativeML OpenRAIL 许可证规定：

不得使用该模型故意生成或分享非法或有害的输出或内容。
作者对生成的输出不主张任何权利，用户可以自由使用这些输出，并对其使用负责，且使用不得违反许可证中的规定。
可以重新分发模型权重，并将模型用于商业用途和/或作为服务使用。如果这样做，请务必包含与许可证中相同的使用限制，并向所有用户分享一份 CreativeML OpenRAIL-M 许可证副本（请完整仔细阅读许可证）。

请在此处阅读完整许可证