🚀 Hermitage XL
Hermitage XL是一款高分辨率的潜在文本到图像扩散模型。它基于文本提示,能够生成和修改动漫主题的图像,为动漫图像创作提供了强大的支持。
🚀 快速开始
Hermitage XL是一个高分辨率的潜在文本到图像扩散模型。该模型在精心挑选的高质量动漫风格图像数据集上进行了微调,学习率为4e - 7,共进行了5000步训练,批次大小为16。此模型源自Stable Diffusion XL 1.0。
例如,输入提示 1girl, white hair, golden eyes, beautiful eyes, detail, flower meadow, cumulonimbus clouds, lighting, detailed sky, garden ,可以生成相应的动漫图像。
你可以通过以下方式使用该模型:
✨ 主要特性
- 高分辨率图像:该模型以1024x1024的分辨率进行训练,并且使用了 NovelAI Aspect Ratio Bucketing Tool 进行训练,因此可以处理非正方形分辨率。
- 动漫风格生成:根据给定的文本提示,模型能够创建高质量的动漫风格图像。
- 微调扩散过程:模型采用了微调后的扩散过程,以确保输出高质量且独特的图像。
📦 安装指南
下载模型
从 这里 下载 Hermitage XL
模型,该模型为 .safetensors
格式。
安装依赖
确保将 diffusers
升级到 >= 0.18.2:
pip install diffusers --upgrade
此外,还需安装 transformers
、safetensors
、accelerate
以及 invisible_watermark
:
pip install invisible_watermark transformers accelerate safetensors
💻 使用示例
基础用法
运行以下代码(如果不更换调度器,将使用默认的 EulerDiscreteScheduler,在本示例中,我们将其更换为 EulerAncestralDiscreteScheduler):
import torch
from torch import autocast
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
model = "Linaqruf/hermitage-xl"
vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae")
pipe = StableDiffusionXLPipeline.from_pretrained(
model,
torch_dtype=torch.float16,
use_safetensors=True,
variant="fp16",
vae=vae
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
prompt = "masterpiece, best quality, 1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, watercolor, night, turtleneck"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=12,
target_size=(1024,1024),
original_size=(4096,4096),
num_inference_steps=50
).images[0]
image.save("anime_girl.png")
使用提示
- 你需要使用Danbooru风格的标签作为提示,而不是自然语言,否则可能会得到写实风格的结果,而非动漫风格。
- 你可以使用任何通用的负向提示,或者使用以下建议的负向提示,以引导模型生成具有高美学质量的图像:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
- 此外,为了获得高美学质量的结果,应在提示前添加以下内容:
masterpiece, best quality, illustration, beautiful detailed, finely detailed, dramatic light, intricate details
📚 详细文档
模型详情
局限性
- 该模型继承了Stable Diffusion XL 1.0的 局限性。
- 由于该模型在小规模数据集上进行了5000步的微调,可能存在过拟合问题,无法很好地遵循提示。
- 这只是一个预览模型,用于为Stable Diffusion XL 1.0寻找良好的超参数和训练配置。
示例展示
以下是一些精心挑选的样本以及与其他可用模型的对比:
📄 许可证
本模型采用 CreativeML Open RAIL++ - M License 许可证。