🚀 Hermitage XL
Hermitage XL是一款高分辨率的潛在文本到圖像擴散模型。它基於文本提示,能夠生成和修改動漫主題的圖像,為動漫圖像創作提供了強大的支持。
🚀 快速開始
Hermitage XL是一個高分辨率的潛在文本到圖像擴散模型。該模型在精心挑選的高質量動漫風格圖像數據集上進行了微調,學習率為4e - 7,共進行了5000步訓練,批次大小為16。此模型源自Stable Diffusion XL 1.0。
例如,輸入提示 1girl, white hair, golden eyes, beautiful eyes, detail, flower meadow, cumulonimbus clouds, lighting, detailed sky, garden ,可以生成相應的動漫圖像。
你可以通過以下方式使用該模型:
✨ 主要特性
- 高分辨率圖像:該模型以1024x1024的分辨率進行訓練,並且使用了 NovelAI Aspect Ratio Bucketing Tool 進行訓練,因此可以處理非正方形分辨率。
- 動漫風格生成:根據給定的文本提示,模型能夠創建高質量的動漫風格圖像。
- 微調擴散過程:模型採用了微調後的擴散過程,以確保輸出高質量且獨特的圖像。
📦 安裝指南
下載模型
從 這裡 下載 Hermitage XL
模型,該模型為 .safetensors
格式。
安裝依賴
確保將 diffusers
升級到 >= 0.18.2:
pip install diffusers --upgrade
此外,還需安裝 transformers
、safetensors
、accelerate
以及 invisible_watermark
:
pip install invisible_watermark transformers accelerate safetensors
💻 使用示例
基礎用法
運行以下代碼(如果不更換調度器,將使用默認的 EulerDiscreteScheduler,在本示例中,我們將其更換為 EulerAncestralDiscreteScheduler):
import torch
from torch import autocast
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
model = "Linaqruf/hermitage-xl"
vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae")
pipe = StableDiffusionXLPipeline.from_pretrained(
model,
torch_dtype=torch.float16,
use_safetensors=True,
variant="fp16",
vae=vae
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
prompt = "masterpiece, best quality, 1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, watercolor, night, turtleneck"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=12,
target_size=(1024,1024),
original_size=(4096,4096),
num_inference_steps=50
).images[0]
image.save("anime_girl.png")
使用提示
- 你需要使用Danbooru風格的標籤作為提示,而不是自然語言,否則可能會得到寫實風格的結果,而非動漫風格。
- 你可以使用任何通用的負向提示,或者使用以下建議的負向提示,以引導模型生成具有高美學質量的圖像:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
- 此外,為了獲得高美學質量的結果,應在提示前添加以下內容:
masterpiece, best quality, illustration, beautiful detailed, finely detailed, dramatic light, intricate details
📚 詳細文檔
模型詳情
侷限性
- 該模型繼承了Stable Diffusion XL 1.0的 侷限性。
- 由於該模型在小規模數據集上進行了5000步的微調,可能存在過擬合問題,無法很好地遵循提示。
- 這只是一個預覽模型,用於為Stable Diffusion XL 1.0尋找良好的超參數和訓練配置。
示例展示
以下是一些精心挑選的樣本以及與其他可用模型的對比:
📄 許可證
本模型採用 CreativeML Open RAIL++ - M License 許可證。