🚀 Hermitage XL
Hermitage XLは、高解像度の潜在的なテキストから画像への拡散モデルです。このモデルは、品質の高いアニメスタイルの画像が収められた精選データセットを使って、学習率4e - 7で5000ステップ、バッチサイズ16で微調整されています。このモデルはStable Diffusion XL 1.0をベースにしています。
🚀 クイックスタート
Hermitage XLは、高解像度の潜在的なテキストから画像への拡散モデルです。以下の方法で使用できます。
✨ 主な機能
- 高解像度画像:このモデルは1024x1024の解像度で学習されています。NovelAI Aspect Ratio Bucketing Tool を使用して学習されているため、非正方形の解像度でも学習できます。
- アニメスタイル生成:与えられたテキストプロンプトに基づいて、高品質のアニメスタイルの画像を生成できます。
- 微調整された拡散プロセス:微調整された拡散プロセスを利用して、高品質で独特な画像出力を保証します。
📚 ドキュメント
モデルの詳細
使い方
Hermitage XL
をここからダウンロードします。モデルは .safetensors
形式です。
- 自然言語ではなく、Danbooruスタイルのタグをプロンプトとして使用する必要があります。そうしないと、アニメではなくリアルな結果が得られます。
- 任意の汎用的なネガティブプロンプトを使用するか、以下の推奨ネガティブプロンプトを使用して、モデルを高い美学的な生成に導くことができます。
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
- また、以下の内容をプロンプトの前に付けると、高い美学的な結果が得られます。
masterpiece, best quality, illustration, beautiful detailed, finely detailed, dramatic light, intricate details
🧨 Diffusersの使用
diffusersを >= 0.18.2にアップグレードすることを確認してください。
pip install diffusers --upgrade
さらに、transformers
、safetensors
、accelerate
および不可視ウォーターマークをインストールすることを確認してください。
pip install invisible_watermark transformers accelerate safetensors
パイプラインを実行する(スケジューラを交換しない場合、この例ではデフォルトの EulerDiscreteScheduler で実行されます。ここでは EulerAncestralDiscreteScheduler に交換しています)。
import torch
from torch import autocast
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
model = "Linaqruf/hermitage-xl"
vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae")
pipe = StableDiffusionXLPipeline.from_pretrained(
model,
torch_dtype=torch.float16,
use_safetensors=True,
variant="fp16",
vae=vae
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
prompt = "masterpiece, best quality, 1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, watercolor, night, turtleneck"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=12,
target_size=(1024,1024),
original_size=(4096,4096),
num_inference_steps=50
).images[0]
image.save("anime_girl.png")
制限事項
- このモデルはStable Diffusion XL 1.0の制限事項を引き継いでいます。
- このモデルは過学習しており、小規模なデータセットで5000ステップ微調整されているため、プロンプトにうまく従えません。
- これはStable Diffusion XL 1.0の良いハイパーパラメータと学習設定を見つけるためのプレビューモデルにすぎません。
サンプル例
以下は、選りすぐりのサンプルと、利用可能なモデル間の比較です。
📄 ライセンス
このモデルは CreativeML Open RAIL++-M License の下で提供されています。