🚀 Evt_V4-preview
EVTシリーズは、アニメーションスタイルのモデルを大規模データセットでファインチューニングするための実験的なプロジェクトです。Evt_V4はこれまでよりも大きなデータセットを使用しており、ACertaintyとのコサイン類似度は85%に達しています。他のモデルとは異なる動作をする可能性がありますので、ぜひお楽しみください。
🚀 クイックスタート
このモデルは他のStable Diffusionモデルと同じように使用できます。詳細については、Stable Diffusionをご覧ください。
また、このモデルをONNX、MPS、および/またはFLAX/JAXにエクスポートすることもできます。
from diffusers import StableDiffusionPipeline
import torch
model_id = "haor/Evt_V4-preview"
branch_name= "main"
pipe = StableDiffusionPipeline.from_pretrained(model_id, revision=branch_name, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "1girl"
image = pipe(prompt).images[0]
image.save("./1girl.png")
💻 使用例
基本的な使用法
from diffusers import StableDiffusionPipeline
import torch
model_id = "haor/Evt_V4-preview"
branch_name= "main"
pipe = StableDiffusionPipeline.from_pretrained(model_id, revision=branch_name, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "1girl"
image = pipe(prompt).images[0]
image.save("./1girl.png")
高度な使用法
以下は、具体的なプロンプトを使用して画像を生成する例です。
プロンプト1:

1girl in black serafuku standing in a field solo, food, fruit, lemon, bubble, planet, moon, orange \(fruit\), lemon slice, leaf, fish, orange slice, by (tabi:1.25), spot color, looking at viewer, closeup cowboy shot
Negative prompt: (bad:0.81), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:0.81), (speech:0.81), (worst:0.81), (blush:0.9), 2koma, 3koma, 4koma, collage, lipstick
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 2285895007, Size: 512x1152, Denoising strength: 0.7, Clip skip: 2
プロンプト2:

{Masterpiece, Kaname_Madoka, tall and long double tails, well rooted hair, (pink hair), pink eyes, crossed bangs, ojousama, jk, thigh bandages, wrist cuffs, (pink bow: 1.2)}, plain color, sketch, masterpiece, high detail, masterpiece portrait, best quality, ray tracing, {:<, look at the edge}
Negative prompt: ((((ugly)))), (((duplicate))), ((morbid)), ((mutilated)),extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((bad proportions))), ((extra limbs)), (((deformed))), (((disfigured))), cloned face, gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), too many fingers, (((long neck))), (((low quality))), normal quality, blurry, bad feet, text font ui, ((((worst quality)))), anatomical nonsense, (((bad shadow))), unnatural body, liquid body, 3D, 3D game, 3D game scene, 3D character, bad hairs, poorly drawn hairs, fused hairs, big muscles, bad face, extra eyes, furry, pony, mosaic, disappearing calf, disappearing legs, extra digit, fewer digit, fused digit, missing digit, fused feet, poorly drawn eyes, big face, long face, bad eyes, thick lips, obesity, strong girl, beard,Excess legs
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 2468255263, Size: 512x1152, Denoising strength: 0.7, Clip skip: 2
📚 ドキュメント
学習に関する詳細
arb:
enabled: true
debug: false
base_res: [512, 512]
max_size: [768, 512]
divisible: 64
max_ar_error: 4
min_dim: 256
dim_limit: 1024
scheduler:
name: diffusers.DDIMScheduler
params:
beta_end: 0.012
beta_schedule: "scaled_linear"
beta_start: 0.00085
clip_sample: false
num_train_timesteps: 1000
set_alpha_to_one: false
steps_offset: 1
trained_betas: null
optimizer:
name: bitsandbytes.optim.AdamW8bit
params:
lr: 2e-6
weight_decay: 5e-2
eps: 1e-7
lr_scheduler:
name: torch.optim.lr_scheduler.CosineAnnealingWarmRestarts
warmup:
enabled: true
init_lr: 2e-8
num_warmup: 50
strategy: "cos"
params:
T_0: 5
T_mult: 1
eta_min: 6e-7
last_epoch: -1
学習には約300時間のV100 GPUを使用しました。
📄 ライセンス
このモデルはオープンアクセスで、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスにより、権利と使用方法がさらに明確に規定されています。
CreativeML OpenRAILライセンスでは以下のことが規定されています。
- このモデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有することはできません。
- 作者は、ユーザーが生成した出力に対して一切の権利を主張しません。ユーザーは自由にそれらを使用できますが、ライセンスに定められた規定に違反してはなりません。
- ユーザーは、このモデルの重みを再配布し、商業的に使用することやサービスとして提供することができます。その際、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があります(ライセンス全体を注意深くお読みください)。
ライセンス全文はこちらをご覧ください