Evt_V4-previewオープンソースアニメーションスタイルモデル - より大きなデータセットで微調整、高い類似度で優れた結果

ホーム

Evt V4 Preview

haorによって開発

EVTシリーズはアニメスタイルモデル向けに大規模データセットで微調整された実験的プロジェクトです。Evt_V4は従来よりも大規模なデータセットを使用し、ACertaintyとのコサイン類似度は85%に達しました。

画像生成英語オープンソースライセンス:Openrail #アニメスタイル最適化 #高類似度微調整 #大規模データセット訓練

ダウンロード数 137

リリース時間 : 1/9/2023

モデル概要

Evt_V4はStable Diffusion技術を基にしたテキストから画像生成モデルで、アニメスタイル画像に特化して最適化されています。

モデル特徴

アニメスタイル最適化

アニメスタイル画像向けに大規模データセットで微調整されています

高類似度

ACertaintyモデルとのコサイン類似度が85%に達しています

大規模訓練

約55万枚のアニメスタイル画像を使用して10エポック訓練しました

モデル能力

テキストから画像生成

アニメスタイル画像生成

高品質画像レンダリング

使用事例

アニメ創作

アニメキャラクターデザイン

様々なスタイルのアニメキャラクター画像を生成します

サンプルでは1girlや鹿目まどかなどのキャラクターの高品質生成効果を展示しています

シーン創作

アニメスタイルのシーン画像を生成します

サンプルでは田野や果物などの要素を含むアニメスタイルシーンを展示しています

🚀 Evt_V4-preview

EVTシリーズは、アニメーションスタイルのモデルを大規模データセットでファインチューニングするための実験的なプロジェクトです。Evt_V4はこれまでよりも大きなデータセットを使用しており、ACertaintyとのコサイン類似度は85％に達しています。他のモデルとは異なる動作をする可能性がありますので、ぜひお楽しみください。

🚀 クイックスタート

このモデルは他のStable Diffusionモデルと同じように使用できます。詳細については、Stable Diffusionをご覧ください。

また、このモデルをONNX、MPS、および/またはFLAX/JAXにエクスポートすることもできます。

from diffusers import StableDiffusionPipeline
import torch

model_id = "haor/Evt_V4-preview"
branch_name= "main"

pipe = StableDiffusionPipeline.from_pretrained(model_id, revision=branch_name, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "1girl"
image = pipe(prompt).images[0]

image.save("./1girl.png")

💻 使用例

基本的な使用法

from diffusers import StableDiffusionPipeline
import torch

model_id = "haor/Evt_V4-preview"
branch_name= "main"

pipe = StableDiffusionPipeline.from_pretrained(model_id, revision=branch_name, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "1girl"
image = pipe(prompt).images[0]

image.save("./1girl.png")

高度な使用法

以下は、具体的なプロンプトを使用して画像を生成する例です。

プロンプト1:

1girl in black serafuku standing in a field solo, food, fruit, lemon, bubble, planet, moon, orange \(fruit\), lemon slice, leaf, fish, orange slice, by (tabi:1.25), spot color, looking at viewer, closeup cowboy shot
Negative prompt: (bad:0.81), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:0.81), (speech:0.81), (worst:0.81), (blush:0.9), 2koma, 3koma, 4koma, collage, lipstick
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 2285895007, Size: 512x1152, Denoising strength: 0.7, Clip skip: 2

プロンプト2:

{Masterpiece, Kaname_Madoka, tall and long double tails, well rooted hair, (pink hair), pink eyes, crossed bangs, ojousama, jk, thigh bandages, wrist cuffs, (pink bow: 1.2)}, plain color, sketch, masterpiece, high detail, masterpiece portrait, best quality, ray tracing, {:<, look at the edge}
Negative prompt: ((((ugly)))), (((duplicate))), ((morbid)), ((mutilated)),extra fingers, mutated hands, ((poorly drawn hands)), ((poorly drawn face)), (((bad proportions))), ((extra limbs)), (((deformed))), (((disfigured))), cloned face, gross proportions, (malformed limbs), ((missing arms)), ((missing legs)), (((extra arms))), (((extra legs))), too many fingers, (((long neck))), (((low quality))), normal quality, blurry, bad feet, text font ui, ((((worst quality)))), anatomical nonsense, (((bad shadow))), unnatural body, liquid body, 3D, 3D game, 3D game scene, 3D character, bad hairs, poorly drawn hairs, fused hairs, big muscles, bad face, extra eyes, furry, pony, mosaic, disappearing calf, disappearing legs, extra digit, fewer digit, fused digit, missing digit, fused feet, poorly drawn eyes, big face, long face, bad eyes, thick lips, obesity, strong girl, beardï¼ŒExcess legs
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 2468255263, Size: 512x1152, Denoising strength: 0.7, Clip skip: 2

📚 ドキュメント

学習に関する詳細

ベースモデル: ACertainty
学習データ: 約55万枚のアニメスタイルの画像（pixivとyandere）を使用して10エポック学習
解像度: 512
UCG: 0.1
arbの使用: True
トレーナー: Mikubill/naifu-diffusion

arb:
  enabled: true
  debug: false
  base_res: [512, 512]
  max_size: [768, 512]
  divisible: 64
  max_ar_error: 4
  min_dim: 256
  dim_limit: 1024

scheduler:
  name: diffusers.DDIMScheduler
  params:
      beta_end: 0.012
      beta_schedule: "scaled_linear"
      beta_start: 0.00085
      clip_sample: false
      num_train_timesteps: 1000
      set_alpha_to_one: false
      steps_offset: 1
      trained_betas: null

optimizer:
  name: bitsandbytes.optim.AdamW8bit
  params:
    lr: 2e-6
    weight_decay: 5e-2
    eps: 1e-7

lr_scheduler:
  name: torch.optim.lr_scheduler.CosineAnnealingWarmRestarts
  warmup: 
    enabled: true
    init_lr: 2e-8
    num_warmup: 50
    strategy: "cos"  
  params:
    T_0: 5
    T_mult: 1
    eta_min: 6e-7
    last_epoch: -1

学習には約300時間のV100 GPUを使用しました。

📄 ライセンス

このモデルはオープンアクセスで、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスにより、権利と使用方法がさらに明確に規定されています。

CreativeML OpenRAILライセンスでは以下のことが規定されています。

このモデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有することはできません。
作者は、ユーザーが生成した出力に対して一切の権利を主張しません。ユーザーは自由にそれらを使用できますが、ライセンスに定められた規定に違反してはなりません。
ユーザーは、このモデルの重みを再配布し、商業的に使用することやサービスとして提供することができます。その際、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があります（ライセンス全体を注意深くお読みください）。ライセンス全文はこちらをご覧ください