モデル概要
モデル特徴
モデル能力
使用事例
🚀 SoteDiffusion Wuerstchen3
Würstchen V3のアニメファインチューニングモデルです。
新しいバージョンが利用可能です
https://huggingface.co/Disty0/sotediffusion-v2
🚀 クイックスタート
このモデルは、テキストから画像を生成するアニメ特化のモデルです。以下のセクションで、モデルの詳細、APIの使い方、UIガイド、コード例などを説明します。
✨ 主な機能
- アニメ画像生成に特化したWürstchen V3のファインチューニングモデルです。
- 600万枚の画像を使用してトレーニングされています。
- Fal.AIを通じてAPIで利用することができます。
📦 インストール
このモデルを使用するには、diffusers
ライブラリをインストールする必要があります。以下のコマンドを実行してインストールしてください。
pip install diffusers
💻 使用例
基本的な使用法
import torch
from diffusers import StableCascadeCombinedPipeline
device = "cuda"
dtype = torch.bfloat16 # or torch.float16
model = "Disty0/sotediffusion-wuerstchen3-decoder"
pipe = StableCascadeCombinedPipeline.from_pretrained(model, torch_dtype=dtype)
# send everything to the gpu:
pipe = pipe.to(device, dtype=dtype)
pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)
# or enable model offload to save vram:
# pipe.enable_model_cpu_offload()
prompt = "newest, extremely aesthetic, best quality, 1girl, solo, cat ears, pink hair, orange eyes, long hair, bare shoulders, looking at viewer, smile, indoors, casual, living room, playing guitar,"
negative_prompt = "very displeasing, worst quality, monochrome, realistic, oldest, loli,"
output = pipe(
width=1024,
height=1536,
prompt=prompt,
negative_prompt=negative_prompt,
decoder_guidance_scale=2.0,
prior_guidance_scale=7.0,
prior_num_inference_steps=30,
output_type="pil",
num_inference_steps=10
).images[0]
## do something with the output image
📚 ドキュメント
リリースノート
- このリリースは、fal.ai/grantsによって支援されています。
- 8台のA100 80G GPUを使用して、600万枚の画像を3エポックでトレーニングしました。
APIの使い方
このモデルは、Fal.AIを通じてAPIで利用することができます。詳細については、https://fal.ai/models/fal-ai/stable-cascade/sote-diffusionを参照してください。
UIガイド
SD.Next
URL: https://github.com/vladmandic/automatic/
Models
->Huggingface
に移動します。- モデル名に
Disty0/sotediffusion-wuerstchen3-decoder
を入力し、ダウンロードを押します。 - ダウンロードが完了したら、
Disty0/sotediffusion-wuerstchen3-decoder
をロードします。
プロンプト:
newest, extremely aesthetic, best quality,
ネガティブプロンプト:
very displeasing, worst quality, monochrome, realistic, oldest, loli,
ComfyUI
詳細については、CivitAIを参照してください。
トレーニング
使用ソフトウェア: Kohya SD-Scripts with Stable Cascade branch
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade
使用GPU: 8台のNvidia A100 80GB
GPU時間: 220時間
ベース設定
パラメータ | 値 |
---|---|
amp | bf16 |
weights | fp32 |
save weights | fp16 |
resolution | 1024x1024 |
effective batch size | 128 |
unet learning rate | 1e-5 |
te learning rate | 4e-6 |
optimizer | Adafactor |
images | 6M |
epochs | 3 |
最終設定
パラメータ | 値 |
---|---|
amp | bf16 |
weights | fp32 |
save weights | fp16 |
resolution | 1024x1024 |
effective batch size | 128 |
unet learning rate | 4e-6 |
te learning rate | none |
optimizer | Adafactor |
images | 120K |
epochs | 16 |
データセット
キャプショニングに使用したGPU: 1台のIntel ARC A770 16GB
GPU時間: 350時間
キャプショニングに使用したモデル: SmilingWolf/wd-swinv2-tagger-v3
テキストに使用したモデル: llava-hf/llava-1.5-7b-hf
コマンド:
python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./
データセット名 | 総画像数 |
---|---|
newest | 1,848,331 |
recent | 1,380,630 |
mid | 993,227 |
early | 566,152 |
oldest | 160,397 |
pixiv | 343,614 |
visual novel cg | 231,358 |
anime wallpaper | 104,790 |
合計 | 5,628,499 |
注意:
- 最小サイズは1280x600 (768,000ピクセル)です。
- czkawka-cliを使用して画像の類似性に基づいて重複排除を行いました。
- 約120Kの非常に高品質の画像を意図的に5回複製し、総画像数を620万枚にしました。
タグ
モデルはランダムなタグ順序でトレーニングされていますが、データセット内のタグ順序は以下の通りです。
aesthetic tags, quality tags, date tags, custom tags, rating tags, character, series, rest of the tags
日付タグ
タグ | 日付 |
---|---|
newest | 2022年から2024年 |
recent | 2019年から2021年 |
mid | 2015年から2018年 |
early | 2011年から2014年 |
oldest | 2005年から2010年 |
美学タグ
使用モデル: shadowlilac/aesthetic-shadow-v2
スコア以上 | タグ | 件数 |
---|---|---|
0.90 | extremely aesthetic | 125,451 |
0.80 | very aesthetic | 887,382 |
0.70 | aesthetic | 1,049,857 |
0.50 | slightly aesthetic | 1,643,091 |
0.40 | not displeasing | 569,543 |
0.30 | not aesthetic | 445,188 |
0.20 | slightly displeasing | 341,424 |
0.10 | displeasing | 237,660 |
その他 | very displeasing | 328,712 |
品質タグ
使用モデル: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth
スコア以上 | タグ | 件数 |
---|---|---|
0.980 | best quality | 1,270,447 |
0.900 | high quality | 498,244 |
0.750 | great quality | 351,006 |
0.500 | medium quality | 366,448 |
0.250 | normal quality | 368,380 |
0.125 | bad quality | 279,050 |
0.025 | low quality | 538,958 |
その他 | worst quality | 1,955,966 |
レーティングタグ
タグ | 件数 |
---|---|
general | 1,416,451 |
sensitive | 3,447,664 |
nsfw | 427,459 |
explicit nsfw | 336,925 |
カスタムタグ
データセット名 | カスタムタグ |
---|---|
image boards | date, |
text | The text says "text", |
characters | character, series |
pixiv | art by Display_Name, |
visual novel cg | Full_VN_Name (short_3_letter_name), visual novel cg, |
anime wallpaper | date, anime wallpaper, |
制限事項とバイアス
バイアス
- このモデルはアニメイラストを対象としています。現実的な表現能力はまったくテストされていません。
制限事項
- 現実的な表現に戻ることがあります。この場合は、ネガティブタグに"realistic"を追加してください。
- 遠景の目や手の表現が不十分なことがあります。
📄 ライセンス
SoteDiffusionモデルはFair AI Public License 1.0-SDライセンスの下にあり、Stable Diffusionモデルのライセンスと互換性があります。主なポイントは以下の通りです。
- 修正の共有: SoteDiffusionモデルを修正した場合は、変更内容と元のライセンスの両方を共有する必要があります。
- ソースコードのアクセシビリティ: 修正版がネットワーク経由でアクセス可能な場合、他の人がソースコードを取得できる方法(ダウンロードリンクなど)を提供する必要があります。派生モデルにもこのルールが適用されます。
- 配布条件: 配布はこのライセンスまたは同様のルールを持つ別のライセンスの下で行う必要があります。
- 遵守: 非遵守の場合は、ライセンスの終了を避けるために30日以内に修正する必要があります。これは、透明性とオープンソースの価値観への遵守を強調しています。
注意: Fair AIライセンスでカバーされていない部分は、Stability AI Non-Commercialライセンス(LICENSE_INHERITと呼ばれる)から引き継がれます。

