sotediffusion - wuerstchen3オープンソースモデル - 高品質なアニメスタイルの画像を無料で生成

ホーム

Sotediffusion Wuerstchen3

Disty0によって開発

Würstchen V3をベースにしたアニメスタイルのファインチューニングモデルで、高品質なアニメスタイル画像の生成に特化

画像生成英語オープンソースライセンス:その他 #アニメスタイル生成 #高解像度画像 #テキストから画像への変換

ダウンロード数 467

リリース時間 : 6/10/2024

モデル概要

これはWürstchen V3アーキテクチャをベースにしたアニメスタイルのテキスト生成画像モデルで、600万枚の画像でファインチューニングされており、高品質なアニメスタイル画像を生成できます。

モデル特徴

高品質アニメスタイル

高品質なアニメスタイル画像の生成に特化

大規模トレーニング

8台のA100 80G GPUで600万枚の画像をトレーニング

APIサポート

Fal.AIのAPIを介して利用可能

モデル能力

テキスト生成画像

アニメスタイル画像生成

高解像度画像生成

使用事例

クリエイティブアート

アニメキャラクターデザイン

テキスト記述に基づいてアニメキャラクターのコンセプトアートを生成

高品質なアニメスタイルのキャラクター画像

アニメシーン生成

テキスト記述に基づいてアニメスタイルのシーンを生成

1024x1536以上の高解像度シーン画像

🚀 SoteDiffusion Wuerstchen3

Würstchen V3のアニメファインチューニングモデルです。

新しいバージョンが利用可能です

https://huggingface.co/Disty0/sotediffusion-v2

🚀 クイックスタート

このモデルは、テキストから画像を生成するアニメ特化のモデルです。以下のセクションで、モデルの詳細、APIの使い方、UIガイド、コード例などを説明します。

✨ 主な機能

アニメ画像生成に特化したWürstchen V3のファインチューニングモデルです。
600万枚の画像を使用してトレーニングされています。
Fal.AIを通じてAPIで利用することができます。

📦 インストール

このモデルを使用するには、diffusersライブラリをインストールする必要があります。以下のコマンドを実行してインストールしてください。

pip install diffusers

💻 使用例

基本的な使用法

import torch
from diffusers import StableCascadeCombinedPipeline

device = "cuda"
dtype = torch.bfloat16 # or torch.float16
model = "Disty0/sotediffusion-wuerstchen3-decoder"

pipe = StableCascadeCombinedPipeline.from_pretrained(model, torch_dtype=dtype)

# send everything to the gpu:
pipe = pipe.to(device, dtype=dtype)
pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)

# or enable model offload to save vram:
# pipe.enable_model_cpu_offload()

prompt = "newest, extremely aesthetic, best quality, 1girl, solo, cat ears, pink hair, orange eyes, long hair, bare shoulders, looking at viewer, smile, indoors, casual, living room, playing guitar,"
negative_prompt = "very displeasing, worst quality, monochrome, realistic, oldest, loli,"
output = pipe(
    width=1024,
    height=1536,
    prompt=prompt,
    negative_prompt=negative_prompt,
    decoder_guidance_scale=2.0,
    prior_guidance_scale=7.0,
    prior_num_inference_steps=30,
    output_type="pil",
    num_inference_steps=10
).images[0]

## do something with the output image

📚 ドキュメント

リリースノート

このリリースは、fal.ai/grantsによって支援されています。
8台のA100 80G GPUを使用して、600万枚の画像を3エポックでトレーニングしました。

APIの使い方

このモデルは、Fal.AIを通じてAPIで利用することができます。詳細については、https://fal.ai/models/fal-ai/stable-cascade/sote-diffusionを参照してください。

UIガイド

SD.Next

URL: https://github.com/vladmandic/automatic/

Models -> Huggingfaceに移動します。
モデル名にDisty0/sotediffusion-wuerstchen3-decoderを入力し、ダウンロードを押します。
ダウンロードが完了したら、Disty0/sotediffusion-wuerstchen3-decoderをロードします。

プロンプト:

newest, extremely aesthetic, best quality,

ネガティブプロンプト:

very displeasing, worst quality, monochrome, realistic, oldest, loli,

ComfyUI

詳細については、CivitAIを参照してください。

トレーニング

使用ソフトウェア: Kohya SD-Scripts with Stable Cascade branch
https://github.com/kohya-ss/sd-scripts/tree/stable-cascade

使用GPU: 8台のNvidia A100 80GB
GPU時間: 220時間

ベース設定

パラメータ	値
amp	bf16
weights	fp32
save weights	fp16
resolution	1024x1024
effective batch size	128
unet learning rate	1e-5
te learning rate	4e-6
optimizer	Adafactor
images	6M
epochs	3

最終設定

パラメータ	値
amp	bf16
weights	fp32
save weights	fp16
resolution	1024x1024
effective batch size	128
unet learning rate	4e-6
te learning rate	none
optimizer	Adafactor
images	120K
epochs	16

データセット

キャプショニングに使用したGPU: 1台のIntel ARC A770 16GB
GPU時間: 350時間

キャプショニングに使用したモデル: SmilingWolf/wd-swinv2-tagger-v3
テキストに使用したモデル: llava-hf/llava-1.5-7b-hf

コマンド:

python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./

データセット名	総画像数
newest	1,848,331
recent	1,380,630
mid	993,227
early	566,152
oldest	160,397
pixiv	343,614
visual novel cg	231,358
anime wallpaper	104,790
合計	5,628,499

注意:

最小サイズは1280x600 (768,000ピクセル)です。
czkawka-cliを使用して画像の類似性に基づいて重複排除を行いました。
約120Kの非常に高品質の画像を意図的に5回複製し、総画像数を620万枚にしました。

タグ	日付
newest	2022年から2024年
recent	2019年から2021年
mid	2015年から2018年
early	2011年から2014年
oldest	2005年から2010年

スコア以上	タグ	件数
0.90	extremely aesthetic	125,451
0.80	very aesthetic	887,382
0.70	aesthetic	1,049,857
0.50	slightly aesthetic	1,643,091
0.40	not displeasing	569,543
0.30	not aesthetic	445,188
0.20	slightly displeasing	341,424
0.10	displeasing	237,660
その他	very displeasing	328,712

品質タグ

使用モデル: https://huggingface.co/hakurei/waifu-diffusion-v1-4/blob/main/models/aes-B32-v0.pth

スコア以上	タグ	件数
0.980	best quality	1,270,447
0.900	high quality	498,244
0.750	great quality	351,006
0.500	medium quality	366,448
0.250	normal quality	368,380
0.125	bad quality	279,050
0.025	low quality	538,958
その他	worst quality	1,955,966

レーティングタグ

タグ	件数
general	1,416,451
sensitive	3,447,664
nsfw	427,459
explicit nsfw	336,925

カスタムタグ

データセット名	カスタムタグ
image boards	date,
text	The text says "text",
characters	character, series
pixiv	art by Display_Name,
visual novel cg	Full_VN_Name (short_3_letter_name), visual novel cg,
anime wallpaper	date, anime wallpaper,

制限事項とバイアス

バイアス

このモデルはアニメイラストを対象としています。現実的な表現能力はまったくテストされていません。

制限事項

現実的な表現に戻ることがあります。この場合は、ネガティブタグに"realistic"を追加してください。
遠景の目や手の表現が不十分なことがあります。

📄 ライセンス

SoteDiffusionモデルはFair AI Public License 1.0-SDライセンスの下にあり、Stable Diffusionモデルのライセンスと互換性があります。主なポイントは以下の通りです。

修正の共有: SoteDiffusionモデルを修正した場合は、変更内容と元のライセンスの両方を共有する必要があります。
ソースコードのアクセシビリティ: 修正版がネットワーク経由でアクセス可能な場合、他の人がソースコードを取得できる方法（ダウンロードリンクなど）を提供する必要があります。派生モデルにもこのルールが適用されます。
配布条件: 配布はこのライセンスまたは同様のルールを持つ別のライセンスの下で行う必要があります。
遵守: 非遵守の場合は、ライセンスの終了を避けるために30日以内に修正する必要があります。これは、透明性とオープンソースの価値観への遵守を強調しています。

注意: Fair AIライセンスでカバーされていない部分は、Stability AI Non-Commercialライセンス（LICENSE_INHERITと呼ばれる）から引き継がれます。