Sotediffusion Wuerstchen3
模型概述
這是一個基於Würstchen V3架構的動漫風格文本生成圖像模型,經過600萬張圖像的微調訓練,能夠生成高質量的動漫風格圖像。
模型特點
高質量動漫風格
專注於生成高質量的動漫風格圖像
大規模訓練
使用8塊A100 80G顯卡訓練了600萬張圖像
API支持
可通過Fal.AI的API調用使用
模型能力
文本生成圖像
動漫風格圖像生成
高分辨率圖像生成
使用案例
創意藝術
動漫角色設計
根據文本描述生成動漫角色概念圖
高質量動漫風格角色圖像
動漫場景生成
根據文本描述生成動漫風格的場景
1024x1536或更高分辨率的場景圖像
🚀 SoteDiffusion Wuerstchen3
SoteDiffusion Wuerstchen3 是對 Würstchen V3 進行的動漫微調模型,可用於將文本轉化為動漫風格的圖像。
新版本信息
新版本已發佈:https://huggingface.co/Disty0/sotediffusion-v2
🚀 快速開始
本模型可通過 API 與 Fal.AI 結合使用,更多詳情請參考:https://fal.ai/models/fal-ai/stable-cascade/sote-diffusion
✨ 主要特性
- 本版本由 fal.ai/grants 贊助發佈。
- 使用 8 塊 A100 80G GPU,在 600 萬張圖像上進行了 3 個輪次的訓練。
📦 安裝指南
SD.Next
- 訪問:https://github.com/vladmandic/automatic/
- 進入
Models -> Huggingface
,在模型名稱中輸入Disty0/sotediffusion-wuerstchen3-decoder
並點擊下載。 - 下載完成後,加載
Disty0/sotediffusion-wuerstchen3-decoder
。
ComfyUI
請參考 CivitAI:https://civitai.com/models/353284
💻 使用示例
基礎用法
import torch
from diffusers import StableCascadeCombinedPipeline
device = "cuda"
dtype = torch.bfloat16 # or torch.float16
model = "Disty0/sotediffusion-wuerstchen3-decoder"
pipe = StableCascadeCombinedPipeline.from_pretrained(model, torch_dtype=dtype)
# send everything to the gpu:
pipe = pipe.to(device, dtype=dtype)
pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)
# or enable model offload to save vram:
# pipe.enable_model_cpu_offload()
prompt = "newest, extremely aesthetic, best quality, 1girl, solo, cat ears, pink hair, orange eyes, long hair, bare shoulders, looking at viewer, smile, indoors, casual, living room, playing guitar,"
negative_prompt = "very displeasing, worst quality, monochrome, realistic, oldest, loli,"
output = pipe(
width=1024,
height=1536,
prompt=prompt,
negative_prompt=negative_prompt,
decoder_guidance_scale=2.0,
prior_guidance_scale=7.0,
prior_num_inference_steps=30,
output_type="pil",
num_inference_steps=10
).images[0]
## do something with the output image
📚 詳細文檔
模型參數
基礎訓練參數
參數 | 值 |
---|---|
amp | bf16 |
weights | fp32 |
save weights | fp16 |
resolution | 1024x1024 |
effective batch size | 128 |
unet learning rate | 1e-5 |
te learning rate | 4e-6 |
optimizer | Adafactor |
images | 6M |
epochs | 3 |
最終訓練參數
參數 | 值 |
---|---|
amp | bf16 |
weights | fp32 |
save weights | fp16 |
resolution | 1024x1024 |
effective batch size | 128 |
unet learning rate | 4e-6 |
te learning rate | none |
optimizer | Adafactor |
images | 120K |
epochs | 16 |
數據集信息
數據集規模
數據集名稱 | 總圖像數 |
---|---|
newest | 1,848,331 |
recent | 1,380,630 |
mid | 993,227 |
early | 566,152 |
oldest | 160,397 |
pixiv | 343,614 |
visual novel cg | 231,358 |
anime wallpaper | 104,790 |
Total | 5,628,499 |
數據集說明
- 最小尺寸為 1280x600(768,000 像素)。
- 使用 czkawka-cli 基於圖像相似度進行去重。
- 約 120K 張高質量圖像有意重複 5 次,使總圖像數達到 620 萬。
標籤信息
標籤順序
模型以隨機標籤順序進行訓練,但數據集中的標籤順序如下:
aesthetic tags, quality tags, date tags, custom tags, rating tags, character, series, rest of the tags
日期標籤
標籤 | 日期 |
---|---|
newest | 2022 至 2024 |
recent | 2019 至 2021 |
mid | 2015 至 2018 |
early | 2011 至 2014 |
oldest | 2005 至 2010 |
美學標籤
分數大於 | 標籤 | 數量 |
---|---|---|
0.90 | extremely aesthetic | 125,451 |
0.80 | very aesthetic | 887,382 |
0.70 | aesthetic | 1,049,857 |
0.50 | slightly aesthetic | 1,643,091 |
0.40 | not displeasing | 569,543 |
0.30 | not aesthetic | 445,188 |
0.20 | slightly displeasing | 341,424 |
0.10 | displeasing | 237,660 |
rest of them | very displeasing | 328,712 |
質量標籤
分數大於 | 標籤 | 數量 |
---|---|---|
0.980 | best quality | 1,270,447 |
0.900 | high quality | 498,244 |
0.750 | great quality | 351,006 |
0.500 | medium quality | 366,448 |
0.250 | normal quality | 368,380 |
0.125 | bad quality | 279,050 |
0.025 | low quality | 538,958 |
rest of them | worst quality | 1,955,966 |
評級標籤
標籤 | 數量 |
---|---|
general | 1,416,451 |
sensitive | 3,447,664 |
nsfw | 427,459 |
explicit nsfw | 336,925 |
自定義標籤
數據集名稱 | 自定義標籤 |
---|---|
image boards | date, |
text | The text says "text", |
characters | character, series |
pixiv | art by Display_Name, |
visual novel cg | Full_VN_Name (short_3_letter_name), visual novel cg, |
anime wallpaper | date, anime wallpaper, |
🔧 技術細節
訓練信息
- 使用軟件:Kohya SD-Scripts with Stable Cascade branch。https://github.com/kohya-ss/sd-scripts/tree/stable-cascade
- 使用 GPU:8x Nvidia A100 80GB
- GPU 時長:220 小時
標註信息
- 用於標註的 GPU:1x Intel ARC A770 16GB
- GPU 時長:350 小時
- 用於標註的模型:SmilingWolf/wd-swinv2-tagger-v3
- 用於文本的模型:llava-hf/llava-1.5-7b-hf
- 標註命令:
python /mnt/DataSSD/AI/Apps/kohya_ss/sd-scripts/finetune/tag_images_by_wd14_tagger.py --model_dir "/mnt/DataSSD/AI/models/wd14_tagger_model" --repo_id "SmilingWolf/wd-swinv2-tagger-v3" --recursive --remove_underscore --use_rating_tags --character_tags_first --character_tag_expand --append_tags --onnx --caption_separator ", " --general_threshold 0.35 --character_threshold 0.50 --batch_size 4 --caption_extension ".txt" ./
📄 許可證
SoteDiffusion 模型遵循 Fair AI Public License 1.0-SD 許可協議,該協議與 Stable Diffusion 模型的許可協議兼容。要點如下:
- 修改共享:如果您修改了 SoteDiffusion 模型,必須同時共享您的修改和原始許可協議。
- 源代碼可訪問性:如果您的修改版本可以通過網絡訪問,需提供一種方式(如下載鏈接)讓他人獲取源代碼。這也適用於派生模型。
- 分發條款:任何分發都必須遵循此許可協議或其他具有類似規則的協議。
- 合規性:若不遵守規定,必須在 30 天內糾正,以避免許可協議終止,強調透明度和遵守開源價值觀。
注意:Fair AI 許可協議未涵蓋的內容繼承自 Stability AI 非商業許可協議,名為 LICENSE_INHERIT。
⚠️ 重要提示
- 本模型專為動漫插畫設計,未對其寫實能力進行測試。
- 模型可能會生成寫實風格的圖像,此時可在負向提示詞中添加 "realistic" 標籤。
- 遠景中的眼睛和手部細節可能表現不佳。
Stable Diffusion V1 5
Openrail
穩定擴散是一種潛在的文本到圖像擴散模型,能夠根據任何文本輸入生成逼真的圖像。
圖像生成
S
stable-diffusion-v1-5
3.7M
518
Stable Diffusion Inpainting
Openrail
基於穩定擴散的文本到圖像生成模型,具備圖像修復能力
圖像生成
S
stable-diffusion-v1-5
3.3M
56
Stable Diffusion Xl Base 1.0
SDXL 1.0是基於擴散的文本生成圖像模型,採用專家集成的潛在擴散流程,支持高分辨率圖像生成
圖像生成
S
stabilityai
2.4M
6,545
Stable Diffusion V1 4
Openrail
穩定擴散是一種潛在文本到圖像擴散模型,能夠根據任意文本輸入生成逼真圖像。
圖像生成
S
CompVis
1.7M
6,778
Stable Diffusion Xl Refiner 1.0
SD-XL 1.0優化器模型是Stability AI開發的圖像生成模型,專為提升SDXL基礎模型生成的圖像質量而設計,特別擅長最終去噪步驟處理。
圖像生成
S
stabilityai
1.1M
1,882
Stable Diffusion 2 1
基於擴散的文本生成圖像模型,支持通過文本提示生成和修改圖像
圖像生成
S
stabilityai
948.75k
3,966
Stable Diffusion Xl 1.0 Inpainting 0.1
基於Stable Diffusion XL的潛在文本到圖像擴散模型,具備通過遮罩進行圖像修復的功能
圖像生成
S
diffusers
673.14k
334
Stable Diffusion 2 Base
基於擴散的文生圖模型,可根據文本提示生成高質量圖像
圖像生成
S
stabilityai
613.60k
349
Playground V2.5 1024px Aesthetic
其他
開源文生圖模型,能生成1024x1024分辨率及多種縱橫比的美學圖像,在美學質量上處於開源領域領先地位。
圖像生成
P
playgroundai
554.94k
723
Sd Turbo
SD-Turbo是一款高速文本生成圖像模型,僅需單次網絡推理即可根據文本提示生成逼真圖像。該模型作為研究原型發佈,旨在探索小型蒸餾文本生成圖像模型。
圖像生成
S
stabilityai
502.82k
380
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98