🚀 NoobAI XL V-Pred 0.5
この画像生成モデルは、テキストから画像を生成する能力を持ち、特定の課題解決に役立ちます。Laxhar/noobai - XL_v1.0 をベースに構築され、独自のデータセットを利用して高精度な画像生成を実現します。
🚀 クイックスタート
中文版の説明は こちらをクリック してください。
✨ 主な機能
この画像生成モデルは、Laxhar/noobai - XL_v1.0 をベースに、完全な Danbooru と e621 データセットをネイティブタグと自然言語キャプショニングで活用しています。v - 予測モデル(eps - 予測とは異なります)として実装されており、特定のパラメータ設定が必要です。
⚠️ 重要提示
このモデルは EPS モデルとは異なる動作をします!必ずガイドを注意深く読んでください!
📦 インストール
- (reForge をインストールしていない場合)リポジトリの指示に従って reForge をインストールします。
- WebUI を起動し、通常通りモデルを使用します!
ノードでのサンプル
comfy_ui_workflow_sample
開発ブランチは安定していない場合があり、バグが含まれる可能性があります。
- (WebUI をインストールしていない場合)リポジトリの指示に従って WebUI をインストールします。
dev
ブランチに切り替えます:
git switch dev
- 最新の更新を取得します:
git pull
- WebUI を起動し、通常通りモデルを使用します!
import torch
from diffusers import StableDiffusionXLPipeline
from diffusers import EulerDiscreteScheduler
ckpt_path = "/path/to/model.safetensors"
pipe = StableDiffusionXLPipeline.from_single_file(
ckpt_path,
use_safetensors=True,
torch_dtype=torch.float16,
)
scheduler_args = {"prediction_type": "v_prediction", "rescale_betas_zero_snr": True}
pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config, **scheduler_args)
pipe.enable_xformers_memory_efficient_attention()
pipe = pipe.to("cuda")
prompt = """masterpiece, best quality,artist:john_kafka,artist:nixeu,artist:quasarcake, chromatic aberration, film grain, horror \(theme\), limited palette, x-shaped pupils, high contrast, color contrast, cold colors, arlecchino \(genshin impact\), black theme, gritty, graphite \(medium\)"""
negative_prompt = "nsfw, worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, furry, ambiguous form, feral, semi-anthro"
image = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
num_inference_steps=28,
guidance_scale=5,
generator=torch.Generator().manual_seed(42),
).images[0]
image.save("output.png")
注意: 必ず Git がインストールされ、環境が適切に設定されていることを確認してください。
💻 使用例
基本的な使用法
上記のインストール方法のいずれかを選択し、モデルを使用して画像を生成できます。
高度な使用法
特定のパラメータを調整することで、より質の高い画像を生成できます。以下は推奨設定です。
📚 ドキュメント
推奨設定
パラメータ
- CFG: 4 ~ 5
- ステップ数: 28 ~ 35
- サンプリング方法: Euler (⚠️ 他のサンプラーは正常に動作しません)
- 解像度: 総面積が約 1024x1024。以下から選ぶのが最適です: 768x1344, 832x1216, 896x1152, 1024x1024, 1152x896, 1216x832, 1344x768
プロンプト
masterpiece, best quality, newest, absurdres, highres, safe,
nsfw, worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, furry, ambiguous form, feral, semi-anthro
使用ガイド
キャプション
<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>, <other tags>
品質タグ
品質タグについては、以下のプロセスを通じて画像の人気を評価しました。
- 様々なソースと評価に基づくデータ正規化。
- 日付の新しさに応じた時間ベースの減衰係数の適用。
- この処理に基づく全データセット内での画像のランキング。
最終的な目標は、品質タグが近年のユーザーの好みを効果的に追跡することを保証することです。
パーセンタイル範囲 |
品質タグ |
> 95th |
masterpiece |
> 85th, <= 95th |
best quality |
> 60th, <= 85th |
good quality |
> 30th, <= 60th |
normal quality |
<= 30th |
worst quality |
審美タグ
タグ |
説明 |
very awa |
[waifu - scorer](https://huggingface.co/Eugeoter/waifu - scorer - v4 - beta)による審美スコアの上位 5%の画像 |
worst aesthetic |
[waifu - scorer](https://huggingface.co/Eugeoter/waifu - scorer - v4 - beta)と[aesthetic - shadow - v2](https://huggingface.co/shadowlilac/aesthetic - shadow - v2)による審美スコアの下位 5%の画像 |
... |
... |
日付タグ
日付タグには、年タグと期間タグの 2 種類があります。年タグは year xxxx
形式で、例えば year 2021
のように使用します。期間タグは以下の表を参照してください。
年範囲 |
期間タグ |
2005 - 2010 |
old |
2011 - 2014 |
early |
2014 - 2017 |
mid |
2018 - 2020 |
recent |
2021 - 2024 |
newest |
データセット
- 学習日までの最新の Danbooru 画像(およそ 2024 - 10 - 23 以前)
- Hugging Face の [e621 - 2024 - webp - 4Mpixel](https://huggingface.co/datasets/NebulaeWis/e621 - 2024 - webp - 4Mpixel) データセットの E621 画像
コミュニケーション
v - pred SDXL モデルでの LoRA のトレーニング方法
sd - scripts に基づく LoRA トレーナー向けのチュートリアルです。
記事リンク: https://civitai.com/articles/8723
ユーティリティツール
Laxhar Lab は NoobXL 用の専用 ControlNet モデルをトレーニング中で、モデルは段階的にリリースされています。これまでに normal、depth、canny がリリースされています。
モデルリンク: https://civitai.com/models/929685
モデルの詳細
🔧 技術詳細
このモデルは v - 予測モデルとして実装されており、eps - 予測モデルとは異なる動作をします。特定のパラメータ設定が必要で、これらの詳細はドキュメントの各セクションで説明されています。
📄 ライセンス
このモデルのライセンスは、https://huggingface.co/OnomaAIResearch/Illustrious - xl - early - release - v0 fair - ai - public - license - 1.0 - sd を継承し、以下の条件を追加しています。このモデルとそのバリアントの使用は、このライセンスに拘束されます。
I. 使用制限
- 有害、悪意的、または違法な活動、これには嫌がらせ、脅迫、誤情報の拡散などが含まれますがこれらに限定されません。
- 非倫理的または不快な内容の生成。
- ユーザーの管轄区域の法律と規制の違反。
II. 商業利用禁止
モデル、派生モデル、またはモデル生成製品の収益化や商業利用など、あらゆる形態の商業化を禁止します。
III. オープンソースコミュニティ
活発なオープンソースコミュニティを育むために、ユーザーは以下の要件を遵守する必要があります。
- 派生モデル、マージモデル、LoRA、および上記のモデルに基づく製品をオープンソースにする。
- 合成式、プロンプト、ワークフローなどの作業詳細を共有する。
- 派生作品がオープンソースのままであることを保証するために、fair - ai - public - license に従う。
IV. 免責事項
生成されたモデルは予期せぬまたは有害な出力を生成する可能性があります。ユーザーは使用に伴うすべてのリスクと潜在的な結果を負う必要があります。
関係者と貢献者
関係者
貢献者
- Narugo1992: narugo1992 と deepghs チームが様々なトレーニングセット、画像処理ツール、およびモデルをオープンソースにしてくれたことに感謝します。
- Mikubill: Mikubill が Naifu トレーナーを提供してくれたことに感謝します。
- Onommai: OnommAI が強力なベースモデルをオープンソースにしてくれたことに感謝します。
- V - Prediction: 以下の方々が詳細な指示と実験を行ってくれたことに感謝します。
- adsfssdf
- bluvoll
- bvhari
- catboxanon
- [parsee - mizuhashi](https://huggingface.co/parsee - mizuhashi)
- [very - aesthetic](https://github.com/very - aesthetic)
- momoura
- madmanfourohfour
- コミュニティ: aria1th261, neggles, sdtana, chewing, irldoggo, reoe, kblueleaf, Yidhar, ageless, 白玲可, Creeper, KaerMorh, 吟游诗人, SeASnAkE, zwh20081, Wenaka~喵, 稀里哗啦, 幸运二副, 昨日の約, 445, EBIX, Sopp, Y_X, Minthybasis, Rakosz