🚀 RouWei-0.8
このモデルは、Illustriousを深度再学習し、最高のプロンプト忠実度、知識、そして最先端のパフォーマンスを実現しました。1300万枚のユニークな画像(約400万枚は自然なテキストキャプション付き)を2億5000万枚以上のアニメアート、表紙、デジタルイラスト、西洋メディアなどのソースから選択しバランスを取り、トレーニングに使用しています。Civitaiで詳細を確認

🚀 クイックスタート
このモデルは、テキストから画像を生成するためのモデルです。以下のセクションで、その機能や使い方について詳しく説明します。
✨ 主な機能
- 最新かつ豊富な知識:キャラクター、概念、スタイル、文化などに関する最新かつ豊富な知識を持っています。
- 高いプロンプト忠実度:リリース時点で、SDXLアニメモデルの中で最も高いプロンプト忠実度を誇ります。
- タグの漏洩やバイアスの解消:IllustriousやNoobAiなどのチェックポイントで一般的なタグの漏洩やバイアスの問題を解決しています。
- 幅広いスタイルに対応:5万以上のアーティストのスタイルに対応しており、様々なスタイルで高い美学性と知識を発揮します。
- 高い柔軟性と多様性:安定性を犠牲にすることなく、高い柔軟性と多様性を実現しています。
- 煩わしい透かしの解消:クリーンなデータセットを使用しているため、人気スタイルに煩わしい透かしが表示されなくなりました。
- 鮮やかな色と滑らかなグラデーション:焼けたような跡がなく、鮮やかな色と滑らかなグラデーションを実現しています。
- 純粋なトレーニング:Illustrious v0.1から純粋にトレーニングされており、サードパーティのチェックポイント、Loras、チューナーなどを使用していません。
データセットの締め切りは2025年4月末です。
📚 ドキュメント
重要な変更点
アーティストスタイルを指定する際、特に複数のスタイルを組み合わせる場合は、それらのタグを別のCLIPチャンクに入れる必要があります。その後にBREAK
を追加(A1111およびその派生版の場合)、コンディショニング結合ノードを使用(Comfyの場合)、または少なくとも最後に配置してください。そうしないと、結果が大幅に劣化する可能性があります。
このモデルは、短いブールタグベースのプロンプトと長い複雑な自然言語のプロンプトの両方で動作するように設計されています。タグと自然言語のフレーズを組み合わせることで、最良の結果を得ることができます。タグには、アンダースコアのないクラシックなダンブールスタイルのカンマ区切りタグが使用されています。
基本設定
- txt2imgの場合、約100万〜150万画素、解像度が64の倍数の任意のアスペクト比(1024x1024、1152x、1216x832など)
- サンプラー:Euler_a
- CFG:epsilonの場合は4〜8、vpredの場合は3〜5
- ステップ数:20〜28
- LCM/PCM/DMDは未テスト、cfg++サンプラーは正常に動作しますが、一部のスケジューラーは動作しません。
- 高解像度修正:x1.5の潜在空間 + デノイズ0.6、または任意のGAN + デノイズ0.3〜0.55
vpredバージョンでは、CFG値を低く設定する必要があります。
使用例はリポジトリ内およびcivitaiで確認できます。
品質タグ
品質タグは以下の4つのみです。
- ポジティブタグ:
masterpiece, best quality
- ネガティブタグ:
low quality, worst quality
他のタグは不要です。ネガティブタグのうちlow quality
以外は省略可能です。低解像度などのメタタグは削除されているため、使用しないでください。低解像度の画像は、重要度に応じて削除されるか、DATで拡大およびクリーニングされています。
ネガティブプロンプト
worst quality, low quality, watermark
最良の結果を得るためには、できるだけクリーンな状態に保ってください。人気のあるシーケンスを大量に入力しても、関連する欠陥は解消されているため結果が改善されることはなく、望ましくない影響、バイアス、低品質につながる可能性があります。
アーティストスタイル
このモデルは35,000以上のアーティストスタイルに対応しています。リスト、Mega上のサンプルグリッド。by
を付けて使用してください。付けないと正常に動作しません。
一般的なスタイル
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style
自然言語プロンプト
ブールタグと組み合わせて使用すると、良好な結果が得られます。スタイルや品質タグを入力した後に自然言語を使用してください。ブールタグのみを使用することもできます。データセットの約400万枚の画像には、Claude、GPT、Gemini、およびToriiGateによって作成されたハイブリッド自然言語キャプションが付けられています。
バージョン0.8では、自然言語プロンプトの理解能力が向上しており、SDXLアニメモデルの中で最先端のパフォーマンスを発揮します。ただし、自然言語プロンプトを使用する必要はなく、タグのみでも十分に機能します。特に、タグの組み合わせの理解能力も向上しています。
明るさ/色/コントラスト
以下のメタタグを使用して、明るさ、色、コントラストを制御することができます。
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr
Vpredバージョン
RouWei-0.8のVpredバージョンは近日公開予定です。
ベースモデルとFloatバージョン
より正確なマージを行うために、またはComfyでテキストエンコーダーをfp32モードで使用することで得られるメリットを享受するために、FP32バージョンを使用することができます。
ここでのepsilonとvpredバージョンは、メイントレーニング後に細部と整合性を改善するための簡単な美学的な磨きが施されています。RouWeiをマージ、抽出、またはファインチューニングする際に、最後のこれらの要素を持ち込まない場合は、RouWeiのベースバージョンを使用することができます。
Discordサーバー
参加する
安全性
このモデルは、対応するプロンプトに対してNSFW画像を生成する傾向があります。追加のフィルタリングを行うことを検討してください。出力は不正確または挑発的なものになる可能性があり、参考として使用しないでください。
📄 ライセンス
illustriousと同じライセンスです。制限事項については、元のページを確認してください。マージ、ファインチューニングなどで自由に使用できますが、リンクを残してください。
謝辞
多くの匿名の方、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、rred、Soviet Cat、Sv1.、T.、TekeshiXなど、助けてくれた皆さんに感謝します。
寄付
- BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
- ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
- XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
属性 |
详情 |
モデルタイプ |
テキストから画像生成モデル |
トレーニングデータ |
1300万枚のユニークな画像(約400万枚は自然なテキストキャプション付き)を2億5000万枚以上のアニメアート、表紙、デジタルイラスト、西洋メディアなどのソースから選択しバランスを取ったもの |
⚠️ 重要提示
アーティストスタイルを指定する際、特に複数のスタイルを組み合わせる場合は、それらのタグを別のCLIPチャンクに入れる必要があります。そうしないと、結果が大幅に劣化する可能性があります。
💡 使用建议
タグと自然言語のフレーズを組み合わせることで、最良の結果を得ることができます。また、vpredバージョンでは、CFG値を低く設定する必要があります。