RouWei-0.8オープンソースSDXLアニメモデル - プロンプトの準拠度を向上させ、無料で卓越したパフォーマンスを楽しめ！

Rouwei 0.8

Minthyによって開発

RouWei-0.8はIllustriousを深層再学習したSDXLアニメモデルで、プロンプト遵守性、知識の広さ、パフォーマンスの向上に重点を置いています。

ダウンロード数 183

リリース時間 : 5/25/2025

モデル概要

このモデルは2500万枚以上のアニメアート、カバー、デジタルイラストなどから厳選された1300万枚のユニークな画像で訓練されており、幅広いキャラクター、コンセプト、スタイル、文化的知識を備え、タグの漏れやバイアスなどの一般的な問題を解決しています。

モデル特徴

広範なスタイル知識

アニメ、デジタルペインティングなど多様なアート形式を含む35,000以上のアーティストスタイルを理解しています。

優れたプロンプト遵守性

SDXLアニメモデルの中で最高のプロンプト遵守性を持ち、複雑なプロンプトを正確に理解し実行できます。

高品質データセット

厳選された1300万枚のユニークな画像で訓練されており、ウォーターマークや低品質画像の問題を解決しています。

柔軟で多様な出力

短いタグから長い自然なテキストまで様々なプロンプト方式をサポートし、スタイルが多様で安定した出力が可能です。

鮮やかな色彩表現

焼け跡のない鮮やかな色彩と滑らかなグラデーションの画像を生成できます。

モデル能力

アニメスタイル画像生成

アーティストスタイルの模倣

自然なテキストプロンプト理解

複数のアートスタイル変換

高品質画像レンダリング

使用事例

アニメ制作

キャラクターデザイン

テキスト記述に基づいてアニメキャラクターのイメージを生成

高品質なキャラクターデザイン画像

シーン制作

アニメスタイルの背景やシーンを生成

スタイルが統一されたシーン画像

アート制作

アーティストスタイルの模倣

特定のアーティストの絵画スタイルを模倣

特定のアーティストスタイルを持つ作品

イラスト生成

書籍、雑誌などのためのイラストを生成

プロ品質のイラスト作品

🚀 RouWei-0.8

このモデルは、Illustriousを深度再学習し、最高のプロンプト忠実度、知識、そして最先端のパフォーマンスを実現しました。1300万枚のユニークな画像（約400万枚は自然なテキストキャプション付き）を2億5000万枚以上のアニメアート、表紙、デジタルイラスト、西洋メディアなどのソースから選択しバランスを取り、トレーニングに使用しています。Civitaiで詳細を確認

![image](https://huggingface.co/Minthy/RouWei-0.8/resolve/main/splash_epsilon.jpg)

🚀 クイックスタート

このモデルは、テキストから画像を生成するためのモデルです。以下のセクションで、その機能や使い方について詳しく説明します。

✨ 主な機能

最新かつ豊富な知識：キャラクター、概念、スタイル、文化などに関する最新かつ豊富な知識を持っています。
高いプロンプト忠実度：リリース時点で、SDXLアニメモデルの中で最も高いプロンプト忠実度を誇ります。
タグの漏洩やバイアスの解消：IllustriousやNoobAiなどのチェックポイントで一般的なタグの漏洩やバイアスの問題を解決しています。
幅広いスタイルに対応：5万以上のアーティストのスタイルに対応しており、様々なスタイルで高い美学性と知識を発揮します。
高い柔軟性と多様性：安定性を犠牲にすることなく、高い柔軟性と多様性を実現しています。
煩わしい透かしの解消：クリーンなデータセットを使用しているため、人気スタイルに煩わしい透かしが表示されなくなりました。
鮮やかな色と滑らかなグラデーション：焼けたような跡がなく、鮮やかな色と滑らかなグラデーションを実現しています。
純粋なトレーニング：Illustrious v0.1から純粋にトレーニングされており、サードパーティのチェックポイント、Loras、チューナーなどを使用していません。

データセットの締め切りは2025年4月末です。

📚 ドキュメント

重要な変更点

アーティストスタイルを指定する際、特に複数のスタイルを組み合わせる場合は、それらのタグを別のCLIPチャンクに入れる必要があります。その後にBREAKを追加（A1111およびその派生版の場合）、コンディショニング結合ノードを使用（Comfyの場合）、または少なくとも最後に配置してください。そうしないと、結果が大幅に劣化する可能性があります。

このモデルは、短いブールタグベースのプロンプトと長い複雑な自然言語のプロンプトの両方で動作するように設計されています。タグと自然言語のフレーズを組み合わせることで、最良の結果を得ることができます。タグには、アンダースコアのないクラシックなダンブールスタイルのカンマ区切りタグが使用されています。

基本設定

txt2imgの場合、約100万〜150万画素、解像度が64の倍数の任意のアスペクト比（1024x1024、1152x、1216x832など）
サンプラー：Euler_a
CFG：epsilonの場合は4〜8、vpredの場合は3〜5
ステップ数：20〜28
LCM/PCM/DMDは未テスト、cfg++サンプラーは正常に動作しますが、一部のスケジューラーは動作しません。
高解像度修正：x1.5の潜在空間 + デノイズ0.6、または任意のGAN + デノイズ0.3〜0.55

vpredバージョンでは、CFG値を低く設定する必要があります。

使用例はリポジトリ内およびcivitaiで確認できます。

品質タグ

品質タグは以下の4つのみです。

ポジティブタグ：masterpiece, best quality
ネガティブタグ：low quality, worst quality

他のタグは不要です。ネガティブタグのうちlow quality以外は省略可能です。低解像度などのメタタグは削除されているため、使用しないでください。低解像度の画像は、重要度に応じて削除されるか、DATで拡大およびクリーニングされています。

ネガティブプロンプト

worst quality, low quality, watermark

最良の結果を得るためには、できるだけクリーンな状態に保ってください。人気のあるシーケンスを大量に入力しても、関連する欠陥は解消されているため結果が改善されることはなく、望ましくない影響、バイアス、低品質につながる可能性があります。

アーティストスタイル

このモデルは35,000以上のアーティストスタイルに対応しています。リスト、Mega上のサンプルグリッド。by を付けて使用してください。付けないと正常に動作しません。

一般的なスタイル

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

自然言語プロンプト

ブールタグと組み合わせて使用すると、良好な結果が得られます。スタイルや品質タグを入力した後に自然言語を使用してください。ブールタグのみを使用することもできます。データセットの約400万枚の画像には、Claude、GPT、Gemini、およびToriiGateによって作成されたハイブリッド自然言語キャプションが付けられています。

バージョン0.8では、自然言語プロンプトの理解能力が向上しており、SDXLアニメモデルの中で最先端のパフォーマンスを発揮します。ただし、自然言語プロンプトを使用する必要はなく、タグのみでも十分に機能します。特に、タグの組み合わせの理解能力も向上しています。

明るさ/色/コントラスト

以下のメタタグを使用して、明るさ、色、コントラストを制御することができます。 low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr

Vpredバージョン

RouWei-0.8のVpredバージョンは近日公開予定です。

ベースモデルとFloatバージョン

より正確なマージを行うために、またはComfyでテキストエンコーダーをfp32モードで使用することで得られるメリットを享受するために、FP32バージョンを使用することができます。

ここでのepsilonとvpredバージョンは、メイントレーニング後に細部と整合性を改善するための簡単な美学的な磨きが施されています。RouWeiをマージ、抽出、またはファインチューニングする際に、最後のこれらの要素を持ち込まない場合は、RouWeiのベースバージョンを使用することができます。

FP16
FP32

Discordサーバー

参加する

安全性

このモデルは、対応するプロンプトに対してNSFW画像を生成する傾向があります。追加のフィルタリングを行うことを検討してください。出力は不正確または挑発的なものになる可能性があり、参考として使用しないでください。

📄 ライセンス

illustriousと同じライセンスです。制限事項については、元のページを確認してください。マージ、ファインチューニングなどで自由に使用できますが、リンクを残してください。

謝辞

多くの匿名の方、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、rred、Soviet Cat、Sv1.、T.、TekeshiXなど、助けてくれた皆さんに感謝します。

寄付

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

属性	详情
モデルタイプ	テキストから画像生成モデル
トレーニングデータ	1300万枚のユニークな画像（約400万枚は自然なテキストキャプション付き）を2億5000万枚以上のアニメアート、表紙、デジタルイラスト、西洋メディアなどのソースから選択しバランスを取ったもの