モデル概要
モデル特徴
モデル能力
使用事例
🚀 Animagine XL 4.0
Animagine XL 4.0 は、究極のアニメテーマの微調整済みSDXLモデルであり、Animagine XL シリーズ の最新バージョンです。このモデルは、テキストプロンプトに基づいてアニメスタイルの画像を生成および修正することができ、アニメ画像作成に強力なサポートを提供します。
🚀 クイックスタート
このモデルは、以下の方法で使用できます。
- 私たちの
Hugging Face Spaces
でこのモデルを使用する。 ComfyUI
またはStable Diffusion Webui
で使用する。- 🧨
diffusers
ライブラリを使用してモデルを呼び出す。
✨ 主な機能
- 強力な画像生成能力:大規模なアニメスタイルの画像データセットで訓練されており、高品質で多様なアニメテーマの画像を生成できます。
- 継続的な最適化:追加のデータセットを使用してモデルをさらに最適化し、安定性、解剖学的正確性、ノイズ除去能力、色彩鮮やかさ、および全体的な色彩正確性を向上させました。
- 特殊タグのサポート:さまざまな特殊タグをサポートしており、画像生成プロセスのさまざまな側面(品質、スタイル、時間など)を制御するために使用できます。
📦 インストール
1. 必要なライブラリのインストール
pip install diffusers transformers accelerate safetensors --upgrade
2. サンプルコード
以下の例では、lpw_stable_diffusion_xl
パイプラインを使用しています。これは、長い、重み付けされた、詳細なプロンプトをより適切に処理できます。モデルはFP16形式でアップロードされているため、from_pretrained
呼び出しで variant="fp16"
を指定する必要はありません。
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=5,
num_inference_steps=28
).images[0]
image.save("./arima_kana.png")
💻 使用例
基本的な使用法
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=5,
num_inference_steps=28
).images[0]
image.save("./arima_kana.png")
高度な使用法
高度なシナリオでは、必要に応じて、さまざまなプロンプト、ネガティブプロンプト、画像サイズ、ガイダンススケール、推論ステップ数などのパラメータを調整して、さまざまなスタイルや品質の画像を取得できます。例えば:
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
# カスタムプロンプトとネガティブプロンプト
prompt = "1boy, male focus, green hair, sweater, looking at viewer, upper body, beanie, outdoors, night, turtleneck, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"
# 画像サイズ、ガイダンススケール、推論ステップ数を調整
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=6,
num_inference_steps=30
).images[0]
image.save("./custom_image.png")
📚 ドキュメント
使用ガイド
プロンプトガイドの要約は、画像で確認できます。
1. プロンプト構造
このモデルは、タグベースのタイトルとタグの並べ替え方法を使用して訓練されています。以下の構造化テンプレートを使用してください。
1girl/1boy/1other, キャラクター名, シリーズ名, 評価, 任意の順序のその他の内容で、品質強化タグで終了
2. 品質強化タグ
プロンプトの末尾に以下のタグを追加してください。
masterpiece, high score, great score, absurdres
3. 推奨ネガティブプロンプト
lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
4. 最適な設定
- CFGスケール:4 - 7(推奨 5)
- サンプリングステップ数:25 - 28(推奨 28)
- 推奨サンプラー:Euler Ancestral(Euler a)
5. 推奨解像度
方向 | サイズ | アスペクト比 |
---|---|---|
正方形 | 1024 x 1024 | 1:1 |
横向 | 1152 x 896 | 9:7 |
1216 x 832 | 3:2 | |
1344 x 768 | 7:4 | |
1536 x 640 | 12:5 | |
縦向き | 896 x 1152 | 7:9 |
832 x 1216 | 2:3 | |
768 x 1344 | 4:7 | |
640 x 1536 | 5:12 |
6. 最終的なプロンプト構造の例
1girl, firefly \(honkai: star rail\), honkai \(series\), honkai: star rail, safe, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night, masterpiece, high score, great score, absurdres
特殊タグ
このモデルは、画像生成プロセスのさまざまな側面を制御するために使用できるさまざまな特殊タグをサポートしています。これらのタグは、さまざまなプロンプトで一貫した結果を得るために、慎重に重み付けされ、テストされています。
品質タグ
品質タグは、全体的な画像品質と詳細レベルに直接影響する基本的な制御項目です。利用可能な品質タグは次のとおりです。
masterpiece
best quality
low quality
worst quality
![]() |
![]() |
---|---|
"masterpiece, best quality" 品質タグを使用し、ネガティブプロンプトが空の例画像。 |
"low quality, worst quality" 品質タグを使用し、ネガティブプロンプトが空の例画像。 |
スコアタグ
基本的な品質タグと比較して、スコアタグは画像品質をより細かく制御できます。これらは、このモデルの出力品質を誘導する影響力が強いです。利用可能なスコアタグは次のとおりです。
high score
great score
good score
average score
bad score
low score
![]() |
![]() |
---|---|
"high score, great score" スコアタグを使用し、ネガティブプロンプトが空の例画像。 |
"bad score, low score" スコアタグを使用し、ネガティブプロンプトが空の例画像。 |
時間タグ
時間タグを使用すると、特定の期間または年に基づいてアートスタイルに影響を与えることができます。これは、特定の時代のアート特徴を持つ画像を生成するのに役立ちます。サポートされている年タグは次のとおりです。
year 2005
year {n}
year 2025
![]() |
![]() |
---|---|
"year 2007" 時間タグ付きの初音ミクの例画像。 |
"year 2023" 時間タグ付きの初音ミクの例画像。 |
評価タグ
評価タグは、生成される画像のコンテンツの安全性レベルを制御するのに役立ちます。これらのタグは、責任を持って使用し、適用される法律およびプラットフォームのポリシーに準拠する必要があります。サポートされている評価は次のとおりです。
safe
sensitive
nsfw
explicit
🔧 技術詳細
このモデルは、最先端のハードウェアと最適化されたハイパーパラメータを使用して訓練され、最高品質の出力を確保しています。以下は、訓練プロセスで使用された詳細な技術仕様とパラメータです。
パラメータ | 値 |
---|---|
ハードウェア | 7 x H100 80GB SXM5 |
画像数 | 8,401,464 |
UNet学習率 | 2.5e-6 |
テキストエンコーダ学習率 | 1.25e-6 |
スケジューラ | Constant With Warmup |
ウォームアップステップ数 | 5% |
バッチサイズ | 32 |
勾配累積ステップ数 | 2 |
訓練解像度 | 1024x1024 |
オプティマイザ | Adafactor |
入力摂動ノイズ | 0.1 |
バイアス除去推定損失 | 有効 |
混合精度 | fp16 |
📄 ライセンス
このモデルは、Stability AI のオリジナルの CreativeML Open RAIL++-M ライセンス を使用しており、何らの変更や追加の制限も加えられていません。ライセンス条項は、オリジナルのSDXLライセンスで規定されているものと完全に一致し、以下の内容が含まれます。
- ✅ 許可:商用利用、修正、配布、個人利用
- ❌ 禁止:違法活動、有害なコンテンツの生成、差別、搾取
- ⚠️ 要求:ライセンスのコピーを含める、変更を説明する、声明を保持する
- 📝 保証:「現状のまま」提供され、保証は一切ありません。
完全かつ正式な条項と条件については、オリジナルのSDXLライセンス を参照してください。
謝辞
この長期プロジェクトは、Stability AI、Novel AI、および Waifu Diffusion Team の先駆的な仕事、革新的な貢献、および包括的なドキュメントがなければ実現できませんでした。特に、Main が提供した起動資金に感謝し、これによりV2バージョン以降もプロジェクトを推進することができました。このバージョンについては、コミュニティの皆様の継続的なサポートに心から感謝します。特に:
- Moescape AI:モデルの配布とテストにおける貴重なパートナーです。
- Lesser Rabbit:重要な計算と研究資金を提供してくれました。
- Kohya SS:包括的なオープンソースの訓練フレームワークを開発しました。
- discus0434:業界をリードするオープンソースの美学予測器2.5を作成しました。
- 早期テスター:重要なフィードバックと包括的な品質保証を提供するために尽力してくれました。
貢献者
このプロジェクトに大きく貢献したチームメンバーに心から感謝します。これには、以下のメンバーが含まれますが、これに限定されません。
モデル
Gradio
関係、財務、および品質保証
データ
新しい資金調達方法!
私たちは、訓練、研究、およびモデル開発をサポートするために、GitHub Sponsors を通じて新しい資金調達方法を導入することを嬉しく思います。あなたの支援により、私たちは人工知能の限界を突破することができます。
あなたが私たちを支援する方法は次のとおりです。
- 寄付:ETH、USDT、または USDC を以下のアドレスに寄付するか、GitHub でスポンサー登録してください。
- 共有:私たちのモデルを宣伝し、あなたの作品を共有してください!
- フィードバック:改善方法を教えてください。
寄付アドレス:
ETH/USDT/USDC(e): 0xd8A1dA94BA7E6feCe8CfEacc1327f498fCcBFC0C
GitHub スポンサー:https://github.com/sponsors/cagliostrolab/
なぜ暗号通貨を使用するのですか?
当初、Ko-fi を通じて資金調達を開始し、PayPal を引き出し方法として使用したところ、私たちの PayPal アカウントがマークされ、最終的に凍結されました。私たちはプロジェクトの目的を説明するために努力しましたが、残念ながら、すべての寄付金を返金する必要があり、信頼できる支援受け取り方法がなくなりました。このような問題を回避し、透明性を確保するために、現在は暗号通貨を使用した資金調達に移行しています。暗号通貨以外の方法で寄付したいですか?
PayPal を使用する際に不愉快な経験がありましたが、暗号通貨を使用せずに支援したい場合は、[Discordサーバー](https://discord.gg/cqh9tZgbGc) を通じていつでもお問い合わせいただき、他の寄付方法をお知らせします。Discordサーバーに参加しましょう
私たちのDiscordサーバーにご参加ください。
制限事項
- プロンプト形式:タグベースのテキストプロンプトに限定されています。自然言語入力はうまく機能しない場合があります。
- 解剖学的表現:複雑な解剖学的詳細、特に手のポーズや指の数を処理するのが難しい場合があります。
- テキスト生成:現在、画像内にテキストをレンダリングすることはサポートされておらず、試すことはお勧めしません。
- 新しいキャラクター:訓練データが限られているため、最近のキャラクターの生成精度が低い場合があります。
- 複数キャラクターシーン:複数のキャラクターを含むシーンでは、プロンプトを慎重に設計する必要があります。
- 解像度:訓練にはオリジナルのSDXL解像度が使用されているため、高解像度(例:1536x1536)では品質が低下する場合があります。
- スタイルの一貫性:訓練はアイデンティティの保持に重点が置かれているため、特定のスタイルタグが必要な場合があります。

