Animagine XL 4.0オープンソース画像生成モデル - 膨大なアニメ画像で訓練され、安定して高品質のアニメ画像を出力

ホーム

Animagine Xl 4.0

cagliostrolabによって開発

Animagine XL 4.0はStable Diffusion XL 1.0を微調整した究極のアニメテーマのテキストから画像を生成するモデルで、840万枚のアニメスタイルの画像で学習され、出力の安定性と画像品質が大幅に向上しています。

画像生成英語#アニメスタイル生成 #高解像度最適化 #タグソート制御

ダウンロード数 70.33k

リリース時間 : 1/10/2025

モデル概要

高品質のアニメテーマの画像生成を目的として設計されたテキスト駆動型の拡散モデルで、キャラクターの特徴、アートスタイル、画像品質を細かく制御できます。

モデル特徴

画像品質の最適化

新しいデータセットを用いた最適化により、出力の安定性、人体構造の正確性、色彩表現を大幅に向上させます。

タグソート学習法

特殊なプロンプト構造を用いた学習により、タグを使ってキャラクターの特徴とアートスタイルを正確に制御できます。

多解像度対応

正方形(1024x1024)から超広角(1536x640)までの9種類のプリセット解像度を提供します。

時代スタイル制御

年のタグ(例: 2005年/2023年)を使って、異なる年代のアニメアートスタイルを生成できます。

モデル能力

アニメキャラクター生成

スタイル化された画像合成

多タグ条件制御

高解像度出力(最大1536px)

使用事例

アニメ創作

キャラクターデザイン

オリジナルのアニメキャラクターのコンセプト図を生成します。

髪の色、服装、表情などの特徴を正確に制御できます。

二次創作作品

既存のアニメキャラクターを元に派生画像を生成します。

異なる作品のスタイルを融合させることができます(例: 初音ミク2023年スタイル)

コンテンツ制作

イラスト創作

商業レベルのアニメイラストを迅速に生成します。

様々な構図比率とアートスタイルに対応しています。

ビジュアルコンセプト開発

ゲーム/アニメプロジェクトのコンセプトアートを生成します。

統一されたスタイルのキャラクター/シーンデザインを大量に生成できます。

🚀 Animagine XL 4.0

Animagine XL 4.0 は、究極のアニメテーマの微調整済みSDXLモデルであり、Animagine XL シリーズの最新バージョンです。このモデルは、テキストプロンプトに基づいてアニメスタイルの画像を生成および修正することができ、アニメ画像作成に強力なサポートを提供します。

image/png

🚀 クイックスタート

このモデルは、以下の方法で使用できます。

私たちの Hugging Face Spaces でこのモデルを使用する。
ComfyUI または Stable Diffusion Webui で使用する。
🧨 diffusers ライブラリを使用してモデルを呼び出す。

✨ 主な機能

強力な画像生成能力：大規模なアニメスタイルの画像データセットで訓練されており、高品質で多様なアニメテーマの画像を生成できます。
継続的な最適化：追加のデータセットを使用してモデルをさらに最適化し、安定性、解剖学的正確性、ノイズ除去能力、色彩鮮やかさ、および全体的な色彩正確性を向上させました。
特殊タグのサポート：さまざまな特殊タグをサポートしており、画像生成プロセスのさまざまな側面（品質、スタイル、時間など）を制御するために使用できます。

📦 インストール

1. 必要なライブラリのインストール

pip install diffusers transformers accelerate safetensors --upgrade

2. サンプルコード

以下の例では、lpw_stable_diffusion_xl パイプラインを使用しています。これは、長い、重み付けされた、詳細なプロンプトをより適切に処理できます。モデルはFP16形式でアップロードされているため、from_pretrained 呼び出しで variant="fp16" を指定する必要はありません。

import torch
from diffusers import StableDiffusionXLPipeline

pipe = StableDiffusionXLPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-4.0",
    torch_dtype=torch.float16,
    use_safetensors=True,
    custom_pipeline="lpw_stable_diffusion_xl",
    add_watermarker=False
)
pipe.to('cuda')

prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"

image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=832,
    height=1216,
    guidance_scale=5,
    num_inference_steps=28
).images[0]

image.save("./arima_kana.png")

💻 使用例

基本的な使用法

import torch
from diffusers import StableDiffusionXLPipeline

pipe = StableDiffusionXLPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-4.0",
    torch_dtype=torch.float16,
    use_safetensors=True,
    custom_pipeline="lpw_stable_diffusion_xl",
    add_watermarker=False
)
pipe.to('cuda')

prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"

image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=832,
    height=1216,
    guidance_scale=5,
    num_inference_steps=28
).images[0]

image.save("./arima_kana.png")

高度な使用法

高度なシナリオでは、必要に応じて、さまざまなプロンプト、ネガティブプロンプト、画像サイズ、ガイダンススケール、推論ステップ数などのパラメータを調整して、さまざまなスタイルや品質の画像を取得できます。例えば：

import torch
from diffusers import StableDiffusionXLPipeline

pipe = StableDiffusionXLPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-4.0",
    torch_dtype=torch.float16,
    use_safetensors=True,
    custom_pipeline="lpw_stable_diffusion_xl",
    add_watermarker=False
)
pipe.to('cuda')

# カスタムプロンプトとネガティブプロンプト
prompt = "1boy, male focus, green hair, sweater, looking at viewer, upper body, beanie, outdoors, night, turtleneck, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"

# 画像サイズ、ガイダンススケール、推論ステップ数を調整
image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=1024,
    height=1024,
    guidance_scale=6,
    num_inference_steps=30
).images[0]

image.save("./custom_image.png")

📚 ドキュメント

使用ガイド

プロンプトガイドの要約は、画像で確認できます。 image/png

1. プロンプト構造

このモデルは、タグベースのタイトルとタグの並べ替え方法を使用して訓練されています。以下の構造化テンプレートを使用してください。

1girl/1boy/1other, キャラクター名, シリーズ名, 評価, 任意の順序のその他の内容で、品質強化タグで終了

2. 品質強化タグ

プロンプトの末尾に以下のタグを追加してください。

masterpiece, high score, great score, absurdres

3. 推奨ネガティブプロンプト

lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry

4. 最適な設定

CFGスケール：4 - 7（推奨 5）
サンプリングステップ数：25 - 28（推奨 28）
推奨サンプラー：Euler Ancestral（Euler a）

5. 推奨解像度

方向	サイズ	アスペクト比
正方形	1024 x 1024	1:1
横向	1152 x 896	9:7
	1216 x 832	3:2
	1344 x 768	7:4
	1536 x 640	12:5
縦向き	896 x 1152	7:9
	832 x 1216	2:3
	768 x 1344	4:7
	640 x 1536	5:12

6. 最終的なプロンプト構造の例

1girl, firefly \(honkai: star rail\), honkai \(series\), honkai: star rail, safe, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night, masterpiece, high score, great score, absurdres

特殊タグ

このモデルは、画像生成プロセスのさまざまな側面を制御するために使用できるさまざまな特殊タグをサポートしています。これらのタグは、さまざまなプロンプトで一貫した結果を得るために、慎重に重み付けされ、テストされています。

品質タグ

品質タグは、全体的な画像品質と詳細レベルに直接影響する基本的な制御項目です。利用可能な品質タグは次のとおりです。

masterpiece
best quality
low quality
worst quality


`"masterpiece, best quality"` 品質タグを使用し、ネガティブプロンプトが空の例画像。	`"low quality, worst quality"` 品質タグを使用し、ネガティブプロンプトが空の例画像。

スコアタグ

基本的な品質タグと比較して、スコアタグは画像品質をより細かく制御できます。これらは、このモデルの出力品質を誘導する影響力が強いです。利用可能なスコアタグは次のとおりです。

high score
great score
good score
average score
bad score
low score


`"high score, great score"` スコアタグを使用し、ネガティブプロンプトが空の例画像。	`"bad score, low score"` スコアタグを使用し、ネガティブプロンプトが空の例画像。

時間タグ

時間タグを使用すると、特定の期間または年に基づいてアートスタイルに影響を与えることができます。これは、特定の時代のアート特徴を持つ画像を生成するのに役立ちます。サポートされている年タグは次のとおりです。

year 2005
year {n}
year 2025


`"year 2007"` 時間タグ付きの初音ミクの例画像。	`"year 2023"` 時間タグ付きの初音ミクの例画像。

評価タグ

評価タグは、生成される画像のコンテンツの安全性レベルを制御するのに役立ちます。これらのタグは、責任を持って使用し、適用される法律およびプラットフォームのポリシーに準拠する必要があります。サポートされている評価は次のとおりです。

safe
sensitive
nsfw
explicit

🔧 技術詳細

このモデルは、最先端のハードウェアと最適化されたハイパーパラメータを使用して訓練され、最高品質の出力を確保しています。以下は、訓練プロセスで使用された詳細な技術仕様とパラメータです。

パラメータ	値
ハードウェア	7 x H100 80GB SXM5
画像数	8,401,464
UNet学習率	2.5e-6
テキストエンコーダ学習率	1.25e-6
スケジューラ	Constant With Warmup
ウォームアップステップ数	5%
バッチサイズ	32
勾配累積ステップ数	2
訓練解像度	1024x1024
オプティマイザ	Adafactor
入力摂動ノイズ	0.1
バイアス除去推定損失	有効
混合精度	fp16

📄 ライセンス

このモデルは、Stability AI のオリジナルの CreativeML Open RAIL++-M ライセンスを使用しており、何らの変更や追加の制限も加えられていません。ライセンス条項は、オリジナルのSDXLライセンスで規定されているものと完全に一致し、以下の内容が含まれます。

✅ 許可：商用利用、修正、配布、個人利用
❌ 禁止：違法活動、有害なコンテンツの生成、差別、搾取
⚠️ 要求：ライセンスのコピーを含める、変更を説明する、声明を保持する
📝 保証：「現状のまま」提供され、保証は一切ありません。

完全かつ正式な条項と条件については、オリジナルのSDXLライセンスを参照してください。

謝辞

この長期プロジェクトは、Stability AI、Novel AI、および Waifu Diffusion Team の先駆的な仕事、革新的な貢献、および包括的なドキュメントがなければ実現できませんでした。特に、Main が提供した起動資金に感謝し、これによりV2バージョン以降もプロジェクトを推進することができました。このバージョンについては、コミュニティの皆様の継続的なサポートに心から感謝します。特に：

Moescape AI：モデルの配布とテストにおける貴重なパートナーです。
Lesser Rabbit：重要な計算と研究資金を提供してくれました。
Kohya SS：包括的なオープンソースの訓練フレームワークを開発しました。
discus0434：業界をリードするオープンソースの美学予測器2.5を作成しました。
早期テスター：重要なフィードバックと包括的な品質保証を提供するために尽力してくれました。

貢献者

このプロジェクトに大きく貢献したチームメンバーに心から感謝します。これには、以下のメンバーが含まれますが、これに限定されません。

モデル

Gradio

Damar Jati

関係、財務、および品質保証

データ

新しい資金調達方法！

私たちは、訓練、研究、およびモデル開発をサポートするために、GitHub Sponsors を通じて新しい資金調達方法を導入することを嬉しく思います。あなたの支援により、私たちは人工知能の限界を突破することができます。

あなたが私たちを支援する方法は次のとおりです。

寄付：ETH、USDT、または USDC を以下のアドレスに寄付するか、GitHub でスポンサー登録してください。
共有：私たちのモデルを宣伝し、あなたの作品を共有してください！
フィードバック：改善方法を教えてください。

寄付アドレス： ETH/USDT/USDC(e): 0xd8A1dA94BA7E6feCe8CfEacc1327f498fCcBFC0C

GitHub スポンサー：https://github.com/sponsors/cagliostrolab/

なぜ暗号通貨を使用するのですか？

当初、Ko-fi を通じて資金調達を開始し、PayPal を引き出し方法として使用したところ、私たちの PayPal アカウントがマークされ、最終的に凍結されました。私たちはプロジェクトの目的を説明するために努力しましたが、残念ながら、すべての寄付金を返金する必要があり、信頼できる支援受け取り方法がなくなりました。このような問題を回避し、透明性を確保するために、現在は暗号通貨を使用した資金調達に移行しています。

暗号通貨以外の方法で寄付したいですか？

PayPal を使用する際に不愉快な経験がありましたが、暗号通貨を使用せずに支援したい場合は、[Discordサーバー](https://discord.gg/cqh9tZgbGc) を通じていつでもお問い合わせいただき、他の寄付方法をお知らせします。