模型概述
模型特點
模型能力
使用案例
🚀 Animagine XL 3.1
Animagine XL 3.1 是 Animagine XL V3 系列的一次更新,對前作 Animagine XL 3.0 進行了全面升級。作為一款開源的動漫主題文本到圖像生成模型,它在生成動漫風格圖像方面表現卓越,質量大幅提升。該模型涵蓋了更多知名動漫系列中的角色,擁有優化後的數據集和全新的美學標籤,能夠幫助用戶更出色地創作圖像。基於 Stable Diffusion XL 構建,Animagine XL 3.1 致力於為動漫愛好者、藝術家和內容創作者提供精準且細緻的動漫角色呈現,是一款極具價值的工具。
🚀 快速開始
你可以通過以下兩種方式體驗 Animagine XL 3.1 的演示:
✨ 主要特性
- 角色豐富:包含更多來自知名動漫系列的角色,為圖像創作提供更廣泛的選擇。
- 數據集優化:經過優化的數據集,有助於生成更高質量的動漫圖像。
- 美學標籤升級:全新的美學標籤,讓圖像創作更加出色。
- 性能提升:增強了手部解剖結構的表現,提高了概念理解和提示解釋能力。
📦 安裝指南
首先,安裝所需的庫:
pip install diffusers transformers accelerate safetensors --upgrade
然後,使用以下示例代碼運行圖像生成:
import torch
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained(
"cagliostrolab/animagine-xl-3.1",
torch_dtype=torch.float16,
use_safetensors=True,
)
pipe.to('cuda')
prompt = "1girl, souryuu asuka langley, neon genesis evangelion, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=7,
num_inference_steps=28
).images[0]
image.save("./output/asuka_test.png")
💻 使用示例
基礎用法
為了獲得最佳效果,建議遵循以下結構化提示模板:
1girl/1boy, 角色名稱, 出自哪個系列, 其他內容可任意排序。
高級用法
特殊標籤的使用
Animagine XL 3.1 利用特殊標籤來引導生成結果,包括質量、評級、創作日期和美學等方面。即使不使用這些標籤,模型也能生成圖像,但使用它們可以獲得更好的效果。
質量修飾符
質量標籤綜合考慮了分數和後期評級,以確保質量分佈的平衡。我們對標籤進行了優化,使其更加清晰,例如將 'high quality' 改為 'great quality'。
屬性 | 詳情 |
---|---|
質量修飾符 | 分數標準 |
masterpiece |
> 95% |
best quality |
> 85% 且 ≤ 95% |
great quality |
> 75% 且 ≤ 85% |
good quality |
> 50% 且 ≤ 75% |
normal quality |
> 25% 且 ≤ 50% |
low quality |
> 10% 且 ≤ 25% |
worst quality |
≤ 10% |
評級修飾符
我們簡化了評級標籤,使其更加簡潔明瞭,旨在建立適用於不同模型的全球規則。例如,'rating: general' 現在簡化為 'general','rating: sensitive' 簡化為 'sensitive'。
屬性 | 詳情 |
---|---|
評級修飾符 | 評級標準 |
safe |
通用 |
sensitive |
敏感 |
nsfw |
有問題 |
explicit, nsfw |
明確 |
年份修飾符
我們重新定義了年份範圍,以便更準確地引導結果向特定的現代或復古動漫藝術風格靠攏。這次更新簡化了範圍,更注重與當前和過去時代的相關性。
屬性 | 詳情 |
---|---|
年份標籤 | 年份範圍 |
newest |
2021 年至 2024 年 |
recent |
2018 年至 2020 年 |
mid |
2015 年至 2017 年 |
early |
2011 年至 2014 年 |
oldest |
2005 年至 2010 年 |
美學標籤
我們通過美學標籤增強了標籤系統,根據視覺吸引力對內容進行更精細的分類。這些標籤來自專門為動漫數據訓練的 ViT(視覺變換器)圖像分類模型的評估結果。為此,我們使用了模型 shadowlilac/aesthetic-shadow-v2,該模型在訓練前評估內容的美學價值,確保每一個生成的內容不僅相關準確,而且在視覺上具有吸引力。
屬性 | 詳情 |
---|---|
美學標籤 | 分數範圍 |
very aesthetic |
> 0.71 |
aesthetic |
> 0.45 且 < 0.71 |
displeasing |
> 0.27 且 < 0.45 |
very displeasing |
≤ 0.27 |
推薦設置
為了引導模型生成高美學價值的圖像,可以使用以下負提示:
nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]
為了獲得更高質量的結果,可以在提示前加上:
masterpiece, best quality, very aesthetic, absurdres
建議使用較低的無分類器引導(CFG Scale),大約在 5 - 7 之間,採樣步數少於 30,並使用 Euler Ancestral(Euler a)作為採樣器。
多方面分辨率
該模型支持生成以下尺寸的圖像:
屬性 | 詳情 |
---|---|
尺寸 | 寬高比 |
1024 x 1024 |
1:1 正方形 |
1152 x 896 |
9:7 |
896 x 1152 |
7:9 |
1216 x 832 |
19:13 |
832 x 1216 |
13:19 |
1344 x 768 |
7:4 水平 |
768 x 1344 |
4:7 垂直 |
1536 x 640 |
12:5 水平 |
640 x 1536 |
5:12 垂直 |
📚 詳細文檔
模型詳情
- 開發者:Cagliostro Research Lab
- 合作方:SeaArt.ai
- 模型類型:基於擴散的文本到圖像生成模型
- 模型描述:Animagine XL 3.1 能夠根據文本提示生成高質量的動漫圖像。它在手部解剖結構、概念理解和提示解釋方面表現出色。
- 許可證:Fair AI Public License 1.0 - SD
- 微調基礎:Animagine XL 3.0
訓練和超參數
Animagine XL 3.1 在 2 個 A100 80GB GPU 上訓練了約 15 天,總計超過 350 個 GPU 小時。訓練過程分為三個階段:
- 預訓練:使用包含 870k 有序和標記圖像的豐富數據集,以增加 Animagine XL 3.0 的模型知識。
- 微調 - 第一階段:採用標記和精選的美學數據集,對預訓練後的 U - Net 進行優化。
- 微調 - 第二階段:利用標記和精選的美學數據集,進一步優化模型的藝術風格,提高手部和解剖結構的渲染效果。
超參數
階段 | 輪數 | U - Net 學習率 | 是否訓練文本編碼器 | 批量大小 | 噪聲偏移 | 優化器 | 學習率調度器 | 梯度累積步數 | GPU 數量 |
---|---|---|---|---|---|---|---|---|---|
預訓練 | 10 | 1e - 5 | True | 16 | N/A | AdamW | 餘弦退火熱重啟 | 3 | 2 |
微調第一階段 | 10 | 2e - 6 | False | 48 | 0.0357 | Adafactor | 帶熱身的常數調度器 | 1 | 1 |
微調第二階段 | 15 | 1e - 6 | False | 48 | 0.0357 | Adafactor | 帶熱身的常數調度器 | 1 | 1 |
模型比較(僅預訓練)
訓練配置
配置項 | Animagine XL 3.0 | Animagine XL 3.1 |
---|---|---|
GPU | 2 x A100 80G | 2 x A100 80G |
數據集 | 1,271,990 | 873,504 |
打亂分隔符 | True | True |
輪數 | 10 | 10 |
學習率 | 7.5e - 6 | 1e - 5 |
文本編碼器學習率 | 3.75e - 6 | 1e - 5 |
有效批量大小 | 48 x 1 x 2 | 16 x 3 x 2 |
優化器 | Adafactor | AdamW |
優化器參數 | 縮放參數:False,相對步長:False,熱身初始化:False | 權重衰減:0.1,貝塔值:(0.9, 0.99) |
學習率調度器 | 帶熱身的常數調度器 | 餘弦退火熱重啟 |
學習率調度器參數 | 熱身步數:100 | 週期數:10,最小學習率:1e - 6,學習率衰減:0.9,第一個週期步數:9,099 |
源代碼和訓練配置可在此處獲取:https://github.com/cagliostrolab/sd - scripts/tree/main/notebook
致謝
Animagine XL 3.1 的開發和發佈離不開以下個人和組織的寶貴貢獻和支持:
- SeaArt.ai:我們的合作伙伴和贊助商。
- Shadow Lilac:提供了美學分類模型 [aesthetic - shadow - v2](https://huggingface.co/shadowlilac/aesthetic - shadow - v2)。
- [Derrian Distro](https://github.com/derrian - distro):提供了自定義學習率調度器,改編自 [LoRA Easy Training Scripts](https://github.com/derrian - distro/LoRA_Easy_Training_Scripts/blob/main/custom_scheduler/LoraEasyCustomOptimizer/CustomOptimizers.py)。
- [Kohya SS](https://github.com/kohya - ss):提供了全面的訓練腳本。
- Cagliostrolab 合作者:致力於模型訓練、項目管理和數據整理。
- 早期測試者:提供了寶貴的反饋和質量保證工作。
- NovelAI:其創新的美學標籤方法為我們的實現提供了靈感。
- KBlueLeaf:在平衡質量標籤分佈和基於 Hakubooru Metainfo 管理標籤方面提供了靈感。
感謝大家的支持和專業知識,推動了動漫風格圖像生成的邊界。
合作者
侷限性
雖然 Animagine XL 3.1 在動漫風格圖像生成方面取得了顯著進展,但也需要認識到其侷限性:
- 專注動漫:該模型專門用於生成動漫風格圖像,不適合創建逼真的照片。
- 提示覆雜性:對於期望從簡短或簡單提示中獲得高質量結果的用戶來說,該模型可能不太適用。由於訓練重點在於概念理解而非美學細化,可能需要更詳細和具體的提示才能達到預期輸出。
- 提示格式:Animagine XL 3.1 針對 Danbooru 風格的標籤進行了優化,而非自然語言提示。為了獲得最佳效果,建議用戶使用適當的標籤和語法來格式化提示。
- 解剖結構和手部渲染:儘管在解剖結構和手部渲染方面有所改進,但仍可能存在生成效果不理想的情況。
- 數據集大小:用於訓練 Animagine XL 3.1 的數據集約包含 870,000 張圖像。與前一版本的數據集(120 萬張)結合後,總訓練數據約為 210 萬張圖像。儘管數量可觀,但對於一個“終極”動漫模型來說,這個數據集規模可能仍然有限。
- NSFW 內容:Animagine XL 3.1 旨在生成更平衡的 NSFW 內容,但需要注意的是,即使沒有明確提示,模型仍可能生成 NSFW 結果。
通過認識到這些侷限性,我們旨在提供透明度,併為 Animagine XL 3.1 的用戶設定現實的期望。儘管存在這些限制,我們相信該模型在動漫風格圖像生成方面邁出了重要的一步,為藝術家、設計師和愛好者提供了強大的工具。
🔧 技術細節
Animagine XL 3.1 基於 Stable Diffusion XL 構建,是一款擴散式文本到圖像生成模型。在訓練過程中,它經歷了預訓練和兩個階段的微調,使用了優化後的數據集和特殊的標籤系統。通過不斷優化模型的參數和結構,提高了生成圖像的質量和準確性。同時,模型在手部解剖結構、概念理解和提示解釋方面進行了重點優化,以滿足用戶對動漫風格圖像的需求。
📄 許可證
基於 Animagine XL 3.0,Animagine XL 3.1 採用 Fair AI Public License 1.0 - SD 許可證,該許可證與 Stable Diffusion 模型的許可證兼容。關鍵要點如下:
- 修改共享:如果對 Animagine XL 3.1 進行修改,必須同時共享修改內容和原始許可證。
- 源代碼可訪問性:如果修改後的版本可以通過網絡訪問,必須提供一種方式(如下載鏈接)讓他人獲取源代碼。這也適用於派生模型。
- 分發條款:任何分發必須遵循此許可證或具有類似規則的其他許可證。
- 合規性:如果違反規定,必須在 30 天內進行修復,否則許可證將被終止,強調了透明度和對開源價值觀的遵守。
選擇此許可證的目的是保持 Animagine XL 3.1 的開放性和可修改性,符合開源社區的精神。它保護了貢獻者和用戶的權益,鼓勵建立一個協作、道德的開源社區。這確保了模型不僅受益於社區的投入,還尊重開源開發的自由。
Cagliostro Lab Discord 服務器
最後,Cagliostro Lab 服務器已向公眾開放:https://discord.gg/cqh9tZgbGc
歡迎加入我們的 Discord 服務器!

