🚀 Animagine XL 3.0 Base
Animagine XL 3.0 Base 是先進的動漫文本到圖像模型 Animagine XL 3.0 的基礎版本。該基礎版本涵蓋了模型開發的前兩個階段,專注於建立核心功能並完善關鍵方面,為 Animagine XL 3.0 的完整功能奠定了基礎。它採用基於遷移學習的兩階段開發過程,有效解決了第一階段訓練完成後 UNet 中存在的問題,如解剖結構不合理等。不過,該模型不建議用於推理,建議將其作為構建其他模型的基礎。如需進行推理,請使用 Animagine XL 3.0。
✨ 主要特性
- 作為先進動漫圖像生成模型的基礎階段,專注於構建動漫圖像的核心能力。
- 強調對基礎概念的理解和初始提示的解釋,為高級功能奠定基礎。
- 採用兩階段開發過程,有效解決 UNet 中的問題。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
1girl/1boy, character name, from what series, everything else in any order.
高級用法
文檔未提供高級用法示例,故跳過此部分。
📚 詳細文檔
模型詳情
使用指南
標籤順序
在此版本中,提示方式略有不同。為獲得最佳效果,建議遵循結構化提示模板,因為我們是按照以下方式訓練模型的:
1girl/1boy, character name, from what series, everything else in any order.
特殊標籤
與上一版本一樣,該模型在訓練時使用了一些特殊標籤,以引導生成結果的質量、評級以及發佈時間。即使不使用這些特殊標籤,模型也能正常工作,但如果希望更輕鬆地控制模型,建議使用它們。
質量修飾符
質量修飾符 |
得分標準 |
masterpiece |
>150 |
best quality |
100 - 150 |
high quality |
75 - 100 |
medium quality |
25 - 75 |
normal quality |
0 - 25 |
low quality |
-5 - 0 |
worst quality |
<-5 |
評級修飾符
評級修飾符 |
評級標準 |
rating: general |
通用 |
rating: sensitive |
敏感 |
rating: questionable , nsfw |
有問題 |
rating: explicit , nsfw |
明確 |
年份修飾符
這些標籤有助於引導生成結果呈現現代或復古的動漫藝術風格,範圍從 newest
到 oldest
。
年份標籤 |
年份範圍 |
Newest |
2022 到 2023 |
late |
2019 到 2021 |
mid |
2015 到 2018 |
early |
2011 到 2014 |
oldest |
2005 到 2010 |
推薦設置
為引導模型生成高美學的圖像,建議使用以下負面提示:
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name
為獲得更高質量的結果,建議在提示前添加:
masterpiece, best quality
不過,使用 masterpiece
、best quality
時需謹慎,因為許多高分訓練數據集中包含 NSFW 內容。建議在負面提示中添加 nsfw
、rating: sensitive
,在正面提示中添加 rating: general
。同時,建議使用較低的無分類器引導(CFG Scale),約為 5 - 7,採樣步數低於 30,並使用 Euler Ancestral(Euler a)作為採樣器。
多方面分辨率
該模型支持生成以下尺寸的圖像:
尺寸 |
縱橫比 |
1024 x 1024 |
1:1 方形 |
1152 x 896 |
9:7 |
896 x 1152 |
7:9 |
1216 x 832 |
19:13 |
832 x 1216 |
13:19 |
1344 x 768 |
7:4 水平 |
768 x 1344 |
4:7 垂直 |
1536 x 640 |
12:5 水平 |
640 x 1536 |
5:12 垂直 |
訓練和超參數
- Animagine XL 3.0 在 2 個配備 80GB 內存的 A100 GPU 上訓練了 21 天,超過 500 個 GPU 小時。訓練過程包括三個階段:
- 特徵對齊階段:使用 120 萬張圖像讓模型熟悉基本的動漫概念。
- 優化 UNet 階段:使用 2500 個精選數據集僅對 UNet 進行微調。
超參數
階段 |
輪數 |
UNet 學習率 |
是否訓練文本編碼器 |
文本編碼器學習率 |
批量大小 |
混合精度 |
噪聲偏移 |
特徵對齊階段 |
10 |
7.5e - 6 |
是 |
3.75e - 6 |
48 x 2 |
fp16 |
無 |
優化 UNet 階段 |
10 |
2e - 6 |
否 |
無 |
48 |
fp16 |
0.0357 |
模型比較
訓練配置
配置項 |
Animagine XL 2.0 |
Animagine 3.0 |
GPU |
A100 80G |
2 x A100 80G |
數據集 |
170k + 83k 張圖像 |
1271990 + 3500 張圖像 |
打亂分隔符 |
無 |
是 |
全局輪數 |
20 |
20 |
學習率 |
1e - 6 |
7.5e - 6 |
批量大小 |
32 |
48 x 2 |
是否訓練文本編碼器 |
是 |
是 |
是否訓練特殊標籤 |
是 |
是 |
圖像分辨率 |
1024 |
1024 |
桶分辨率 |
2048 x 512 |
2048 x 512 |
源代碼和訓練配置可在此處獲取:https://github.com/cagliostrolab/sd - scripts/tree/main/notebook
侷限性
儘管 “Animagine XL 3.0” 在動漫文本到圖像生成方面取得了顯著進展,但瞭解其侷限性對於明確其最佳使用場景和未來改進方向至關重要。
- 概念優先於藝術風格:該模型更注重學習概念而非特定的藝術風格,這可能導致與前作相比在美學吸引力上存在差異。
- 非寫實設計:Animagine XL 3.0 並非用於生成寫實或逼真的圖像,而是專注於動漫風格的藝術作品。
- 解剖結構挑戰:儘管有所改進,但模型在處理複雜的解剖結構時仍可能遇到困難,尤其是在動態姿勢中,偶爾會出現不準確的情況。
- 數據集限制:120 萬張圖像的訓練數據集可能無法涵蓋所有動漫角色或系列,限制了模型生成不太知名或較新角色的能力。
- 自然語言處理:該模型未針對自然語言解釋進行優化,需要更結構化和具體的提示才能獲得最佳結果。
- NSFW 內容風險:使用 “masterpiece” 或 “best quality” 等高質量標籤可能會無意中生成 NSFW 內容,因為高分訓練數據集中此類圖像較為普遍。
這些侷限性指出了未來版本可能需要改進的方向,並強調了精心設計提示以獲得最佳結果的重要性。瞭解這些限制可以幫助用戶更好地掌握模型的能力並調整預期。
致謝
我們衷心感謝為 Animagine XL 3.0 開發做出貢獻的整個團隊和社區,包括提供資源和見解的合作伙伴和協作者。
- 主要資助方:感謝提供開源資助支持我們的研究。
- Cagliostro Lab 協作者:感謝在預訓練期間進行質量檢查,並在微調期間整理數據集。
- Kohya SS:感謝提供必要的訓練腳本,併合並了我們關於
keep_tokens_separator
或打亂分隔符的 PR。
- Camenduru 服務器社區:感謝提供寶貴的見解、支持和質量檢查。
- NovelAI:感謝啟發我們如何構建數據集並使用標籤順序進行標註。
協作者
🔧 技術細節
文檔未提供足夠的技術實現細節,故跳過此章節。
📄 許可證
Animagine XL 3.0 現在使用 Fair AI Public License 1.0 - SD,該許可證與 Stable Diffusion 模型兼容。關鍵點如下:
- 修改共享:如果您對 Animagine XL 3.0 進行了修改,則必須同時共享您的修改內容和原始許可證。
- 源代碼可訪問性:如果您修改後的版本可以通過網絡訪問,則應提供一種方式(如下載鏈接)讓他人獲取源代碼。這也適用於派生模型。
- 分發條款:任何分發都必須遵循此許可證或具有類似規則的其他許可證。
- 合規性:如不遵守規定,必須在 30 天內進行修復,否則將終止許可證,強調透明度和遵守開源價值觀。
選擇此許可證的目的是確保 Animagine XL 3.0 保持開放和可修改,符合開源社區的精神。它保護了貢獻者和用戶的權益,鼓勵建立一個協作、道德的開源社區,確保模型不僅受益於社區的投入,還尊重開源開發的自由。