模型概述
模型特點
模型能力
使用案例
🚀 ArtiWaifu Diffusion 2.0
我們發佈了 ArtiWaifu Diffusion 2.0 模型,旨在生成美觀且還原度高的動漫風格插畫。該模型是 Stable Diffusion XL 模型的迭代版本,掌握了 9000 多種藝術風格和 6000 多個動漫角色,可通過 觸發詞 生成圖像。作為一款專注於動漫的圖像生成模型,它在生成高質量動漫圖像方面表現出色,尤其擅長生成具有高度可識別風格和角色的圖像,同時保持一致的高質量美學表達。
🚀 快速開始
我們已發佈了 ArtiWaifu Diffusion 2.0 模型,該模型基於 Stable Diffusion XL 模型迭代而來,可通過觸發詞生成動漫風格的圖像。下面將為你介紹該模型的使用指南。
✨ 主要特性
- 豐富的藝術風格和角色:掌握了 9000 多種藝術風格和 6000 多個動漫角色,能夠生成多樣化的動漫圖像。
- 高質量圖像生成:擅長生成具有高度可識別風格和角色的圖像,同時保持一致的高質量美學表達。
- 穩定的人體結構:相比 ArtiWaifu Diffusion 1.0,2.0 版本在人體結構的生成上更加穩定。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
# 配置參數
- **CFG scale**:<span style="color:cyan">5 - 11</span>
- **分辨率**:面積(= 寬度 x 高度)約為 1024x1024。不低於 256x256,且長度和寬度均為 32 的倍數。
- **採樣方法**:Euler A(<span style="color:cyan">20+</span> 步)或 DPM++ 2M Karras(<span style="color:cyan">~35</span> 步)
# 由於特殊的訓練方法,AWA 的最佳推理步數高於常規值。隨著推理步數的增加,生成圖像的質量會持續提高...
# 問題:為什麼不使用標準的 SDXL 分辨率?
# 答案:因為訓練中使用的分桶算法不遵循固定的分桶集。雖然這不符合位置編碼,但我們未觀察到任何不良影響。
高級用法
# 所有文本到圖像的擴散模型對提示詞都非常敏感,AWA Diffusion 也不例外。即使提示詞中有拼寫錯誤,或者用下劃線代替空格,都會影響生成結果。
# AWA Diffusion 鼓勵用戶使用以逗號加空格(`, `)分隔的 **標籤** 來編寫提示詞。雖然模型也支持自然語言描述作為提示詞,或者兩者混合使用,但逐標籤格式更加穩定和友好。
# 當描述特定的 ACG 概念,如角色、風格或場景時,建議用戶從 [Danbooru 標籤](https://danbooru.donmai.us/tags) 中選擇標籤,並將 Danbooru 標籤中的下劃線替換為空格,以確保模型準確理解你的需求。例如,`bishop_(chess)` 應寫成 `bishop (chess)`,在像 AUTOMATIC1111 WebUI 這樣使用括號來加權提示詞的推理工具中,標籤內的所有括號都應進行轉義,即 `bishop \(chess\)`。
📚 詳細文檔
模型詳情
AWA Diffusion 模型是在 ArtiWaifu Diffusion 1.0 的基礎上進行微調的,選用了 250 萬張高質量動漫圖像作為數據集,涵蓋了廣泛的流行和小眾動漫概念。AWA Diffusion 採用了我們最先進的訓練策略,使用戶能夠輕鬆引導模型生成特定角色或風格的圖像,同時保持高圖像質量和美學表達。
與 ArtiWaifu Diffusion 1.0 相比,2.0 版本具有以下主要特點:
- 更多的藝術風格和角色;
- 更穩定的人體結構。
模型信息
屬性 | 詳情 |
---|---|
開發者 | Euge |
資助方 | Neta.art |
模型類型 | 生成式文本到圖像模型 |
微調基礎模型 | ArtiWaifu Diffusion 1.0 |
許可證 | Fair AI Public License 1.0 - SD |
提示詞策略
標籤順序
包括 AWA Diffusion 在內的大多數擴散模型對邏輯排序的標籤理解得更好。雖然標籤順序不是強制性的,但它可以幫助模型更好地理解你的需求。一般來說,標籤在順序中越靠前,對生成的影響就越大。
以下是一個標籤排序的示例。該示例組織了標籤的順序,先添加 藝術風格標籤 和 角色標籤,因為風格和主題對圖像最為重要。隨後,按重要性依次添加其他標籤。最後,將 美學標籤 和 質量標籤 放在末尾,以進一步強調圖像的美學效果。
藝術風格(by xxx) -> 角色(1 frieren (sousou no frieren)) -> 種族(精靈) -> 構圖(牛仔視角) -> 繪畫風格(厚塗) -> 主題(奇幻主題) -> 主要環境(森林中,白天) -> 背景(漸變背景) -> 動作(坐在地上) -> 表情(面無表情) -> 主要特徵(白髮) -> 其他特徵(雙馬尾,綠眼,嘴唇微張) -> 服裝(穿著白色連衣裙) -> 服裝配飾(褶邊) -> 其他物品(手持魔杖) -> 次要環境(草地,陽光) -> 美學(美麗色彩,細節豐富) -> 質量(最佳質量) -> 次要描述(鳥類,雲朵,蝴蝶)
標籤順序不是固定不變的。靈活編寫提示詞可以獲得更好的效果。例如,如果某個概念(如風格)的效果太強,影響了圖像的美學吸引力,可以將其移到後面的位置以減少其影響。
負面提示詞
AWA Diffusion 不一定需要負面提示詞。如果使用負面提示詞,並不是越多越好。它們應該 儘可能簡潔,並且易於模型識別。過多的負面詞彙可能會導致生成結果變差。
以下是一些推薦使用負面提示詞的場景:
- 水印:
簽名
,標誌
,藝術家姓名
; - 質量:
最差質量
,低分辨率
,醜陋
,抽象
; - 風格:
現實生活
,3D
,賽璐璐
,草圖
,草稿
; - 人體結構:
變形的手
,融合的手指
,多餘的肢體
,多餘的手臂
,缺失的手臂
,多餘的腿
,缺失的腿
,多餘的手指
,較少的手指
。
觸發詞
在提示詞中添加觸發詞,告知模型你想要生成的概念。觸發詞可以包括角色名稱、藝術風格、場景、動作、質量等。
觸發詞提示
- 拼寫錯誤:模型對觸發詞的拼寫非常敏感。即使只有一個字母的差異,也可能導致觸發失敗或產生意外結果。
- 括號轉義:在使用依賴括號來加權提示詞的推理工具(如 AUTOMATIC1111 WebUI)時,要注意對觸發詞中的括號進行轉義,例如
1 lucy (cyberpunk)
應寫成1 lucy \(cyberpunk\)
。 - 觸發效果預覽:通過在 Danbooru 上搜索標籤來預覽標籤,更好地理解標籤的含義和用法。
風格標籤
風格標籤分為兩種類型:繪畫風格標籤 和 藝術風格標籤。繪畫風格標籤 描述圖像中使用的繪畫技巧或媒介,如油畫、水彩畫、平塗和厚塗。藝術風格標籤 代表圖像背後藝術家的藝術風格。
AWA Diffusion 支持以下 繪畫風格標籤:
- Danbooru 標籤中可用的繪畫風格標籤,如
油畫
,水彩畫
,平塗
等; - AID XL 0.8 支持的所有繪畫風格標籤,如
平塗 - 厚塗
等; - Neta Art XL 2.0 支持的所有風格標籤,如
古風
等;
完整的繪畫風格標籤列表請參閱 繪畫風格標籤列表。
AWA Diffusion 支持以下 藝術風格標籤:
- Danbooru 標籤中可用的藝術風格標籤,如
by yoneyama mai
,by wlop
等; - AID XL 0.8 支持的所有藝術風格標籤,如
by antifreeze3
,by 7thknights
等; - 從 Pixiv 共同收集的一些風格標籤,如
by trickortreat
,by shiroski
等;
完整的藝術風格標籤列表請參閱 藝術風格標籤列表。
標籤庫中標籤的數量越多,藝術風格的訓練就越充分,生成的保真度也就越高。通常,標籤數量超過 50 的藝術風格標籤會產生更好的生成結果。
風格標籤提示
- 強度調整:你可以通過改變提示詞中風格標籤的順序或權重來調整風格的強度。將風格標籤前置可以增強其效果,而將其後置則會減弱其效果。
角色標籤
角色標籤描述生成圖像中的角色 IP。使用角色標籤將引導模型生成角色的 外觀特徵。
角色標籤也需要從 角色標籤列表 中獲取。要生成特定的角色,首先在標籤庫中找到對應的觸發詞,將觸發詞中的所有下劃線 _
替換為空格
,並在角色名稱前加上 1
。
例如,1 ayanami rei
觸發模型生成動漫《新世紀福音戰士》中的角色綾波麗,對應 Danbooru 標籤 ayanami_rei
;1 asuna (sao)
觸發模型生成《刀劍神域》中的角色亞絲娜,對應 Danbooru 標籤 asuna_(sao)
。
標籤庫中標籤的數量越多,角色的訓練就越充分,生成的保真度也就越高。通常,標籤數量超過 100 的角色標籤會產生更好的生成結果。
角色標籤提示
- 角色服裝:為了實現更靈活的角色服裝搭配,角色標籤不會刻意引導模型繪製角色的官方服裝。要生成特定官方服裝的角色,除了觸發詞外,還應在提示詞中包含服裝的描述,例如 "1 lucy (cyberpunk), 穿著白色短夾克,內搭緊身衣,短褲,過膝長襪,臀部通風口"。
- 系列註釋:一些角色標籤在角色名稱後包含額外的括號註釋。括號和其中的註釋不能省略,例如
1 lucy (cyberpunk)
不能寫成1 lucy
。除此之外,不需要添加任何額外的註釋,例如,不需要在角色標籤後添加角色所屬的系列標籤。 - 已知問題 1:在生成某些角色時,可能會出現神秘的特徵變形,例如
1 asui tsuyu
觸發《我的英雄學院》中的角色蛙吹梅雨時,眼睛之間可能會出現一條額外的黑線。這是因為模型錯誤地將大圓眼睛解釋為眼鏡,因此應在負面提示詞中包含眼鏡
以避免此問題。 - 已知問題 2:在生成不太受歡迎的角色時,由於數據/訓練不足,AWA Diffusion 可能會生成特徵恢復不完整的圖像。在這種情況下,建議在提示詞中除了角色名稱之外,詳細描述角色的起源、種族、頭髮顏色、服裝等。
角色標籤觸發示例
觸發詞 | 說明 |
---|---|
1 lucy (cyberpunk) | ‚úÖ 正確的角色標籤 |
1 lucy | ‚ùå 缺少括號註釋 |
1 lucy (cyber) | ‚ùå 錯誤的括號註釋 |
lucy (cyberpunk) | ‚ùå 缺少前綴 1 |
1 lucy cyberpunk | ‚ùå 缺少括號 |
1 lucy (cyberpunk | ‚ùå 括號未閉合 |
1 lucky (cyberpunk) | ‚ùå 拼寫錯誤 |
1 lucy (cyberpunk: edgerunners) | ‚ùå 括號註釋不符合所需的角色標籤 |
質量標籤和美學標籤
對於 AWA Diffusion,在正面提示詞中包含質量描述 非常重要。質量描述與質量標籤和美學標籤有關。
質量標籤直接描述生成圖像的美學質量,影響細節、紋理、人體結構、照明、顏色等。添加質量標籤有助於模型生成更高質量的圖像。質量標籤從高到低排序如下: 驚人質量 -> 最佳質量 -> 高質量 -> 正常質量 -> 低質量 -> 最差質量
美學標籤描述生成圖像的美學特徵,幫助模型生成具有藝術吸引力的圖像。除了典型的美學詞彙,如 透視
,光影
之外,AWA Diffusion 經過特殊訓練,對美學觸發詞如 美麗色彩
,細節豐富
和 美學
有很好的響應,分別表達吸引人的顏色、細節和整體美感。
推薦的通用質量描述方式是:(你的提示詞), 美麗色彩,細節豐富,驚人質量
質量和美學標籤提示
- 標籤數量:只需要一個質量標籤;可以添加多個美學標籤。
- 標籤位置:質量和美學標籤的位置不固定,但通常放在提示詞的末尾。
- 相對質量:質量沒有絕對的等級;隱含的質量符合一般的美學標準,不同用戶對質量的感知可能不同。
評級標籤
評級標籤描述生成圖像內容的暴露程度。評級標籤從高到低排序如下:
評級:通用(或 安全) -> 評級:暗示性 -> 評級:有問題 -> 評級:明確(或 不適合工作場合)
提示詞示例
示例 1
A by yoneyama mai, 1 frieren, 1girl, solo, 奇幻主題, 微笑, 手持魔杖, 美麗色彩, 驚人質量
- by yoneyama mai 觸發米山舞的藝術風格,放在前面以增強效果。
- 1 frieren 觸發系列《葬送的芙莉蓮》中的角色芙莉蓮。
- 美麗色彩 描述生成圖像中的美麗顏色。
- 驚人質量 描述生成圖像的驚人質量。
B by nixeu, 1 lucy (cyberpunk), 1girl, solo, 牛仔視角, 漸變背景, 白色短夾克, 內搭緊身衣, 短褲, 過膝長襪, 臀部通風口, 細節豐富, 最佳質量
示例 2:風格混合
通過疊加多個不同的風格標籤,你可以生成具有多種風格特徵的圖像。
A 簡單混合 by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 初音未來, 坐姿, 手臂支撐, 微笑, 細節豐富, 驚人質量
B 加權混合 使用 AUTOMATIC1111 WebUI 提示詞加權語法(括號加權),對不同的風格標籤進行加權,以更好地控制生成圖像的風格。
(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 初音未來, 坐姿, 手臂支撐, 微笑, 細節豐富, 驚人質量
C 高級混合
使用 AUTOMATIC1111 WebUI 提示詞加權語法(括號加權),可以使用 |
符號直接混合兩個單詞。
(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 初音未來, 坐姿, 手臂支撐, 微笑, 細節豐富, 驚人質量
示例 3:多角色場景
通過在提示詞中添加多個角色標籤,你可以生成同一畫面中有多個角色的圖像。與其他類似模型相比,AWA 在多角色場景中表現更好,但仍不穩定。
A 混合性別場景 1girl and 1boy, 1 甘雨 girl, 1 五條悟 boy, 美麗色彩, 驚人質量
B 同性場景 2girls, 1 甘雨 girl, 1 宵宮 girl, 美麗色彩, 驚人質量
🔧 技術細節
文檔未提及技術實現細節,故跳過此章節。
📄 許可證
本模型使用 Fair AI Public License 1.0 - SD 許可證。
未來工作
與 V1.0 一樣,AWA Diffusion 有望將高級 美學 與全面的 知識 相結合。它既不應有傳統 AI 的油膩感,也不應成為缺乏知識的花瓶。我們將繼續探索更先進的訓練技術和策略,並在數據集中添加更多更好的數據,不斷提高模型的質量。
支持我們
訓練 AWA Diffusion 會產生大量成本。如果你認可我們的工作,請考慮通過 Ko-fi 支持我們,以幫助我們進行研發工作。感謝你的喜愛和支持!

