🚀 大型動漫圖像生成模型 - RouWei-0.7
RouWei-0.7 是一款基於先進技術微調的文本到圖像生成模型,使用了 700 萬張獨特圖片(約 200 萬帶有自然文本描述)進行訓練,在動漫圖像生成領域具有出色的性能和豐富的功能。
🚀 快速開始
本模型使用了先進技術對 Illustrious 進行大規模微調,數據集從 1400 萬張動漫藝術及其他媒體圖片(包括私有數據集)中挑選並平衡而來。在 Civitai 上查看更多詳細描述
Vpred 版本現已推出!
✨ 主要特性
核心優勢
- 更好的提示遵循度:能夠精準理解並遵循輸入的提示信息。
- 出色的美學、解剖結構和穩定性:生成的圖像不僅美觀,而且人體結構準確,風格穩定且多樣。
- 鮮豔的色彩和光滑的漸變:色彩鮮豔,過渡自然,無色彩灼燒痕跡。
- 全亮度範圍:即使使用 epsilon 也能呈現完整的亮度範圍。
- 豐富的風格和角色知識:掌握數萬個風格和幾乎任何角色的特徵。
與原始 Illustrious 和 NoobAI 相比
- 無水印困擾:生成的圖像不再帶有惱人的水印。
- 提示分割更優:無標籤滲透問題,提示分割更準確。
- 無角色標籤滲透:避免了角色標籤滲透帶來的副作用,如不必要的服裝、風格和構圖變化。
- 更好的連貫性和解剖結構:生成的圖像連貫性更好,人體結構更準確。
- 藝術家風格還原:能夠準確還原藝術家的風格。
- 風格穩定性高:每種風格(包括基礎風格)在不同種子下都穩定,無隨機波動。
- 新知識融入:模型融入了新的知識。
數據集截止日期
2024 年 12 月 20 日。
📚 詳細文檔
特性與提示
本模型既適用於基於短 booru 標籤的提示,也適用於長而複雜的自然文本提示。結合標籤和自然文本短語可獲得最佳效果。標籤使用經典的 danbooru 風格,逗號分隔且無下劃線。
基本設置
- 圖像分辨率:txt2img 約 100 萬像素,任何長寬比且分辨率為 64 的倍數(如 1024x1024、1152x、1216x832 等)。
- 採樣器:Euler_a。
- CFG 值:epsilon 模式下為 4 - 8,vpred 模式下為 3 - 5。
- 步數:20 - 28 步。
- 其他採樣器:LCM/PCM/DMD 未測試,cfg++ 採樣器效果良好。
- 高分辨率修復:x1.5 潛在空間 + 去噪 0.6 或任何 gan + 去噪 0.3 - 0.55。
請注意,vpred 版本需要較低的 CFG 值。
示例可在倉庫中找到,更多示例請查看 civitai。
質量標籤
- 正標籤:
masterpiece, best quality
- 負標籤:
low quality, worst quality
不使用其他元標籤,如 lowres,低分辨率圖像已根據其重要性進行移除或使用 DAT 進行上採樣和清理。
負提示
worst quality, low quality, watermark
為獲得最佳效果,請保持負提示簡潔。濫用流行序列不會改善結果,反而會導致不必要的效果、偏差和低質量圖像。
藝術家風格
模型掌握超過 35000 種藝術家風格。風格列表,Mega 上的示例網格。使用時需加上 by
,否則效果不佳。
通用風格
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style
自然文本
可與 booru 標籤結合使用,效果良好。在輸入風格和質量標籤後使用自然文本,也可僅使用 booru 標籤。數據集中約 200 萬張圖片帶有由 Opus-Vision、GPT-4o、Gemini 和 ToriiGate 生成的混合自然文本描述。
0.7 版本在提示理解和分割方面有多項改進。為獲得最佳性能,請關注 CLIP 75 令牌塊以及提示的分割方式。
亮度/顏色/對比度
可使用額外的元標籤進行控制:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr
Vpred 版本
RouWei-0.7 的 Vpred 版本現已推出,開箱即用,無色彩灼燒或相關問題。建議使用較低的 CFG 值(3 - 5),其他生成設置相同。避免使用一些旨在減少色彩灼燒的實驗性採樣器,否則會導致低質量圖像。
基礎模型
Epsilon 和 vpred 版本在主要訓練後進行了簡單的美學優化,以改善細節和連貫性。如果需要在合併、提取或微調時不引入這些後期優化,可以使用 RouWei 的基礎版本。
Discord 服務器
加入 Discord
安全性
模型可能會根據相應提示生成 NSFW 圖像,建議添加額外的過濾機制。輸出結果可能不準確或具有挑釁性,請勿將其作為參考。
📄 許可證
與 illustrious 使用相同的許可證,請查看原始頁面瞭解限制。可自由用於合併、微調等,但請保留鏈接。
致謝
感謝眾多匿名人士以及 Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、rred、Soviet Cat、Sv1.、T. 等的幫助。
捐贈
- BTC:bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
- ETH/USDT(e):0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
- XMR:47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
屬性 |
詳情 |
模型類型 |
文本到圖像生成模型 |
訓練數據 |
從 1400 萬張動漫藝術及其他媒體圖片(包括私有數據集)中挑選的 700 萬張獨特圖片(約 200 萬帶有自然文本描述) |
⚠️ 重要提示
vpred 版本需要較低的 CFG 值,且避免使用一些旨在減少色彩灼燒的實驗性採樣器,否則會導致低質量圖像。
💡 使用建議
為獲得最佳效果,可結合使用標籤和自然文本短語,保持負提示簡潔,並關注 CLIP 75 令牌塊以及提示的分割方式。