模型概述
模型特點
模型能力
使用案例
🚀 BPModel
BPModel是一個基於Stable Diffusion的實驗性模型,它基於特定的數據集訓練,能生成特定風格的圖像,在動漫圖像生成領域有獨特表現。
🚀 快速開始
BPModel是一個基於 Joseph Cheung 的 ACertainty 的實驗性Stable Diffusion模型。使用時,你可以根據不同需求選擇不同的模型文件,如 bp_1024_e10.ckpt
不包含任何VAE,使用 AUTOMATIC1111/stable-diffusion-webui 時需搭配其他流行的VAE;若沒有VAE和文本編碼器,可使用 bp_1024_with_vae_te.ckpt
;若要繼續訓練,可使用 bp_1024_e10_ema.ckpt
。為獲得更好的性能,強烈建議使用Clip skip 2,並在 AUTOMATIC1111/stable-diffusion-webui 設置中開啟 “Upscale latent space image when doing hires. fix
”。
✨ 主要特性
- 高分辨率訓練:該模型在高分辨率(如768甚至1024)下進行訓練,這在之前的Stable Diffusion模型中較為少見。
- 獨特數據集:使用來自 Sankaku Complex 的5k高質量帶註釋圖像進行訓練,數據集公開於 Crosstyan/BPDataset。
- 減少過擬合:通過ACertainty(完整Danbooru)和Stable Diffusion(LAION)的強先驗知識,減少了因在相對小的數據集上微調而導致的過擬合影響。
- 生成效果較好:相較於其他動漫模型,能生成更符合預期的貓咪形象,但仍存在一些不足。
📦 安裝指南
文檔未提及具體安裝命令,故跳過此章節。
💻 使用示例
基礎用法
使用示例代碼保持不變:
# 此部分文檔未提供基礎用法示例代碼
高級用法
文檔未提供高級用法示例代碼,故跳過此部分。
示例展示
以下是一些使用該模型生成圖像的示例及參數:
by (fkey:1) (shion:0.4) [sketch:0.75] (closed mouth expressionless:1) cat ears nekomimi 1girl, wearing a white sailor uniform with a short skirt and white pantyhose standing on the deck of a yacht, cowboy shot, and the sun setting behind her in the background, light particle, bokeh
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, worst quality, low quality, normal quality, lipstick, 2koma, 3koma, dutch angle, blush, from behind
Steps: 28, Sampler: Euler a, CFG scale: 12, Seed: 4236324744, Size: 960x1600, Model hash: 855959a4, Denoising strength: 0.7, Clip skip: 2, ENSD: 31337, First pass size: 0x0
1girl in black serafuku standing in a field solo, food, fruit, lemon, bubble, planet, moon, orange \(fruit\), lemon slice, leaf, fish, orange slice, by (tabi:1.25), spot color, looking at viewer, closeup cowboy shot
Negative prompt: (bad:0.81), (comic:0.81), (cropped:0.81), (error:0.81), (extra:0.81), (low:0.81), (lowres:0.81), (speech:0.81), (worst:0.81), (blush:0.9), 2koma, 3koma, 4koma, collage, lipstick
Steps: 18, Sampler: DDIM, CFG scale: 7, Seed: 2017390109, Size: 768x1600, Model hash: fed5b383, Batch size: 4, Batch pos: 1, Denoising strength: 0.7, Clip skip: 2, ENSD: 31337, First pass size: 0x0
更多示例可在 images 文件夾中查看。
📚 詳細文檔
更新記錄
- 2023-01-02:花費更多GPU時長進一步訓練,使其有一點過擬合。可查看 bp_mk3.safetensors 和 bp_mk5.safetensors。需自備VAE!若無法加載 safetensors,請更新WebUI。在
images
文件夾中添加了大量樣本! - 2023-01-06:查看 NMFSAN 以瞭解使用自定義嵌入訓練的新模型。
模型介紹
BPModel是基於 Joseph Cheung 的 ACertainty 的實驗性Stable Diffusion模型。訓練該模型的原因是之前很少有以768甚至1024為基礎分辨率(base_res
)訓練的模型。該模型使用來自 Sankaku Complex 的5k高質量帶註釋圖像進行訓練,數據集公開於 Crosstyan/BPDataset。
高分辨率模型的訓練需要大量的GPU時長和成本。該模型在512分辨率下訓練30個epoch花費了10個V100 GPU時長,在768分辨率下訓練30個epoch花費了60個V100 GPU時長,在1024分辨率下訓練10個epoch花費了100個V100 GPU時長。1024分辨率模型的訓練結果與768分辨率模型相比,沒有顯著改進,且資源需求高。但768分辨率的訓練結果優於512分辨率,值得考慮。
訓練腳本使用 Mikubill/naifu-diffusion,也推薦查看 CCRcmcpe/scal-sdt。以下是768和1024分辨率的縱橫比桶配置:
# 768
arb:
enabled: true
debug: false
base_res: [768, 768]
max_size: [1152, 768]
divisible: 64
max_ar_error: 4
min_dim: 512
dim_limit: 1792
# 1024
arb:
enabled: true
debug: false
base_res: [1024, 1024]
max_size: [1536, 1024]
divisible: 64
max_ar_error: 4
min_dim: 960
dim_limit: 2389
模型侷限性
- 人體生成問題:如 SCAL-SDT Wiki 中所述,Stable Diffusion無法正確生成人體,例如一隻手可能會生成6根手指。
- 生成效果不完美:雖然BPModel能生成更符合預期的貓咪形象,但仍存在複製粘貼效果,如 Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 中所示。
- 過擬合問題:由於在相對小的數據集上微調,BPModel本身容易過擬合,但ACertainty和Stable Diffusion的先驗知識有助於減少過擬合影響。
- 藝術家名稱誤判:數據集中部分圖像的標題包含藝術家名稱,但CLIP在分詞時可能會誤判,如 as109 會被分詞為
[as, 1, 0, 9]
,fuzichoco 會變成[fu, z, ic, hoco]
。 - 語言漂移問題:該問題仍然存在,除非能找到生成更好標題或手動標註圖像的方法。
模型使用說明
- 模型文件選擇:
- 若使用 AUTOMATIC1111/stable-diffusion-webui,
bp_1024_e10.ckpt
不包含任何VAE,需搭配其他流行的VAE使用。 - 若沒有VAE和文本編碼器,可使用
bp_1024_with_vae_te.ckpt
,但不包含EMA權重,且為fp16。 - 若要繼續訓練,可使用
bp_1024_e10_ema.ckpt
,這是ema unet權重,精度為fp32。
- 若使用 AUTOMATIC1111/stable-diffusion-webui,
- 性能優化建議:強烈建議使用Clip skip 2,並在 AUTOMATIC1111/stable-diffusion-webui 設置中開啟 “
Upscale latent space image when doing hires. fix
”,這樣在使用Highres. fix
時會添加複雜細節。
模型名稱解釋
詢問 chatGPT 後,“BP” 縮寫的一些創意解釋如下:
以下是對縮寫 "BP" 的一些創意解釋:
- Brightest Point - 這可能指的是一個卓越的輝煌或清晰的時刻。
- Brainpower - 該縮寫指的是需要大量腦力或智力才能完成的事情。
- Bespoke Partition - 一個定製的分隔兩個不同區域的部分。
- Bukkake Picchi - 一種日本風格的米飯菜餚。
- Bokeh Picker - 一種傳統的日本攝影技術,涉及從數字圖像中選擇光點。
- Bipolarity - 兩個不同且對立的元素或觀點。
請注意,“BP” 通常用作 “blood pressure”(血壓)的縮寫,因此需要根據上下文來確定該縮寫最恰當的解釋。
作者個人稱其為 “Big Pot”。
🔧 技術細節
訓練資源與效果
高分辨率模型的訓練需要大量的GPU時長和成本。該模型在不同分辨率下的訓練情況如下:
- 在512分辨率下訓練30個epoch花費了10個V100 GPU時長。
- 在768分辨率下訓練30個epoch花費了60個V100 GPU時長。
- 在1024分辨率下訓練10個epoch花費了100個V100 GPU時長。
1024分辨率模型的訓練結果與768分辨率模型相比,沒有顯著改進,且資源需求高,在32G VRAM的V100上只能實現批量大小為1。但768分辨率的訓練結果優於512分辨率,值得考慮。
配置參數
以下是768和1024分辨率的縱橫比桶配置:
# 768
arb:
enabled: true
debug: false
base_res: [768, 768]
max_size: [1152, 768]
divisible: 64
max_ar_error: 4
min_dim: 512
dim_limit: 1792
# 1024
arb:
enabled: true
debug: false
base_res: [1024, 1024]
max_size: [1536, 1024]
divisible: 64
max_ar_error: 4
min_dim: 960
dim_limit: 2389
📄 許可證
該模型是開放訪問的,所有人都可以使用,並遵循CreativeML OpenRAIL-M許可證,該許可證進一步規定了權利和使用方式。CreativeML OpenRAIL許可證規定:
- 不能使用該模型故意生成或分享非法或有害的輸出或內容。
- 作者對生成的輸出不主張任何權利,用戶可以自由使用它們,並對其使用負責,且使用不得違反許可證中的規定。
- 可以重新分發權重,並將模型用於商業用途或作為服務。如果這樣做,請務必包含與許可證中相同的使用限制,並向所有用戶分享CreativeML OpenRAIL-M許可證的副本(請完整仔細閱讀許可證)。請閱讀完整的許可證 here。

