🚀 學習用Cool Japan Diffusion 2.0模型卡
學習用Cool Japan Diffusion是對Stable Diffusion進行微調後,專門用於插畫的模型。它原本是為了訓練名為Cool Japan Diffusion的擴散模型而創建的,但由於一些原因,此次緊急提供。需要注意的是,該模型與內閣府的酷日本戰略並無特別關聯。
🚀 快速開始
- 若您想輕鬆體驗,可在右側的文本框中輸入內容進行圖像生成。也可以在F君創建的Space中進行嘗試。
- 若您想深入使用,請先閱讀上述注意事項,然後參考這篇文章。使用教程可查看此處。
✨ 主要特性
學習用Cool Japan Diffusion是對Stable Diffusion進行微調,專為插畫設計的模型。它能根據輸入的提示詞生成合適的圖像,算法採用了 Latent Diffusion Model 和 OpenCLIP-ViT/H。
📦 安裝指南
若您使用Diffusers庫,可按以下步驟操作:
- 首先,執行以下腳本安裝所需庫:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基礎用法
以下是使用Diffusers庫生成圖像的示例代碼:
from diffusers import StableDiffusionPipeline
import torch
model_id = "alfredplpl/cool-japan-diffusion-for-learning-2-0"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a beautuful girl with black hair and red eyes, kimono, 4k, detailed"
image = pipe(prompt, height=512, width=512).images[0]
image.save("girl.png")
高級用法
- 加速技巧:使用 xformers 可加快生成速度。
- 顯存不足處理:若使用GPU時顯存不足,可使用
pipe.enable_attention_slicing()
。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型類型 |
基於擴散模型的文本到圖像生成模型 |
語言 |
日語 |
許可證 |
CreativeML Open RAIL++-M-NC License |
模型說明 |
該模型可根據提示詞生成合適的圖像,算法為 Latent Diffusion Model 和 OpenCLIP-ViT/H。 |
參考文獻 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
模型的使用場景
預期用途
- 競賽:可向 AIアートグランプリ 投稿,但需公開用於微調的所有數據,並確保符合審查標準,提前申請並獲取確認。若有相關需求,可在Hugging Face的社區告知作者。
- 圖像生成AI報道:無論是公共廣播還是營利企業均可使用。因為認為公眾有“瞭解”圖像合成AI信息的權利,且尊重報道自由。
- 酷日本介紹:向其他國家的人介紹酷日本。Alfred Increment認為很多外國留學生因酷日本而來到日本,但常因發現日本的酷日本與想象不同而失望,希望大家更自豪地展示本國文化。
- 研發:可在Discord上使用該模型進行提示工程、微調(如DreamBooth)、與其他模型合併等操作;研究Latent Diffusion Model與酷日本的契合度;使用FID等指標檢查模型性能;使用校驗和或哈希函數檢查模型是否獨立於Stable Diffusion以外的模型。
- 教育:可用於美術生、專科學校學生的畢業作品,大學生的畢業論文或課題製作,教師也可用於介紹圖像生成AI的現狀。
- 自我表達:在社交媒體上表達自己的情感和想法。
- Hugging Face社區用途:可使用日語或英語提問。
非預期用途
- 不應用於將事物表述為事實的場景。
- 不得用於有收益的YouTube等內容。
- 不能直接作為商業服務提供。
- 不應給老師帶來困擾。
- 避免對創作行業產生負面影響。
禁止使用或惡意用途
- 請勿公開數字贗品 (Digital Forgery),尤其是現有角色的贗品,以免違反著作權法。
- 不得未經授權對他人作品進行圖像到圖像的轉換,以免違反著作權法。
- 禁止傳播淫穢物品,以免違反刑法175條。
- 不要傳播沒有事實依據的內容,以免觸犯威力業務妨害罪。
模型的侷限性和偏差
模型侷限性
目前尚未明確。
偏差
該模型存在與Stable Diffusion相同的偏差,例如女性圖像更容易生成美觀的結果,而男性圖像則較難;有報告顯示,生成人物的地點可能會導致人種偏差;也有報告稱,儘管該模型專注於插畫,但根據提示詞也可能生成類似實拍的圖像,請謹慎使用。
學習情況
學習數據
主要使用Twitter上發佈的約20萬張插畫和漫畫圖像(通過Twitter API獲取)對Stable Diffusion進行微調。
學習過程
對Stable Diffusion的VAE和U-Net進行了微調。
- 硬件:RTX 3090
- 優化器:AdamW
- 梯度累積:1
- 批量大小:1
評估結果
CLIP Score
CLIP Score越高,表明模型根據提示詞生成圖像的能力越強。根據 Izumi Satoshi 的 報告,結果如下:
不過,根據 條件報告,本模型的測試條件可能更有利,請謹慎參考。
FID, DaFID - 512
FID越低,表明兩個數據集在圖像識別方面越相似。DaFID - 512是FID中專門針對二維插畫的指標。根據Birdman的 報告,將 High Resolution Anime Face Dataset 與各模型生成的1萬張圖像進行比較,結果如下:

環境影響
該模型對環境的影響極小。
- 硬件類型:RTX 3090
- 使用時間:300小時
- 雲服務提供商:無
- 學習地點:日本
- 碳排放量:較少
🔧 技術細節
本模型是對Stable Diffusion進行微調得到的,主要微調了其VAE和U-Net部分。學習數據主要來自Twitter上的插畫和漫畫圖像,使用AdamW優化器,梯度累積為1,批量大小為1。在評估方面,使用了CLIP Score、FID和DaFID - 512等指標。
📄 許可證
本模型的許可證是在原許可證CreativeML Open RAIL++ - M License的基礎上,除例外情況外,增加了禁止商業使用的條款。增加此條款是因為擔心可能對創作行業產生負面影響。若此擔憂消除,下一個版本將恢復原許可證,允許商業使用。原許可證的日語翻譯可查看此處。營利企業的用戶請諮詢法務人員,個人興趣使用的用戶遵循一般常識即可。同時,根據許可證規定,改造此模型時需繼承該許可證。
⚠️ 重要提示
從2023年1月10日起,中國將對圖像生成的人工智能實施法律限制。詳情請見相關鏈接 。本模型主要面向日本用戶發佈,文檔最初為日語編寫,後續將在獲得日本用戶共識後翻譯成英文供其他國家使用。本模型在日本創建,適用日本法律,模型學習基於著作權法第30條之4主張合法,模型分發不構成正犯或幫助犯,具體見解可參考柿沼律師的觀點。但模型生成的內容需遵守各種法律法規。
💡 使用建議
使用時請遵循模型的預期用途,避免用於非預期用途和禁止使用的場景。在使用Diffusers庫時,可根據自身情況選擇是否使用xformers加速或處理顯存不足的問題。在參與競賽或進行報道等活動時,務必遵守相關規定和流程。