🚀 Cool Japan Diffusion 2.1.1模型卡
Cool Japan Diffusion 2.1.1是一款基於Stable Diffusion進行微調的模型,專注於生成動漫、漫畫、遊戲等具有日本特色風格的圖像。

⚠️ 重要提示
注意事項。中國將對圖像生成的人工智能實施法律限制。 (此為對中國國內人員的警告)
英文版本請見此處。
🚀 快速開始
如果你想輕鬆體驗本模型,可使用此Space。詳細的模型使用說明請參考使用說明書。你可以從這裡下載模型。
✨ 主要特性
Cool Japan Diffusion是對Stable Diffsion進行微調的模型,專門用於表現動漫、漫畫、遊戲等日本流行文化元素。不過,它與內閣府的酷日本戰略並無特別關聯。
📦 安裝指南
Diffusers庫安裝
首先,執行以下腳本安裝所需庫:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基礎用法
本模型的使用方法與Stable Diffusion v2相同,這裡提供兩種使用模式:Web UI和Diffusers。
Web UI模式
請按照此使用說明書進行操作。
Diffusers模式
使用🤗's Diffusers library,執行以下腳本生成圖像:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-1"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
💡 使用建議
- 使用 xformers 可加快生成速度。
- 若GPU內存較少,可使用
pipe.enable_attention_slicing()
。
想定用途
- 競賽:可向 AIアートグランプリ 投稿,但需公開微調所用的全部數據,並確保符合評審標準。如有需求,可在Hugging Face的社區告知作者。
- 圖像生成AI報道:無論是公共廣播還是營利企業均可使用,因為認為公眾對圖像合成AI信息的“知情權”不會對創作行業造成負面影響,同時也尊重新聞自由。
- 酷日本文化介紹:向其他國家的人介紹酷日本文化。作者Alfred Increment發現很多外國留學生因酷日本文化來到日本,但常因現實與期望不符而失望,希望大家能更自豪地展示本國令人嚮往的文化。
- 研發:
- 在Discord上使用模型進行提示工程、微調(如DreamBooth)、與其他模型合併等操作。
- 研究Latent Diffusion Model與酷日本文化的適配性。
- 使用FID等指標評估本模型性能。
- 通過校驗和或哈希函數檢查本模型與Stable Diffusion以外模型的獨立性。
- 教育:可用於美術院校或職業學校學生的畢業作品、大學生的畢業論文或課題作業,也可用於教師向學生介紹圖像生成AI的現狀。
- 自我表達:在社交媒體上表達個人情感和想法。
- Hugging Face社區用途:可使用日語或英語在社區提問。
非預期用途
- 避免將事物表現為事實。
- 不得用於有收益的YouTube等內容。
- 不能直接作為商業服務提供。
- 不要給老師帶來困擾。
- 避免對創作行業造成負面影響。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型類型 |
基於擴散模型的文本到圖像生成模型 |
語言 |
日語 |
許可證 |
CreativeML Open RAIL++-M-NC License |
模型說明 |
該模型可根據提示生成合適的圖像,算法採用 Latent Diffusion Model 和 OpenCLIP-ViT/H |
參考文獻 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
禁止使用或惡意用途
- 請勿公開數字贗品 (Digital Forgery),特別是現有角色的數字贗品,以免違反著作權法。不過,該模型似乎也能生成未學習過的角色 (此推文僅允許用於研究目的)。
- 未經他人許可,不得對其作品進行圖像到圖像的轉換,以免違反著作權法。
- 不得傳播淫穢物品,以免違反刑法175條。
- 不要將無事實依據的內容當作事實傳播,以免觸犯威力業務妨害罪,如發佈虛假新聞。
模型的侷限性和偏差
模型侷限性
目前對模型的侷限性瞭解尚不充分。
偏差
本模型存在與Stable Diffusion相同的偏差,請使用時注意。
訓練信息
訓練數據
- VAE:使用了約60萬種遵守日本國內法律的數據(通過數據增強可生成無限數量的樣本),排除了Danbooru等未經授權的轉載網站的數據。
- U-Net:使用了100萬對遵守日本國內法律的數據,同樣排除了Danbooru等未經授權的轉載網站的數據。
訓練過程
對Stable Diffusion的VAE和U-Net進行了微調。
- 硬件:RTX 3090, A6000
- 優化器:AdamW
- 梯度累積:1
- 批量大小:1
評估結果
暫無相關評估結果。
環境影響
本模型對環境的影響極小。
- 硬件類型:RTX 3090, A6000
- 使用時間(單位:小時):600
- 雲服務提供商:無
- 訓練地點:日本
- 碳排放量:較低
🔧 技術細節
本模型的算法採用 Latent Diffusion Model 和 OpenCLIP-ViT/H,可根據提示生成合適的圖像。
📄 許可證
本模型的許可證是在原CreativeML Open RAIL++-M License的基礎上,除特殊情況外,增加了禁止商業使用的條款。增加該條款是因為擔心可能對創作行業產生負面影響。若該擔憂消除,下一版本將恢復原許可證,允許商業使用。原許可證的日語翻譯可參考此處。營利企業的使用者請與法務部門人員協商。個人興趣使用的用戶,只要遵守一般常識,通常無需過於擔心。此外,根據許可證規定,改造本模型時需繼承此許可證。
*此模型卡由Alfred Increment基於 Stable Diffusion v2 編寫。