🚀 Cool Japan Diffusion 2.1.2 Beta模型卡
Cool Japan Diffusion 2.1.2 Beta是一個經過專門優化的模型,它基於Stable Diffusion進行微調,專注於呈現動漫、漫畫和遊戲等領域的日本流行文化元素,為用戶帶來獨特的圖像生成體驗。

⚠️ 重要提示
注意事項。中國將對圖像生成的人工智能實施法律限制。 (此為對中國國內用戶的警告)
英文版本請見此處。
🚀 快速開始
若您想輕鬆體驗該模型,可訪問此空間。若您想詳細瞭解模型的使用方法,請查閱使用說明書。您可以從這裡下載模型。
✨ 主要特性
Cool Japan Diffusion是對Stable Diffsion進行微調的模型,專門用於表現動漫、漫畫、遊戲等領域的日本流行文化元素。不過,它與內閣府的酷日本戰略並無特別關聯。
📦 安裝指南
Diffusers方式
若您選擇使用 🤗's Diffusers library,請按以下步驟操作:
首先,執行以下腳本安裝相關庫:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基礎用法
若使用Diffusers庫,可運行以下腳本生成圖像:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-2-beta"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float32)
pipe = pipe.to("cuda")
prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
⚠️ 重要提示
- 使用 xformers 可能會提升運行速度。
- 若您的GPU內存較小,在使用GPU時可使用
pipe.enable_attention_slicing()
。
Web UI方式
建議您安裝xformers並開啟 --xformers --disable-nan-check
選項。若未安裝,可開啟 --no-half
選項。請按照使用說明書進行操作。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型類型 |
基於擴散模型的文本到圖像生成模型 |
語言 |
日語 |
許可證 |
CreativeML Open RAIL++-M-NC License |
模型說明 |
該模型可根據提示生成合適的圖像。算法採用 Latent Diffusion Model 和 OpenCLIP-ViT/H。 |
參考文獻 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
預期用途
- 競賽:可投稿至 AIアートグランプリ,需披露微調所用的所有數據,並確保符合評審標準。如有需求,可在Hugging Face的社區中告知作者。
- 圖像生成AI相關報道:無論是公共廣播機構還是營利性企業均可使用,因為認為公眾對圖像合成AI信息的“知情權”不會對創作行業造成負面影響,同時也尊重新聞自由。
- 酷日本文化介紹:向其他國家的人介紹酷日本文化。Alfred Increment發現許多外國留學生因被酷日本文化吸引而來日本,但常因發現日本的酷日本文化與想象不同而感到失望,因此希望大家能更自豪地展示本國文化。
- 研發
- Discord上的模型使用:包括提示工程、微調(如DreamBooth等)、與其他模型合併等。
- 研究Latent Diffusion Model與酷日本文化的契合度。
- 使用FID等指標評估本模型的性能。
- 使用校驗和或哈希函數檢查本模型與Stable Diffusion以外模型的獨立性。
- 教育:可用於美術院校學生或專科學校學生的畢業設計、大學生的畢業論文或課題作業,也可用於教師向學生介紹圖像生成AI的現狀。
- 自我表達:在社交媒體上表達個人情感和想法。
- Hugging Face社區中提及的用途:請使用日語或英語提問。
非預期用途
- 以事實的方式表達事物。
- 在已盈利的YouTube等內容中使用。
- 直接作為商業服務提供。
- 給教師帶來困擾。
- 對創作行業造成負面影響的其他行為。
禁止使用或惡意使用的情況
- 請勿公開數字贗品 (Digital Forgery),否則可能違反著作權法。尤其不要公開現有角色的相關內容,因為也可能違反著作權法。不過,該模型似乎可以生成未學習過的角色(此推文僅用於研究目的)。
- 請勿未經他人許可對其作品進行圖像到圖像的轉換,否則可能違反著作權法。
- 請勿傳播淫穢物品,否則可能違反刑法175條。
- 請勿將非事實內容當作事實傳播,否則可能構成威力業務妨害罪,如傳播虛假新聞。
模型的侷限性和偏差
模型侷限性
目前尚未明確。
偏差
該模型存在與Stable Diffusion相同的偏差,請謹慎使用。
訓練
訓練數據
主要使用以下數據和模型對Stable Diffusion進行微調:
- VAE方面:除Danbooru和Danbooru數據集外,遵守日本國內法律的數據共65萬種(通過數據擴充可生成無限數量)。
- U-Net方面:除Danbooru和Danbooru數據集外,遵守日本國內法律的數據共200萬對;合併的模型1個(Open RAIL許可證)。
訓練過程
對Stable Diffusion的VAE和U-Net進行了微調。
- 硬件:RTX 4090, A6000
- 優化器:AdamW
- 梯度累積:1
- 批量大小:1
評估結果
暫無相關信息。
對環境的影響
影響極小。
- 硬件類型:RTX 4090, A6000
- 使用時間(單位:小時):500
- 雲服務提供商:無
- 訓練地點:日本
- 碳排放量:較少
📄 許可證
本模型的許可證是在原CreativeML Open RAIL++-M License的基礎上,除例外情況外,增加了禁止商業使用的條款。增加此條款是因為擔心可能對創作行業產生負面影響。若該擔憂消除,下一版本將恢復原許可證,允許商業使用。原許可證的日語翻譯請見此處。營利企業的用戶請諮詢公司法務部門。個人興趣使用的用戶,只要遵守一般常識,通常無需過於擔心。需注意,根據許可證規定,即使對本模型進行改造,也需繼承此許可證。
本模型在日本開發,因此適用日本法律。模型的訓練基於著作權法第30條之4,主張合法。模型的分發在著作權法和刑法175條的框架下,主張不構成正犯或幫助犯。詳細見解請參考柿沼律師的觀點。但請根據許可證規定,按照各項法律法規處理本模型的生成結果。
不過,作者認為分發本模型在倫理上可能存在問題,因為訓練所使用的著作未獲得作者許可。但在法律上,訓練無需獲得作者許可,與搜索引擎類似,不存在法律問題。因此,請將此分發行為視為兼具調查倫理層面問題的目的。
*此模型卡由Alfred Increment基於 Stable Diffusion v2 編寫。