🚀 酷日本擴散2.1.2模型卡片
酷日本擴散(Cool Japan Diffusion)是一款對Stable Diffusion進行微調的模型,專注於呈現動漫、漫畫、遊戲等酷日本風格的內容。不過,它與內閣府的酷日本戰略並無特別關聯。
🚀 快速開始
若您想輕鬆體驗該模型,可使用此Space。
關於本模型的詳細使用方法,請參考此使用說明書。
您可以從這裡下載模型。
✨ 主要特性
本模型是基於擴散模型的文本到圖像生成模型,可根據輸入的提示詞生成合適的圖像。其算法採用了 Latent Diffusion Model 與 OpenCLIP-ViT/H。
📦 安裝指南
使用Diffusers庫
首先,執行以下腳本安裝所需庫:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基礎用法
使用 🤗's Diffusers library 生成圖像的示例代碼如下:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-2"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float32)
pipe = pipe.to("cuda")
prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
高級用法
⚠️ 重要提示
- 使用 xformers 可提高生成速度。
- 使用GPU時,若顯存較小,可使用
pipe.enable_attention_slicing()
。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach、Patrick Esser、Alfred Increment |
模型類型 |
基於擴散模型的文本到圖像生成模型 |
語言 |
日語 |
許可證 |
CreativeML Open RAIL++-M-NC License |
模型說明 |
該模型可根據提示詞生成合適的圖像,算法採用 Latent Diffusion Model 與 OpenCLIP-ViT/H |
預期用途
- 圖像生成AI相關報道:不僅適用於公共廣播,營利企業也可使用。因為認為公眾“瞭解”圖像合成AI相關信息的權利不會對創作行業造成負面影響,同時也尊重新聞自由。
- 酷日本介紹:向其他國家的人解釋酷日本的含義。Alfred Increment 發現很多外國留學生因被酷日本吸引而來日本,但常因發現日本的酷日本與想象不同而失望,希望大家能更自豪地展示本國文化。
- 研發:
- Discord上的模型使用:包括提示工程、微調(如DreamBooth等)、與其他模型合併。
- Latent Diffusion Model與酷日本的適配性。
- 通過FID等評估本模型性能。
- 通過校驗和或哈希函數檢查本模型與Stable Diffusion以外模型的獨立性。
- 教育:
- 美術院校或專業學校學生的畢業作品。
- 大學生的畢業論文或課題作品。
- 教師傳授圖像生成AI現狀。
- 自我表達:在SNS上表達個人情感和想法。
- Hugging Face社區提及的用途:請使用日語或英語提問。
非預期用途
- 將事物表述為事實。
- 用於有收益的YouTube等內容。
- 直接作為商業服務提供。
- 給教師帶來困擾。
- 其他對創作行業有負面影響的行為。
禁止使用或惡意用途
- 請勿公開數字贗品 (Digital Forgery):可能違反著作權法。
- 請勿未經授權對他人作品進行圖像到圖像轉換:可能違反著作權法。
- 請勿傳播淫穢物品:可能違反刑法175條。
- 請勿將無事實依據的事情當作事實講述:可能適用威力業務妨害罪。
🔧 技術細節
訓練數據
- VAE:使用除Danbooru和Danbooru數據集外,遵守日本國內法的數據,共65萬種(通過數據增強可生成無限張)。
- U-Net:使用除Danbooru和Danbooru數據集外,遵守日本國內法的數據,共200萬對;合併了3個模型。
訓練過程
對Stable Diffusion的VAE和U-Net進行了微調。
- 硬件:A6000
- 優化器:AdamW
- 梯度累積:1
- 批量大小:1
評估結果
暫無相關評估結果。
環境影響
- 硬件類型:A6000
- 使用時間(單位:小時):200
- 雲服務提供商:無
- 訓練地點:日本
- 碳排放量:較少
📄 許可證
本模型的許可證是在原CreativeML Open RAIL++-M License基礎上,除例外情況外增加了商用禁止條款。增加商用禁止條款是出於對可能給創作行業帶來負面影響的擔憂。若此擔憂消除,下一版本將恢復原許可證,允許商用。原許可證的日語翻譯可參考這裡。營利企業的人員請與法務部門人員協商。個人興趣使用的用戶,只要遵守一般常識,無需過於擔心。此外,根據許可證規定,改造此模型時需繼承該許可證。
法律和倫理說明
本模型在日本開發,因此適用日本法律。本模型的訓練基於著作權法第30條之4,主張合法。關於模型的分發,認為不構成正犯或幫助犯,詳情可參考柿沼律師的見解。但請根據許可證規定,按照各種法令處理本模型的生成結果。
不過,作者認為分發本模型在倫理上可能存在問題,因為訓練數據未獲得著作權人的許可。但在法律上,訓練無需獲得著作權人許可,與搜索引擎類似,不存在法律問題。因此,請將本分發也視為對倫理方面進行調查的目的。
參考文獻
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡片由Alfred Increment基於 Stable Diffusion v2 編寫。