🚀 酷日本擴散2.1.0測試版模型卡片
酷日本擴散模型是基於Stable Diffusion進行微調的模型,專注於生成動漫、漫畫、遊戲等具有日本特色風格的圖像,為用戶帶來獨特的視覺創作體驗。
注意事項

🚀 快速開始
- 若您想輕鬆體驗,在電腦上可直接在右上角的文本框輸入內容進行圖像生成;在手機上,請返回頁面頂部進行操作。
- 詳細的模型使用說明請參考使用說明書。
- 您可以從此處下載模型。
✨ 主要特性
學習用Cool Japan Diffusion是對Stable Diffsion進行微調後,專門用於表現動漫、漫畫、遊戲等酷日本風格的模型,不過與內閣府的酷日本戰略並無特別關聯。
📦 安裝指南
Diffusers庫安裝
若您使用Diffusers庫,可按以下步驟操作:
- 首先執行以下腳本安裝相關庫:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基礎用法
本模型的使用方法與Stable Diffusion v2相同,以下為您提供兩種使用模式:
Web UI模式
請按照使用說明書進行操作。
Diffusers模式
使用🤗's Diffusers library庫,執行以下腳本生成圖像:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="low quality, bad face, bad anatomy, bad hand, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt).images[0]
image.save("girl.png")
高級用法
加速建議
- 使用xformers庫可加快生成速度。
- 若您的GPU內存較小,可使用
pipe.enable_attention_slicing()
方法。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型類型 |
基於擴散模型的文本到圖像生成模型 |
語言 |
日語 |
許可證 |
CreativeML Open RAIL++-M-NC License |
模型說明 |
該模型可根據輸入的提示詞生成合適的圖像,採用的算法為 Latent Diffusion Model 和 OpenCLIP-ViT/H。 |
參考文獻 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
預期用途
- 競賽:可向AI藝術大獎賽投稿,但需公開用於微調的所有數據,並確保符合評審標準,建議提前申請並確認。若您有相關需求,可在Hugging Face社區聯繫作者。
- 圖像生成AI相關報道:無論是公共廣播機構還是商業企業均可進行相關報道,因為作者認為獲取圖像合成AI相關信息的“知情權”不會對創作行業造成負面影響,同時也尊重新聞自由。
- 酷日本文化介紹:向其他國家的人介紹酷日本文化。作者Alfred Increment發現很多外國留學生因酷日本文化來到日本,但常因現實與期望不符而失望,希望大家能更加自豪地展示本國文化。
- 研發:
- 在Discord上使用模型進行提示工程、微調(如DreamBooth等)以及與其他模型合併等操作。
- 研究Latent Diffusion Model與酷日本文化的適配性。
- 使用FID等指標評估本模型的性能。
- 通過校驗和或哈希函數等方法驗證本模型與Stable Diffusion以外的模型的獨立性。
- 教育:可用於美術院校學生或專科學校學生的畢業作品、大學生的畢業論文或課題作業,也可用於教師向學生介紹圖像生成AI的現狀。
- 自我表達:在社交網絡上表達個人情感和想法。
- Hugging Face社區用途:可使用日語或英語在社區提問。
非預期用途
- 避免將生成的內容用於事實性表述。
- 請勿將其用於有收益的YouTube等內容。
- 不得將其作為商業服務直接提供。
- 不要做出讓教師為難的行為。
- 避免對創作行業造成負面影響。
禁止使用或惡意使用場景
- 請勿公開數字贗品 (Digital Forgery),尤其是現有角色的贗品,以免違反著作權法。不過,有消息稱該模型可以生成未學習過的角色 (此推文僅用於研究目的)。
- 請勿未經授權對他人作品進行圖像到圖像的轉換,以免違反著作權法。
- 不得傳播淫穢物品,以免違反刑法175條。
- 不要傳播不實信息,以免觸犯威力業務妨害罪。
模型侷限性和偏差
模型侷限性
目前對模型的侷限性瞭解尚不充分。
偏差
本模型存在與Stable Diffusion相同的偏差,請您在使用時注意。
🔧 技術細節
訓練數據
- VAE:主要使用了約60萬種遵守日本國內法律的數據(通過數據擴充可生成無限數量的樣本),排除了Danbooru等未經授權的轉載網站的數據。
- U-Net:使用了約40萬對遵守日本國內法律的數據,同樣排除了Danbooru等未經授權的轉載網站的數據。
訓練過程
對Stable Diffusion的VAE和U-Net進行了微調,具體參數如下:
- 硬件:RTX 3090
- 優化器:AdamW
- 梯度累積:1
- 批量大小:1
評估結果
暫未提供相關評估結果。
環境影響
本模型對環境的影響極小,具體信息如下:
- 硬件類型:RTX 3090
- 使用時間:300小時
- 雲服務提供商:無
- 訓練地點:日本
- 碳排放量:較低
📄 許可證
本模型的許可證是在原CreativeML Open RAIL++-M License的基礎上,除特殊情況外,增加了禁止商業使用的條款。增加此條款是因為擔心可能對創作行業產生負面影響。若該擔憂消除,下一版本將恢復原許可證,允許商業使用。原許可證的日語翻譯請見此處。建議商業企業的用戶諮詢法務人員,個人用戶在遵循一般常識的情況下使用通常不會有問題。同時,根據許可證規定,改造本模型時需繼承該許可證。
法律和倫理說明
本模型在日本開發,因此適用日本法律。作者主張模型的訓練基於著作權法第30條之4是合法的,模型的分發也不構成正犯或幫助犯,詳細見解可參考柿沼律師的觀點。不過,作者認為分發本模型在倫理上存在問題,因為訓練時未獲得著作權人的許可,但從法律角度看,這與搜索引擎類似,無需獲得許可。因此,分發本模型也有調查倫理問題的目的。
本模型卡片由Alfred Increment基於 Stable Diffusion v2 編寫。