🚀 酷日本擴散2.1.0模型卡片
酷日本擴散2.1.0模型是基於Stable Diffusion進行微調的模型,專注於呈現動漫、漫畫、遊戲等酷日本風格的圖像生成,為相關創作和研究提供了有力支持。

⚠️ 重要提示
注意事項。從2023年1月10日起,中國將對圖像生成的人工智能實施法律限制。 (此為對中國國內用戶的警告)
英文版本請見這裡。
🚀 快速開始
手軽に楽しみたい方は、こちらのSpaceをお使いください。
詳しい本モデルの取り扱い方はこちらの取扱説明書にかかれています。
モデルはここからダウンロードできます。
✨ 主要特性
Cool Japan Diffusion (for learning) 是對Stable Diffsion進行微調後,專門用於表現動漫、漫畫、遊戲等酷日本風格的模型。不過,它與內閣府的酷日本戰略並無特別關聯。
📦 安裝指南
Diffusers安裝
首先,執行以下腳本安裝所需庫:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基礎用法
使用Diffusers庫生成圖像的示例代碼如下:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="low quality, bad face, bad anatomy, bad hand, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt).images[0]
image.save("girl.png")
💡 使用建議
- xformers を使うと早くなるらしいです。
- GPUを使う際にGPUのメモリが少ない人は
pipe.enable_attention_slicing()
を使ってください。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型類型 |
基於擴散模型的文本到圖像生成模型 |
語言 |
日本語 |
許可證 |
CreativeML Open RAIL++-M-NC License |
模型說明 |
該模型能夠根據提示生成合適的圖像。算法採用 Latent Diffusion Model 和 OpenCLIP-ViT/H |
參考文獻 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
模型使用場景
預期用途
- 競賽:可向 AIアートグランプリ 投稿,但需公開微調所用的所有數據,並確保符合審查標準,提前申請並獲得確認。如有需求,可在Hugging Face的社區等渠道告知作者。
- 圖像生成AI相關報道:無論是公共廣播還是營利企業都可以進行相關報道,因為認為圖像合成AI的信息“知情權”不會對創作界造成負面影響,同時尊重報道自由。
- 酷日本介紹:向其他國家的人介紹酷日本的概念。很多外國留學生因酷日本而來到日本,但常常會因發現日本的酷日本形象與預期不符而感到失望,希望大家能更加自豪地展示本國文化。
- 研發:可在Discord上使用該模型進行提示工程、微調(如DreamBooth等)、與其他模型合併等操作;研究Latent Diffusion Model與酷日本的適配性;使用FID等評估模型性能;通過校驗和或哈希函數檢查該模型是否獨立於Stable Diffusion以外的模型。
- 教育:可用於美術生、專科學校學生的畢業作品,大學生的畢業論文或課題製作,以及教師向學生介紹圖像生成AI的現狀。
- 自我表達:在SNS上表達自己的情感和想法。
- Hugging Face社區用途:可使用日語或英語在社區提問。
非預期用途
- 不應用於將事物表述為事實的場景。
- 不得用於有收益的YouTube等內容。
- 不能直接作為商業服務提供。
- 不應給教師帶來困擾。
- 避免對創作界造成負面影響。
禁止使用場景
- 請勿公開數字贗品 (Digital Forgery),否則可能違反著作權法。尤其不要公開現有角色的生成圖像,不過 未學習過的角色也能生成(此推文僅用於研究目的)。
- 請勿未經他人許可對其作品進行Image-to-Image操作,否則可能違反著作權法。
- 請勿傳播淫穢物品,否則可能違反刑法175條。同時要遵守行業規範。
- 不要將沒有事實依據的事情當作事實來講述,否則可能適用威力業務妨害罪,即避免傳播虛假新聞。
模型的侷限性和偏差
模型侷限性
目前不太明確。
偏差
該模型存在與Stable Diffusion相同的偏差,請使用者注意。
訓練信息
訓練數據
主要使用以下數據對Stable Diffusion進行微調:
- VAE:排除Danbooru等未經授權轉載網站的數據,遵守日本國內法律的數據,共60萬種(通過數據增強可生成無限張圖像)。
- U-Net:排除Danbooru等未經授權轉載網站的數據,遵守日本國內法律的數據,共80萬對。
訓練過程
對Stable Diffusion的VAE和U-Net進行了微調。
- 硬件:RTX 3090
- 優化器:AdamW
- 梯度累積:1
- 批量大小:1
評估結果
暫未提供相關評估結果。
環境影響
該模型對環境的影響極小。
- 硬件類型:RTX 3090
- 使用時間(單位:小時):300
- 雲服務提供商:無
- 訓練地點:日本
- 碳排放量:較少
🔧 技術細節
本模型在日本開發,因此適用日本法律。作者主張該模型的訓練基於著作權法第30條之4是合法的,並且模型的分發在著作權法和刑法175條的框架下,不構成正犯或幫助犯。詳細見解可參考柿沼弁護士的 觀點。
不過,作者認為分發該模型在倫理上可能存在問題,因為訓練所用的作品未獲得作者許可。但在法律上,訓練並不需要作者許可,與搜索引擎類似,在法律上沒有問題。因此,此次分發也有調查倫理方面問題的目的。
📄 許可證
本模型的許可證是在原許可證CreativeML Open RAIL++-M License的基礎上,除例外情況外,增加了禁止商業使用的條款。增加該條款是出於對可能對創作界造成負面影響的擔憂。如果這種擔憂消除,從下一版本開始將恢復原許可證,允許商業使用。原許可證的日語翻譯可參考 這裡。
營利企業的用戶請與法務部門人員協商。個人興趣使用的用戶,只要遵守一般常識,通常無需過於擔心。此外,根據許可證規定,改造該模型後仍需繼承此許可證。
*此模型卡片由Alfred Increment基於 Stable Diffusion v2 編寫。