🚀 Cool Japan Diffusion 2.1.1模型卡
Cool Japan Diffusion 2.1.1是一款基于Stable Diffusion进行微调的模型,专注于生成动漫、漫画、游戏等具有日本特色风格的图像。

⚠️ 重要提示
注意事项。中国将对图像生成的人工智能实施法律限制。 (此为对中国国内人员的警告)
英文版本请见此处。
🚀 快速开始
如果你想轻松体验本模型,可使用此Space。详细的模型使用说明请参考使用说明书。你可以从这里下载模型。
✨ 主要特性
Cool Japan Diffusion是对Stable Diffsion进行微调的模型,专门用于表现动漫、漫画、游戏等日本流行文化元素。不过,它与内阁府的酷日本战略并无特别关联。
📦 安装指南
Diffusers库安装
首先,执行以下脚本安装所需库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基础用法
本模型的使用方法与Stable Diffusion v2相同,这里提供两种使用模式:Web UI和Diffusers。
Web UI模式
请按照此使用说明书进行操作。
Diffusers模式
使用🤗's Diffusers library,执行以下脚本生成图像:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-1"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
💡 使用建议
- 使用 xformers 可加快生成速度。
- 若GPU内存较少,可使用
pipe.enable_attention_slicing()
。
想定用途
- 竞赛:可向 AIアートグランプリ 投稿,但需公开微调所用的全部数据,并确保符合评审标准。如有需求,可在Hugging Face的社区告知作者。
- 图像生成AI报道:无论是公共广播还是营利企业均可使用,因为认为公众对图像合成AI信息的“知情权”不会对创作行业造成负面影响,同时也尊重新闻自由。
- 酷日本文化介绍:向其他国家的人介绍酷日本文化。作者Alfred Increment发现很多外国留学生因酷日本文化来到日本,但常因现实与期望不符而失望,希望大家能更自豪地展示本国令人向往的文化。
- 研发:
- 在Discord上使用模型进行提示工程、微调(如DreamBooth)、与其他模型合并等操作。
- 研究Latent Diffusion Model与酷日本文化的适配性。
- 使用FID等指标评估本模型性能。
- 通过校验和或哈希函数检查本模型与Stable Diffusion以外模型的独立性。
- 教育:可用于美术院校或职业学校学生的毕业作品、大学生的毕业论文或课题作业,也可用于教师向学生介绍图像生成AI的现状。
- 自我表达:在社交媒体上表达个人情感和想法。
- Hugging Face社区用途:可使用日语或英语在社区提问。
非预期用途
- 避免将事物表现为事实。
- 不得用于有收益的YouTube等内容。
- 不能直接作为商业服务提供。
- 不要给老师带来困扰。
- 避免对创作行业造成负面影响。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型类型 |
基于扩散模型的文本到图像生成模型 |
语言 |
日语 |
许可证 |
CreativeML Open RAIL++-M-NC License |
模型说明 |
该模型可根据提示生成合适的图像,算法采用 Latent Diffusion Model 和 OpenCLIP-ViT/H |
参考文献 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
禁止使用或恶意用途
- 请勿公开数字赝品 (Digital Forgery),特别是现有角色的数字赝品,以免违反著作权法。不过,该模型似乎也能生成未学习过的角色 (此推文仅允许用于研究目的)。
- 未经他人许可,不得对其作品进行图像到图像的转换,以免违反著作权法。
- 不得传播淫秽物品,以免违反刑法175条。
- 不要将无事实依据的内容当作事实传播,以免触犯威力业务妨害罪,如发布虚假新闻。
模型的局限性和偏差
模型局限性
目前对模型的局限性了解尚不充分。
偏差
本模型存在与Stable Diffusion相同的偏差,请使用时注意。
训练信息
训练数据
- VAE:使用了约60万种遵守日本国内法律的数据(通过数据增强可生成无限数量的样本),排除了Danbooru等未经授权的转载网站的数据。
- U-Net:使用了100万对遵守日本国内法律的数据,同样排除了Danbooru等未经授权的转载网站的数据。
训练过程
对Stable Diffusion的VAE和U-Net进行了微调。
- 硬件:RTX 3090, A6000
- 优化器:AdamW
- 梯度累积:1
- 批量大小:1
评估结果
暂无相关评估结果。
环境影响
本模型对环境的影响极小。
- 硬件类型:RTX 3090, A6000
- 使用时间(单位:小时):600
- 云服务提供商:无
- 训练地点:日本
- 碳排放量:较低
🔧 技术细节
本模型的算法采用 Latent Diffusion Model 和 OpenCLIP-ViT/H,可根据提示生成合适的图像。
📄 许可证
本模型的许可证是在原CreativeML Open RAIL++-M License的基础上,除特殊情况外,增加了禁止商业使用的条款。增加该条款是因为担心可能对创作行业产生负面影响。若该担忧消除,下一版本将恢复原许可证,允许商业使用。原许可证的日语翻译可参考此处。营利企业的使用者请与法务部门人员协商。个人兴趣使用的用户,只要遵守一般常识,通常无需过于担心。此外,根据许可证规定,改造本模型时需继承此许可证。
*此模型卡由Alfred Increment基于 Stable Diffusion v2 编写。