🚀 Cool Japan Diffusion 2.1.2 Beta模型卡
Cool Japan Diffusion 2.1.2 Beta是一个经过专门优化的模型,它基于Stable Diffusion进行微调,专注于呈现动漫、漫画和游戏等领域的日本流行文化元素,为用户带来独特的图像生成体验。

⚠️ 重要提示
注意事项。中国将对图像生成的人工智能实施法律限制。 (此为对中国国内用户的警告)
英文版本请见此处。
🚀 快速开始
若您想轻松体验该模型,可访问此空间。若您想详细了解模型的使用方法,请查阅使用说明书。您可以从这里下载模型。
✨ 主要特性
Cool Japan Diffusion是对Stable Diffsion进行微调的模型,专门用于表现动漫、漫画、游戏等领域的日本流行文化元素。不过,它与内阁府的酷日本战略并无特别关联。
📦 安装指南
Diffusers方式
若您选择使用 🤗's Diffusers library,请按以下步骤操作:
首先,执行以下脚本安装相关库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基础用法
若使用Diffusers库,可运行以下脚本生成图像:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-2-beta"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float32)
pipe = pipe.to("cuda")
prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
⚠️ 重要提示
- 使用 xformers 可能会提升运行速度。
- 若您的GPU内存较小,在使用GPU时可使用
pipe.enable_attention_slicing()
。
Web UI方式
建议您安装xformers并开启 --xformers --disable-nan-check
选项。若未安装,可开启 --no-half
选项。请按照使用说明书进行操作。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型类型 |
基于扩散模型的文本到图像生成模型 |
语言 |
日语 |
许可证 |
CreativeML Open RAIL++-M-NC License |
模型说明 |
该模型可根据提示生成合适的图像。算法采用 Latent Diffusion Model 和 OpenCLIP-ViT/H。 |
参考文献 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
预期用途
- 竞赛:可投稿至 AIアートグランプリ,需披露微调所用的所有数据,并确保符合评审标准。如有需求,可在Hugging Face的社区中告知作者。
- 图像生成AI相关报道:无论是公共广播机构还是营利性企业均可使用,因为认为公众对图像合成AI信息的“知情权”不会对创作行业造成负面影响,同时也尊重新闻自由。
- 酷日本文化介绍:向其他国家的人介绍酷日本文化。Alfred Increment发现许多外国留学生因被酷日本文化吸引而来日本,但常因发现日本的酷日本文化与想象不同而感到失望,因此希望大家能更自豪地展示本国文化。
- 研发
- Discord上的模型使用:包括提示工程、微调(如DreamBooth等)、与其他模型合并等。
- 研究Latent Diffusion Model与酷日本文化的契合度。
- 使用FID等指标评估本模型的性能。
- 使用校验和或哈希函数检查本模型与Stable Diffusion以外模型的独立性。
- 教育:可用于美术院校学生或专科学校学生的毕业设计、大学生的毕业论文或课题作业,也可用于教师向学生介绍图像生成AI的现状。
- 自我表达:在社交媒体上表达个人情感和想法。
- Hugging Face社区中提及的用途:请使用日语或英语提问。
非预期用途
- 以事实的方式表达事物。
- 在已盈利的YouTube等内容中使用。
- 直接作为商业服务提供。
- 给教师带来困扰。
- 对创作行业造成负面影响的其他行为。
禁止使用或恶意使用的情况
- 请勿公开数字赝品 (Digital Forgery),否则可能违反著作权法。尤其不要公开现有角色的相关内容,因为也可能违反著作权法。不过,该模型似乎可以生成未学习过的角色(此推文仅用于研究目的)。
- 请勿未经他人许可对其作品进行图像到图像的转换,否则可能违反著作权法。
- 请勿传播淫秽物品,否则可能违反刑法175条。
- 请勿将非事实内容当作事实传播,否则可能构成威力业务妨害罪,如传播虚假新闻。
模型的局限性和偏差
模型局限性
目前尚未明确。
偏差
该模型存在与Stable Diffusion相同的偏差,请谨慎使用。
训练
训练数据
主要使用以下数据和模型对Stable Diffusion进行微调:
- VAE方面:除Danbooru和Danbooru数据集外,遵守日本国内法律的数据共65万种(通过数据扩充可生成无限数量)。
- U-Net方面:除Danbooru和Danbooru数据集外,遵守日本国内法律的数据共200万对;合并的模型1个(Open RAIL许可证)。
训练过程
对Stable Diffusion的VAE和U-Net进行了微调。
- 硬件:RTX 4090, A6000
- 优化器:AdamW
- 梯度累积:1
- 批量大小:1
评估结果
暂无相关信息。
对环境的影响
影响极小。
- 硬件类型:RTX 4090, A6000
- 使用时间(单位:小时):500
- 云服务提供商:无
- 训练地点:日本
- 碳排放量:较少
📄 许可证
本模型的许可证是在原CreativeML Open RAIL++-M License的基础上,除例外情况外,增加了禁止商业使用的条款。增加此条款是因为担心可能对创作行业产生负面影响。若该担忧消除,下一版本将恢复原许可证,允许商业使用。原许可证的日语翻译请见此处。营利企业的用户请咨询公司法务部门。个人兴趣使用的用户,只要遵守一般常识,通常无需过于担心。需注意,根据许可证规定,即使对本模型进行改造,也需继承此许可证。
本模型在日本开发,因此适用日本法律。模型的训练基于著作权法第30条之4,主张合法。模型的分发在著作权法和刑法175条的框架下,主张不构成正犯或帮助犯。详细见解请参考柿沼律师的观点。但请根据许可证规定,按照各项法律法规处理本模型的生成结果。
不过,作者认为分发本模型在伦理上可能存在问题,因为训练所使用的著作未获得作者许可。但在法律上,训练无需获得作者许可,与搜索引擎类似,不存在法律问题。因此,请将此分发行为视为兼具调查伦理层面问题的目的。
*此模型卡由Alfred Increment基于 Stable Diffusion v2 编写。