🚀 学习用Cool Japan Diffusion 2.0模型卡
学习用Cool Japan Diffusion是对Stable Diffusion进行微调后,专门用于插画的模型。它原本是为了训练名为Cool Japan Diffusion的扩散模型而创建的,但由于一些原因,此次紧急提供。需要注意的是,该模型与内阁府的酷日本战略并无特别关联。
🚀 快速开始
- 若您想轻松体验,可在右侧的文本框中输入内容进行图像生成。也可以在F君创建的Space中进行尝试。
- 若您想深入使用,请先阅读上述注意事项,然后参考这篇文章。使用教程可查看此处。
✨ 主要特性
学习用Cool Japan Diffusion是对Stable Diffusion进行微调,专为插画设计的模型。它能根据输入的提示词生成合适的图像,算法采用了 Latent Diffusion Model 和 OpenCLIP-ViT/H。
📦 安装指南
若您使用Diffusers库,可按以下步骤操作:
- 首先,执行以下脚本安装所需库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基础用法
以下是使用Diffusers库生成图像的示例代码:
from diffusers import StableDiffusionPipeline
import torch
model_id = "alfredplpl/cool-japan-diffusion-for-learning-2-0"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a beautuful girl with black hair and red eyes, kimono, 4k, detailed"
image = pipe(prompt, height=512, width=512).images[0]
image.save("girl.png")
高级用法
- 加速技巧:使用 xformers 可加快生成速度。
- 显存不足处理:若使用GPU时显存不足,可使用
pipe.enable_attention_slicing()
。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型类型 |
基于扩散模型的文本到图像生成模型 |
语言 |
日语 |
许可证 |
CreativeML Open RAIL++-M-NC License |
模型说明 |
该模型可根据提示词生成合适的图像,算法为 Latent Diffusion Model 和 OpenCLIP-ViT/H。 |
参考文献 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
模型的使用场景
预期用途
- 竞赛:可向 AIアートグランプリ 投稿,但需公开用于微调的所有数据,并确保符合审查标准,提前申请并获取确认。若有相关需求,可在Hugging Face的社区告知作者。
- 图像生成AI报道:无论是公共广播还是营利企业均可使用。因为认为公众有“了解”图像合成AI信息的权利,且尊重报道自由。
- 酷日本介绍:向其他国家的人介绍酷日本。Alfred Increment认为很多外国留学生因酷日本而来到日本,但常因发现日本的酷日本与想象不同而失望,希望大家更自豪地展示本国文化。
- 研发:可在Discord上使用该模型进行提示工程、微调(如DreamBooth)、与其他模型合并等操作;研究Latent Diffusion Model与酷日本的契合度;使用FID等指标检查模型性能;使用校验和或哈希函数检查模型是否独立于Stable Diffusion以外的模型。
- 教育:可用于美术生、专科学校学生的毕业作品,大学生的毕业论文或课题制作,教师也可用于介绍图像生成AI的现状。
- 自我表达:在社交媒体上表达自己的情感和想法。
- Hugging Face社区用途:可使用日语或英语提问。
非预期用途
- 不应用于将事物表述为事实的场景。
- 不得用于有收益的YouTube等内容。
- 不能直接作为商业服务提供。
- 不应给老师带来困扰。
- 避免对创作行业产生负面影响。
禁止使用或恶意用途
- 请勿公开数字赝品 (Digital Forgery),尤其是现有角色的赝品,以免违反著作权法。
- 不得未经授权对他人作品进行图像到图像的转换,以免违反著作权法。
- 禁止传播淫秽物品,以免违反刑法175条。
- 不要传播没有事实依据的内容,以免触犯威力业务妨害罪。
模型的局限性和偏差
模型局限性
目前尚未明确。
偏差
该模型存在与Stable Diffusion相同的偏差,例如女性图像更容易生成美观的结果,而男性图像则较难;有报告显示,生成人物的地点可能会导致人种偏差;也有报告称,尽管该模型专注于插画,但根据提示词也可能生成类似实拍的图像,请谨慎使用。
学习情况
学习数据
主要使用Twitter上发布的约20万张插画和漫画图像(通过Twitter API获取)对Stable Diffusion进行微调。
学习过程
对Stable Diffusion的VAE和U-Net进行了微调。
- 硬件:RTX 3090
- 优化器:AdamW
- 梯度累积:1
- 批量大小:1
评估结果
CLIP Score
CLIP Score越高,表明模型根据提示词生成图像的能力越强。根据 Izumi Satoshi 的 报告,结果如下:
不过,根据 条件报告,本模型的测试条件可能更有利,请谨慎参考。
FID, DaFID - 512
FID越低,表明两个数据集在图像识别方面越相似。DaFID - 512是FID中专门针对二维插画的指标。根据Birdman的 报告,将 High Resolution Anime Face Dataset 与各模型生成的1万张图像进行比较,结果如下:

环境影响
该模型对环境的影响极小。
- 硬件类型:RTX 3090
- 使用时间:300小时
- 云服务提供商:无
- 学习地点:日本
- 碳排放量:较少
🔧 技术细节
本模型是对Stable Diffusion进行微调得到的,主要微调了其VAE和U-Net部分。学习数据主要来自Twitter上的插画和漫画图像,使用AdamW优化器,梯度累积为1,批量大小为1。在评估方面,使用了CLIP Score、FID和DaFID - 512等指标。
📄 许可证
本模型的许可证是在原许可证CreativeML Open RAIL++ - M License的基础上,除例外情况外,增加了禁止商业使用的条款。增加此条款是因为担心可能对创作行业产生负面影响。若此担忧消除,下一个版本将恢复原许可证,允许商业使用。原许可证的日语翻译可查看此处。营利企业的用户请咨询法务人员,个人兴趣使用的用户遵循一般常识即可。同时,根据许可证规定,改造此模型时需继承该许可证。
⚠️ 重要提示
从2023年1月10日起,中国将对图像生成的人工智能实施法律限制。详情请见相关链接 。本模型主要面向日本用户发布,文档最初为日语编写,后续将在获得日本用户共识后翻译成英文供其他国家使用。本模型在日本创建,适用日本法律,模型学习基于著作权法第30条之4主张合法,模型分发不构成正犯或帮助犯,具体见解可参考柿沼律师的观点。但模型生成的内容需遵守各种法律法规。
💡 使用建议
使用时请遵循模型的预期用途,避免用于非预期用途和禁止使用的场景。在使用Diffusers库时,可根据自身情况选择是否使用xformers加速或处理显存不足的问题。在参与竞赛或进行报道等活动时,务必遵守相关规定和流程。