🚀 酷日本扩散2.1.0测试版模型卡片
酷日本扩散模型是基于Stable Diffusion进行微调的模型,专注于生成动漫、漫画、游戏等具有日本特色风格的图像,为用户带来独特的视觉创作体验。
注意事项

🚀 快速开始
- 若您想轻松体验,在电脑上可直接在右上角的文本框输入内容进行图像生成;在手机上,请返回页面顶部进行操作。
- 详细的模型使用说明请参考使用说明书。
- 您可以从此处下载模型。
✨ 主要特性
学習用Cool Japan Diffusion是对Stable Diffsion进行微调后,专门用于表现动漫、漫画、游戏等酷日本风格的模型,不过与内阁府的酷日本战略并无特别关联。
📦 安装指南
Diffusers库安装
若您使用Diffusers库,可按以下步骤操作:
- 首先执行以下脚本安装相关库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基础用法
本模型的使用方法与Stable Diffusion v2相同,以下为您提供两种使用模式:
Web UI模式
请按照使用说明书进行操作。
Diffusers模式
使用🤗's Diffusers library库,执行以下脚本生成图像:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="low quality, bad face, bad anatomy, bad hand, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt).images[0]
image.save("girl.png")
高级用法
加速建议
- 使用xformers库可加快生成速度。
- 若您的GPU内存较小,可使用
pipe.enable_attention_slicing()
方法。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型类型 |
基于扩散模型的文本到图像生成模型 |
语言 |
日语 |
许可证 |
CreativeML Open RAIL++-M-NC License |
模型说明 |
该模型可根据输入的提示词生成合适的图像,采用的算法为 Latent Diffusion Model 和 OpenCLIP-ViT/H。 |
参考文献 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
预期用途
- 竞赛:可向AI艺术大奖赛投稿,但需公开用于微调的所有数据,并确保符合评审标准,建议提前申请并确认。若您有相关需求,可在Hugging Face社区联系作者。
- 图像生成AI相关报道:无论是公共广播机构还是商业企业均可进行相关报道,因为作者认为获取图像合成AI相关信息的“知情权”不会对创作行业造成负面影响,同时也尊重新闻自由。
- 酷日本文化介绍:向其他国家的人介绍酷日本文化。作者Alfred Increment发现很多外国留学生因酷日本文化来到日本,但常因现实与期望不符而失望,希望大家能更加自豪地展示本国文化。
- 研发:
- 在Discord上使用模型进行提示工程、微调(如DreamBooth等)以及与其他模型合并等操作。
- 研究Latent Diffusion Model与酷日本文化的适配性。
- 使用FID等指标评估本模型的性能。
- 通过校验和或哈希函数等方法验证本模型与Stable Diffusion以外的模型的独立性。
- 教育:可用于美术院校学生或专科学校学生的毕业作品、大学生的毕业论文或课题作业,也可用于教师向学生介绍图像生成AI的现状。
- 自我表达:在社交网络上表达个人情感和想法。
- Hugging Face社区用途:可使用日语或英语在社区提问。
非预期用途
- 避免将生成的内容用于事实性表述。
- 请勿将其用于有收益的YouTube等内容。
- 不得将其作为商业服务直接提供。
- 不要做出让教师为难的行为。
- 避免对创作行业造成负面影响。
禁止使用或恶意使用场景
- 请勿公开数字赝品 (Digital Forgery),尤其是现有角色的赝品,以免违反著作权法。不过,有消息称该模型可以生成未学习过的角色 (此推文仅用于研究目的)。
- 请勿未经授权对他人作品进行图像到图像的转换,以免违反著作权法。
- 不得传播淫秽物品,以免违反刑法175条。
- 不要传播不实信息,以免触犯威力业务妨害罪。
模型局限性和偏差
模型局限性
目前对模型的局限性了解尚不充分。
偏差
本模型存在与Stable Diffusion相同的偏差,请您在使用时注意。
🔧 技术细节
训练数据
- VAE:主要使用了约60万种遵守日本国内法律的数据(通过数据扩充可生成无限数量的样本),排除了Danbooru等未经授权的转载网站的数据。
- U-Net:使用了约40万对遵守日本国内法律的数据,同样排除了Danbooru等未经授权的转载网站的数据。
训练过程
对Stable Diffusion的VAE和U-Net进行了微调,具体参数如下:
- 硬件:RTX 3090
- 优化器:AdamW
- 梯度累积:1
- 批量大小:1
评估结果
暂未提供相关评估结果。
环境影响
本模型对环境的影响极小,具体信息如下:
- 硬件类型:RTX 3090
- 使用时间:300小时
- 云服务提供商:无
- 训练地点:日本
- 碳排放量:较低
📄 许可证
本模型的许可证是在原CreativeML Open RAIL++-M License的基础上,除特殊情况外,增加了禁止商业使用的条款。增加此条款是因为担心可能对创作行业产生负面影响。若该担忧消除,下一版本将恢复原许可证,允许商业使用。原许可证的日语翻译请见此处。建议商业企业的用户咨询法务人员,个人用户在遵循一般常识的情况下使用通常不会有问题。同时,根据许可证规定,改造本模型时需继承该许可证。
法律和伦理说明
本模型在日本开发,因此适用日本法律。作者主张模型的训练基于著作权法第30条之4是合法的,模型的分发也不构成正犯或帮助犯,详细见解可参考柿沼律师的观点。不过,作者认为分发本模型在伦理上存在问题,因为训练时未获得著作权人的许可,但从法律角度看,这与搜索引擎类似,无需获得许可。因此,分发本模型也有调查伦理问题的目的。
本模型卡片由Alfred Increment基于 Stable Diffusion v2 编写。