🚀 酷日本扩散2.1.2模型卡片
酷日本扩散(Cool Japan Diffusion)是一款对Stable Diffusion进行微调的模型,专注于呈现动漫、漫画、游戏等酷日本风格的内容。不过,它与内阁府的酷日本战略并无特别关联。
🚀 快速开始
若您想轻松体验该模型,可使用此Space。
关于本模型的详细使用方法,请参考此使用说明书。
您可以从这里下载模型。
✨ 主要特性
本模型是基于扩散模型的文本到图像生成模型,可根据输入的提示词生成合适的图像。其算法采用了 Latent Diffusion Model 与 OpenCLIP-ViT/H。
📦 安装指南
使用Diffusers库
首先,执行以下脚本安装所需库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基础用法
使用 🤗's Diffusers library 生成图像的示例代码如下:
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-2"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float32)
pipe = pipe.to("cuda")
prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")
高级用法
⚠️ 重要提示
- 使用 xformers 可提高生成速度。
- 使用GPU时,若显存较小,可使用
pipe.enable_attention_slicing()
。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach、Patrick Esser、Alfred Increment |
模型类型 |
基于扩散模型的文本到图像生成模型 |
语言 |
日语 |
许可证 |
CreativeML Open RAIL++-M-NC License |
模型说明 |
该模型可根据提示词生成合适的图像,算法采用 Latent Diffusion Model 与 OpenCLIP-ViT/H |
预期用途
- 图像生成AI相关报道:不仅适用于公共广播,营利企业也可使用。因为认为公众“了解”图像合成AI相关信息的权利不会对创作行业造成负面影响,同时也尊重新闻自由。
- 酷日本介绍:向其他国家的人解释酷日本的含义。Alfred Increment 发现很多外国留学生因被酷日本吸引而来日本,但常因发现日本的酷日本与想象不同而失望,希望大家能更自豪地展示本国文化。
- 研发:
- Discord上的模型使用:包括提示工程、微调(如DreamBooth等)、与其他模型合并。
- Latent Diffusion Model与酷日本的适配性。
- 通过FID等评估本模型性能。
- 通过校验和或哈希函数检查本模型与Stable Diffusion以外模型的独立性。
- 教育:
- 美术院校或专业学校学生的毕业作品。
- 大学生的毕业论文或课题作品。
- 教师传授图像生成AI现状。
- 自我表达:在SNS上表达个人情感和想法。
- Hugging Face社区提及的用途:请使用日语或英语提问。
非预期用途
- 将事物表述为事实。
- 用于有收益的YouTube等内容。
- 直接作为商业服务提供。
- 给教师带来困扰。
- 其他对创作行业有负面影响的行为。
禁止使用或恶意用途
- 请勿公开数字赝品 (Digital Forgery):可能违反著作权法。
- 请勿未经授权对他人作品进行图像到图像转换:可能违反著作权法。
- 请勿传播淫秽物品:可能违反刑法175条。
- 请勿将无事实依据的事情当作事实讲述:可能适用威力业务妨害罪。
🔧 技术细节
训练数据
- VAE:使用除Danbooru和Danbooru数据集外,遵守日本国内法的数据,共65万种(通过数据增强可生成无限张)。
- U-Net:使用除Danbooru和Danbooru数据集外,遵守日本国内法的数据,共200万对;合并了3个模型。
训练过程
对Stable Diffusion的VAE和U-Net进行了微调。
- 硬件:A6000
- 优化器:AdamW
- 梯度累积:1
- 批量大小:1
评估结果
暂无相关评估结果。
环境影响
- 硬件类型:A6000
- 使用时间(单位:小时):200
- 云服务提供商:无
- 训练地点:日本
- 碳排放量:较少
📄 许可证
本模型的许可证是在原CreativeML Open RAIL++-M License基础上,除例外情况外增加了商用禁止条款。增加商用禁止条款是出于对可能给创作行业带来负面影响的担忧。若此担忧消除,下一版本将恢复原许可证,允许商用。原许可证的日语翻译可参考这里。营利企业的人员请与法务部门人员协商。个人兴趣使用的用户,只要遵守一般常识,无需过于担心。此外,根据许可证规定,改造此模型时需继承该许可证。
法律和伦理说明
本模型在日本开发,因此适用日本法律。本模型的训练基于著作权法第30条之4,主张合法。关于模型的分发,认为不构成正犯或帮助犯,详情可参考柿沼律师的见解。但请根据许可证规定,按照各种法令处理本模型的生成结果。
不过,作者认为分发本模型在伦理上可能存在问题,因为训练数据未获得著作权人的许可。但在法律上,训练无需获得著作权人许可,与搜索引擎类似,不存在法律问题。因此,请将本分发也视为对伦理方面进行调查的目的。
参考文献
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
本模型卡片由Alfred Increment基于 Stable Diffusion v2 编写。