🚀 酷日本扩散2.1.0模型卡片
酷日本扩散2.1.0模型是基于Stable Diffusion进行微调的模型,专注于呈现动漫、漫画、游戏等酷日本风格的图像生成,为相关创作和研究提供了有力支持。

⚠️ 重要提示
注意事项。从2023年1月10日起,中国将对图像生成的人工智能实施法律限制。 (此为对中国国内用户的警告)
英文版本请见这里。
🚀 快速开始
手軽に楽しみたい方は、こちらのSpaceをお使いください。
詳しい本モデルの取り扱い方はこちらの取扱説明書にかかれています。
モデルはここからダウンロードできます。
✨ 主要特性
Cool Japan Diffusion (for learning) 是对Stable Diffsion进行微调后,专门用于表现动漫、漫画、游戏等酷日本风格的模型。不过,它与内阁府的酷日本战略并无特别关联。
📦 安装指南
Diffusers安装
首先,执行以下脚本安装所需库:
pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
💻 使用示例
基础用法
使用Diffusers库生成图像的示例代码如下:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "aipicasso/cool-japan-diffusion-2-1-0-beta"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="low quality, bad face, bad anatomy, bad hand, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt).images[0]
image.save("girl.png")
💡 使用建议
- xformers を使うと早くなるらしいです。
- GPUを使う際にGPUのメモリが少ない人は
pipe.enable_attention_slicing()
を使ってください。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach, Patrick Esser, Alfred Increment |
模型类型 |
基于扩散模型的文本到图像生成模型 |
语言 |
日本語 |
许可证 |
CreativeML Open RAIL++-M-NC License |
模型说明 |
该模型能够根据提示生成合适的图像。算法采用 Latent Diffusion Model 和 OpenCLIP-ViT/H |
参考文献 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
模型使用场景
预期用途
- 竞赛:可向 AIアートグランプリ 投稿,但需公开微调所用的所有数据,并确保符合审查标准,提前申请并获得确认。如有需求,可在Hugging Face的社区等渠道告知作者。
- 图像生成AI相关报道:无论是公共广播还是营利企业都可以进行相关报道,因为认为图像合成AI的信息“知情权”不会对创作界造成负面影响,同时尊重报道自由。
- 酷日本介绍:向其他国家的人介绍酷日本的概念。很多外国留学生因酷日本而来到日本,但常常会因发现日本的酷日本形象与预期不符而感到失望,希望大家能更加自豪地展示本国文化。
- 研发:可在Discord上使用该模型进行提示工程、微调(如DreamBooth等)、与其他模型合并等操作;研究Latent Diffusion Model与酷日本的适配性;使用FID等评估模型性能;通过校验和或哈希函数检查该模型是否独立于Stable Diffusion以外的模型。
- 教育:可用于美术生、专科学校学生的毕业作品,大学生的毕业论文或课题制作,以及教师向学生介绍图像生成AI的现状。
- 自我表达:在SNS上表达自己的情感和想法。
- Hugging Face社区用途:可使用日语或英语在社区提问。
非预期用途
- 不应用于将事物表述为事实的场景。
- 不得用于有收益的YouTube等内容。
- 不能直接作为商业服务提供。
- 不应给教师带来困扰。
- 避免对创作界造成负面影响。
禁止使用场景
- 请勿公开数字赝品 (Digital Forgery),否则可能违反著作权法。尤其不要公开现有角色的生成图像,不过 未学习过的角色也能生成(此推文仅用于研究目的)。
- 请勿未经他人许可对其作品进行Image-to-Image操作,否则可能违反著作权法。
- 请勿传播淫秽物品,否则可能违反刑法175条。同时要遵守行业规范。
- 不要将没有事实依据的事情当作事实来讲述,否则可能适用威力业务妨害罪,即避免传播虚假新闻。
模型的局限性和偏差
模型局限性
目前不太明确。
偏差
该模型存在与Stable Diffusion相同的偏差,请使用者注意。
训练信息
训练数据
主要使用以下数据对Stable Diffusion进行微调:
- VAE:排除Danbooru等未经授权转载网站的数据,遵守日本国内法律的数据,共60万种(通过数据增强可生成无限张图像)。
- U-Net:排除Danbooru等未经授权转载网站的数据,遵守日本国内法律的数据,共80万对。
训练过程
对Stable Diffusion的VAE和U-Net进行了微调。
- 硬件:RTX 3090
- 优化器:AdamW
- 梯度累积:1
- 批量大小:1
评估结果
暂未提供相关评估结果。
环境影响
该模型对环境的影响极小。
- 硬件类型:RTX 3090
- 使用时间(单位:小时):300
- 云服务提供商:无
- 训练地点:日本
- 碳排放量:较少
🔧 技术细节
本模型在日本开发,因此适用日本法律。作者主张该模型的训练基于著作权法第30条之4是合法的,并且模型的分发在著作权法和刑法175条的框架下,不构成正犯或帮助犯。详细见解可参考柿沼弁護士的 观点。
不过,作者认为分发该模型在伦理上可能存在问题,因为训练所用的作品未获得作者许可。但在法律上,训练并不需要作者许可,与搜索引擎类似,在法律上没有问题。因此,此次分发也有调查伦理方面问题的目的。
📄 许可证
本模型的许可证是在原许可证CreativeML Open RAIL++-M License的基础上,除例外情况外,增加了禁止商业使用的条款。增加该条款是出于对可能对创作界造成负面影响的担忧。如果这种担忧消除,从下一版本开始将恢复原许可证,允许商业使用。原许可证的日语翻译可参考 这里。
营利企业的用户请与法务部门人员协商。个人兴趣使用的用户,只要遵守一般常识,通常无需过于担心。此外,根据许可证规定,改造该模型后仍需继承此许可证。
*此模型卡片由Alfred Increment基于 Stable Diffusion v2 编写。