🚀 Taiyi-Stable-Diffusion-1B-Chinese-v0.1
Taiyi-Stable-Diffusion-1B-Chinese-v0.1是首个开源的中文Stable Diffusion动漫模型,基于100万筛选过的动漫中文图文对训练,可用于文生图、风格迁移等多模态任务。
🚀 快速开始
环境准备
本模型非常推荐使用webui的方式使用,webui提供了可视化的界面加上一些高级修图、超分功能。你可以参考 Taiyi Stable Difffusion WebUI 进行配置。
半精度推理(CUDA)
添加 torch_dtype=torch.float16
和 device_map="auto"
可以快速加载 FP16 的权重,以加快推理速度。更多信息见 the optimization docs。
import torch
from diffusers import StableDiffusionPipeline
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')
prompt = '1个女孩,绿色头发,毛衣,看向阅图者,上半身,帽子,户外,下雪,高领毛衣'
image = pipe(prompt, guidance_scale=7.5).images[0]
image.save("1个女孩.png")
更多使用说明
模型微调
✨ 主要特性
- 中文支持:首个开源的中文Stable Diffusion动漫模型,基于大量中文图文对训练,对中文语境有更好的理解和生成效果。
- 多模态应用:可进行文生图、风格迁移等多模态任务,满足不同的创意需求。
- 持续优化:模型为初步版本,后续会持续更新优化并开源。
📦 安装指南
文档未提及具体安装步骤,可参考 Taiyi Stable Difffusion WebUI 进行环境配置。
💻 使用示例
基础用法
以下是一个文生图的基础示例:
1个女孩,绿眼,棒球帽,金色头发,闭嘴,帽子,看向阅图者,短发,简单背景,单人,上半身,T恤
Negative prompt: 水彩,漫画,扫描件,简朴的画作,动画截图,3D,像素风,原画,草图,手绘,铅笔
Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 3900970600, Size: 512x512, Model hash: 7ab6852a
生成图片的图片是512 * 512(大小为318kb):

高级用法
超分处理
善用超分模型可以提升图片质量。例如在webui里面选择extra里的R-ESRGAN 4x+ Anime6B模型对图片质量进行超分:
- 原始图片:512 * 512(大小为318kb)

- 超分模型选择:

- 超分后图片:2048 * 2048(大小为2.6Mb)

风格迁移与文生图示例
类型 |
prompt1 |
prompt2 |
风格迁移 |
- |
- |
展示图片 |
 |
- |
文生图 |
1个男生,帅气,微笑,看着阅图者,简单背景,白皙皮肤, 上半身,衬衫,短发,单人 |
1个女孩,绿色头发,毛衣,看向阅图者,上半身,帽子,户外,下雪,高领毛衣 |
展示图片 |
 |
 |
文生图 |
户外,天空,云,蓝天,无人,多云的天空,风景,日出,草原 |
室内,杯子,书,无人,窗,床,椅子,桌子,瓶子,窗帘,阳光, 风景,盘子,木地板,书架,蜡烛,架子,书堆,绿植,梯子,地毯,小地毯 |
展示图片 |
 |
 |
文生图 |
户外,天空,水,树,无人,夜晚,建筑,风景,反射,灯笼,船舶, 建筑学,灯笼,船,反射水,东亚建筑 |
建筑,科幻,城市,城市风景,摩天大楼,赛博朋克,人群 |
展示图片 |
 |
 |
文生图 |
无人,动物,(猫:1.5),高清,棕眼 |
无人,动物,(兔子:1.5),高清,棕眼 |
展示图片 |
 |
 |
📚 详细文档
模型分类
属性 |
详情 |
需求 |
特殊 |
任务 |
多模态 |
系列 |
太乙 |
模型 |
Stable Diffusion |
参数 |
1B |
额外 |
Chinese |
模型信息
我们将两份动漫数据集(100万低质量数据和1万高质量数据),基于 IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1 模型进行了两阶段的微调训练,计算开销是4 x A100 训练了大约100小时。该版本只是一个初步的版本,我们将持续优化并开源后续模型,欢迎交流。
🔧 技术细节
本模型基于Stable Diffusion架构,使用了100万筛选过的动漫中文图文对进行训练。在训练过程中,采用了两阶段微调训练的方法,使用4 x A100进行了约100小时的训练。
📄 许可证
本模型采用 CreativeML OpenRAIL-M 许可证。在使用模型前,你需要阅读完整的许可证信息:https://huggingface.co/spaces/CompVis/stable-diffusion-license。通过点击“Access repository”,你同意你的 联系信息(电子邮件地址和用户名)可以与模型作者共享。
📚 引用
如果您在您的工作中使用了我们的模型,可以引用我们的总论文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我们的网站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
⚠️ 重要提示
- 你不能使用该模型故意生成或分享非法或有害的输出或内容。
- IDEA-CCNL对您生成的输出不主张任何权利,您可以自由使用它们,并对其使用负责,且不得违反许可证中的规定。
- 您可以重新分发模型权重并将模型用于商业用途和/或作为服务。如果这样做,请务必包含与许可证中相同的使用限制,并向所有用户提供一份CreativeML OpenRAIL-M许可证副本。
💡 使用建议
善用超分模型可以显著提升生成图片的质量。在webui中选择合适的超分模型,如R-ESRGAN 4x+ Anime6B,可以将低分辨率图片转换为高分辨率的超高清大图。