🚀 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1 是首个开源的中英双语 Stable Diffusion 模型,基于 0.2 亿筛选过的中文图文对训练,可实现文本到图像的生成。
相关链接
🚀 快速开始
我们支持使用 Gradio Web UI 来运行 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1:

✨ 主要特性
- 中英双语支持:支持中文和英文输入,实现跨语言的文本到图像生成。
- 基于大规模中文图文对训练:基于 0.2 亿筛选过的中文图文对训练,对中文语境有更好的理解和生成能力。
📦 安装指南
使用该模型前,需安装相关依赖库,可通过以下命令安装:
pip install diffusers transformers torch
💻 使用示例
基础用法
全精度
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1").to("cuda")
prompt = '小桥流水人家,Van Gogh style'
image = pipe(prompt, guidance_scale=10).images[0]
image.save("小桥.png")
半精度 FP16 (CUDA)
添加 torch_dtype=torch.float16
和 device_map="auto"
可以快速加载 FP16 的权重,以加快推理速度。更多信息见 the optimization docs。
from diffusers import StableDiffusionPipeline
import torch
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')
prompt = '小桥流水人家,Van Gogh style'
image = pipe(prompt, guidance_scale=10.0).images[0]
image.save("小桥.png")
高级用法
怎样微调
可以参考 此处 进行模型微调。
webui 配置
可以参考 此处 进行 webui 配置。
DreamBooth
可以参考 此处 进行 DreamBooth 相关操作。
📚 详细文档
模型分类
属性 |
详情 |
需求 |
特殊 |
任务 |
多模态 |
系列 |
太乙 |
模型 |
Stable Diffusion |
参数 |
1B |
额外 |
中文和英文 |
模型信息
我们将 Noah-Wukong 数据集(100M)和 Zero 数据集(23M)用作预训练的数据集,先用 IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese 对这两个数据集的图文对相似性进行打分,取 CLIP Score 大于 0.2 的图文对作为我们的训练集。 我们使用 stable-diffusion-v1-4(论文) 模型进行继续训练,其中训练分为两个 stage。
第一个 stage 中冻住模型的其他部分,只训练 text encoder,以便保留原始模型的生成能力且实现中文概念的对齐。
第二个 stage 中将全部模型解冻,一起训练 text encoder 和 diffusion model,以便 diffusion model 更好的适配中文 guidance。
第一个 stage 我们训练了 80 小时,第二个 stage 训练了 100 小时,两个 stage 都是用了 8 x A100。该版本是一个初步的版本,我们将持续优化模型并开源,欢迎交流!
生成结果示例
- 小桥流水人家,Van Gogh style。

- 小桥流水人家,水彩。

- 吃过桥米线的猫。

- 穿着宇航服的哈士奇。

🔧 技术细节
该模型基于 Stable Diffusion 架构,通过两个阶段的训练来优化模型性能。第一阶段专注于 text encoder 的训练,以保留原始模型的生成能力并对齐中文概念;第二阶段解冻所有参数,使 diffusion model 更好地适配中文 guidance。训练过程使用了 8 x A100 GPU,分别进行了 80 小时和 100 小时的训练。
📄 许可证
本模型采用 CreativeML OpenRAIL-M 许可证,使用时需遵循以下规定:
- 不得使用该模型故意生成或分享非法或有害的输出或内容。
- IDEA-CCNL 对您生成的输出不主张任何权利,您可以自由使用它们,但需对其使用负责,且不得违反许可证中的规定。
- 您可以重新分发模型权重,并将模型用于商业用途和/或作为服务使用。如果这样做,请确保包含与许可证中相同的使用限制,并向所有用户分享一份 CreativeML OpenRAIL-M 许可证副本。
请阅读完整许可证:https://huggingface.co/spaces/CompVis/stable-diffusion-license
📖 引用
如果您在您的工作中使用了我们的模型,可以引用我们的总论文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我们的网站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}