Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1开源模型，中英双语图像生成免费又实用！

首页

Taiyi Stable Diffusion 1B Chinese EN V0.1

由 IDEA-CCNL 开发

首个开源的中英双语Stable Diffusion模型，基于0.2亿筛选过的中文图文对训练

文本生成图像中文开源协议:Openrail #中英双语生成 #艺术风格迁移 #高分辨率图像生成

下载量 182

发布时间 : 11/1/2022

模型简介

基于稳定扩散架构的中英双语文本到图像生成模型，支持中文提示词生成高质量图像

模型特点

中英双语支持

首个同时支持中文和英文提示词的开源稳定扩散模型

高质量训练数据

使用CLIP分数>0.2筛选的0.2亿中文图文对进行训练

两阶段训练

先冻结文本编码器进行概念对齐，再联合训练优化中文引导适配性

模型能力

文本到图像生成

艺术风格转换

创意图像合成

使用案例

艺术创作

名画风格转换

将普通场景转换为梵高等艺术家的绘画风格

示例图片展示了小桥流水场景的梵高风格转换效果

水彩画生成

根据中文描述生成水彩风格的图像

示例图片展示了小桥流水场景的水彩风格效果

创意设计

趣味图像合成

生成具有创意的合成图像，如穿着宇航服的哈士奇

示例图片展示了穿着宇航服的哈士奇形象

日常场景艺术化

将日常场景转换为艺术风格，如吃米线的猫

示例图片展示了猫吃米线的艺术化效果

🚀 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1

Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1 是首个开源的中英双语 Stable Diffusion 模型，基于 0.2 亿筛选过的中文图文对训练，可实现文本到图像的生成。

🚀 快速开始

我们支持使用 Gradio Web UI 来运行 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1：

✨ 主要特性

中英双语支持：支持中文和英文输入，实现跨语言的文本到图像生成。
基于大规模中文图文对训练：基于 0.2 亿筛选过的中文图文对训练，对中文语境有更好的理解和生成能力。

📦 安装指南

使用该模型前，需安装相关依赖库，可通过以下命令安装：

pip install diffusers transformers torch

💻 使用示例

基础用法

全精度

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1").to("cuda")

prompt = '小桥流水人家，Van Gogh style'
image = pipe(prompt, guidance_scale=10).images[0]  
image.save("小桥.png")

半精度 FP16 (CUDA)

添加 torch_dtype=torch.float16 和 device_map="auto" 可以快速加载 FP16 的权重，以加快推理速度。更多信息见 the optimization docs。

# !pip install git+https://github.com/huggingface/accelerate
from diffusers import StableDiffusionPipeline
import torch
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')

prompt = '小桥流水人家，Van Gogh style'
image = pipe(prompt, guidance_scale=10.0).images[0]  
image.save("小桥.png")

高级用法

怎样微调

可以参考此处进行模型微调。

webui 配置

可以参考此处进行 webui 配置。

DreamBooth

可以参考此处进行 DreamBooth 相关操作。

📚 详细文档

模型分类

属性	详情
需求	特殊
任务	多模态
系列	太乙
模型	Stable Diffusion
参数	1B
额外	中文和英文

模型信息

我们将 Noah-Wukong 数据集(100M)和 Zero 数据集(23M)用作预训练的数据集，先用 IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese 对这两个数据集的图文对相似性进行打分，取 CLIP Score 大于 0.2 的图文对作为我们的训练集。我们使用 stable-diffusion-v1-4(论文) 模型进行继续训练，其中训练分为两个 stage。

第一个 stage 中冻住模型的其他部分，只训练 text encoder，以便保留原始模型的生成能力且实现中文概念的对齐。

第二个 stage 中将全部模型解冻，一起训练 text encoder 和 diffusion model，以便 diffusion model 更好的适配中文 guidance。

第一个 stage 我们训练了 80 小时，第二个 stage 训练了 100 小时，两个 stage 都是用了 8 x A100。该版本是一个初步的版本，我们将持续优化模型并开源，欢迎交流！

生成结果示例

小桥流水人家，Van Gogh style。
小桥流水人家，水彩。
吃过桥米线的猫。
穿着宇航服的哈士奇。

🔧 技术细节

该模型基于 Stable Diffusion 架构，通过两个阶段的训练来优化模型性能。第一阶段专注于 text encoder 的训练，以保留原始模型的生成能力并对齐中文概念；第二阶段解冻所有参数，使 diffusion model 更好地适配中文 guidance。训练过程使用了 8 x A100 GPU，分别进行了 80 小时和 100 小时的训练。

📄 许可证

本模型采用 CreativeML OpenRAIL-M 许可证，使用时需遵循以下规定：

不得使用该模型故意生成或分享非法或有害的输出或内容。
IDEA-CCNL 对您生成的输出不主张任何权利，您可以自由使用它们，但需对其使用负责，且不得违反许可证中的规定。
您可以重新分发模型权重，并将模型用于商业用途和/或作为服务使用。如果这样做，请确保包含与许可证中相同的使用限制，并向所有用户分享一份 CreativeML OpenRAIL-M 许可证副本。

请阅读完整许可证：https://huggingface.co/spaces/CompVis/stable-diffusion-license

📖 引用

如果您在您的工作中使用了我们的模型，可以引用我们的总论文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的网站：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}