🚀 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1 是首個開源的中英雙語 Stable Diffusion 模型,基於 0.2 億篩選過的中文圖文對訓練,可實現文本到圖像的生成。
相關鏈接
🚀 快速開始
我們支持使用 Gradio Web UI 來運行 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1:

✨ 主要特性
- 中英雙語支持:支持中文和英文輸入,實現跨語言的文本到圖像生成。
- 基於大規模中文圖文對訓練:基於 0.2 億篩選過的中文圖文對訓練,對中文語境有更好的理解和生成能力。
📦 安裝指南
使用該模型前,需安裝相關依賴庫,可通過以下命令安裝:
pip install diffusers transformers torch
💻 使用示例
基礎用法
全精度
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1").to("cuda")
prompt = '小橋流水人家,Van Gogh style'
image = pipe(prompt, guidance_scale=10).images[0]
image.save("小橋.png")
半精度 FP16 (CUDA)
添加 torch_dtype=torch.float16
和 device_map="auto"
可以快速加載 FP16 的權重,以加快推理速度。更多信息見 the optimization docs。
from diffusers import StableDiffusionPipeline
import torch
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')
prompt = '小橋流水人家,Van Gogh style'
image = pipe(prompt, guidance_scale=10.0).images[0]
image.save("小橋.png")
高級用法
怎樣微調
可以參考 此處 進行模型微調。
webui 配置
可以參考 此處 進行 webui 配置。
DreamBooth
可以參考 此處 進行 DreamBooth 相關操作。
📚 詳細文檔
模型分類
屬性 |
詳情 |
需求 |
特殊 |
任務 |
多模態 |
系列 |
太乙 |
模型 |
Stable Diffusion |
參數 |
1B |
額外 |
中文和英文 |
模型信息
我們將 Noah-Wukong 數據集(100M)和 Zero 數據集(23M)用作預訓練的數據集,先用 IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese 對這兩個數據集的圖文對相似性進行打分,取 CLIP Score 大於 0.2 的圖文對作為我們的訓練集。 我們使用 stable-diffusion-v1-4(論文) 模型進行繼續訓練,其中訓練分為兩個 stage。
第一個 stage 中凍住模型的其他部分,只訓練 text encoder,以便保留原始模型的生成能力且實現中文概念的對齊。
第二個 stage 中將全部模型解凍,一起訓練 text encoder 和 diffusion model,以便 diffusion model 更好的適配中文 guidance。
第一個 stage 我們訓練了 80 小時,第二個 stage 訓練了 100 小時,兩個 stage 都是用了 8 x A100。該版本是一個初步的版本,我們將持續優化模型並開源,歡迎交流!
生成結果示例
- 小橋流水人家,Van Gogh style。

- 小橋流水人家,水彩。

- 吃過橋米線的貓。

- 穿著宇航服的哈士奇。

🔧 技術細節
該模型基於 Stable Diffusion 架構,通過兩個階段的訓練來優化模型性能。第一階段專注於 text encoder 的訓練,以保留原始模型的生成能力並對齊中文概念;第二階段解凍所有參數,使 diffusion model 更好地適配中文 guidance。訓練過程使用了 8 x A100 GPU,分別進行了 80 小時和 100 小時的訓練。
📄 許可證
本模型採用 CreativeML OpenRAIL-M 許可證,使用時需遵循以下規定:
- 不得使用該模型故意生成或分享非法或有害的輸出或內容。
- IDEA-CCNL 對您生成的輸出不主張任何權利,您可以自由使用它們,但需對其使用負責,且不得違反許可證中的規定。
- 您可以重新分發模型權重,並將模型用於商業用途和/或作為服務使用。如果這樣做,請確保包含與許可證中相同的使用限制,並向所有用戶分享一份 CreativeML OpenRAIL-M 許可證副本。
請閱讀完整許可證:https://huggingface.co/spaces/CompVis/stable-diffusion-license
📖 引用
如果您在您的工作中使用了我們的模型,可以引用我們的總論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}