🚀 太乙稳定扩散-1B-中文-英文-v0.1
Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1は、最初のオープンソースの中英バイリンガルStable Diffusionモデルです。このモデルは、0.2億のフィルタリングされた中国語の画像とテキストのペアを使用して訓練されています。
🚀 クイックスタート
当モデルは、GradioのWeb UIをサポートしています。以下のボタンをクリックすると、Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1を実行できます。

✨ 主な機能
Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1は、最初のオープンソースの中英バイリンガルStable Diffusionモデルです。このモデルは、中国語と英語の両方のテキスト入力に対応しており、多様な画像生成タスクに使用できます。
📦 インストール
本モデルの使用には、diffusers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install diffusers
💻 使用例
基本的な使用法
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1").to("cuda")
prompt = '小桥流水人家,Van Gogh style'
image = pipe(prompt, guidance_scale=10).images[0]
image.save("小桥.png")
高度な使用法
半精度(FP16)での推論を行うことで、メモリ使用量を削減し、推論速度を向上させることができます。
from diffusers import StableDiffusionPipeline
import torch
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')
prompt = '小桥流水人家,Van Gogh style'
image = pipe(prompt, guidance_scale=10.0).images[0]
image.save("小桥.png")
モデルの微調整方法
モデルの微調整方法については、以下のリンクを参照してください。
https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/finetune_taiyi_stable_diffusion
Web UIの設定方法
Web UIの設定方法については、以下のリンクを参照してください。
https://github.com/IDEA-CCNL/stable-diffusion-webui/blob/master/README.md
DreamBoothの使用方法
DreamBoothを使用したモデルの微調整方法については、以下のリンクを参照してください。
https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/stable_diffusion_dreambooth
📚 ドキュメント
モデル分類
プロパティ |
詳細 |
モデルタイプ |
多モーダル |
訓練データ |
Noah-Wukong(100M) と Zero(23M) |
パラメータ数 |
1B |
言語サポート |
中国語と英語 |
モデル情報
本モデルは、Noah-Wukong データセット(100M)と Zero データセット(23M)を使用して訓練されています。まず、IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese を使用して、これらのデータセットの画像とテキストのペアの類似性をスコアリングし、CLIPスコアが0.2を超えるペアを訓練データとして使用しました。
訓練は2つのステージに分けて行われました。最初のステージでは、モデルの他の部分を凍結し、text encoderのみを訓練しました。これにより、元のモデルの生成能力を維持しながら、中国語の概念を画像にアラインさせることができます。2番目のステージでは、text encoderとdiffusion modelの両方を解冻し、一緒に訓練しました。これにより、diffusion modelが中国語のガイダンスにより適応することができます。
最初のステージの訓練には80時間、2番目のステージの訓練には100時間かかり、両方のステージで8台のA100 GPUを使用しました。このモデルは初期バージョンであり、引き続き最適化してオープンソースで公開します。ご意見やご質問は大歓迎です!
生成結果例
- 小桥流水人家,Van Gogh style。

- 小桥流水人家,水彩。

- 吃过桥米线的猫。

- 穿着宇航服的哈士奇。

ライセンス
本モデルは、CreativeML OpenRAIL-Mライセンスの下で公開されています。詳細なライセンス条項については、こちらを参照してください。
⚠️ 重要な注意事項
本モデルを使用する前に、ライセンス条項をよく読み、同意する必要があります。また、モデルの使用によって生成された出力について、著作権者は一切の権利を主張しませんが、出力の使用はライセンス条項に従う必要があります。
💡 使用上のヒント
半精度(FP16)での推論を行うことで、メモリ使用量を削減し、推論速度を向上させることができます。詳細については、the optimization docs を参照してください。
📄 ライセンス
本モデルは、CreativeML OpenRAIL-Mライセンスの下で公開されています。詳細なライセンス条項については、こちらを参照してください。
🔧 技術詳細
本モデルは、stable-diffusion-v1-4 モデルをベースに、2つのステージでファインチューニングされています。最初のステージでは、text encoderのみを訓練し、2番目のステージでは、text encoderとdiffusion modelの両方を訓練しています。
引用
本モデルを使用した場合は、以下の文献を引用してください。
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
また、以下のウェブサイトも引用してください。
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}