太乙-Stable-Diffusion-1B-Chinese-EN-v0.1オープンソースモデル、中英バイリンガル画像生成は無料で実用的！

ホーム

Taiyi Stable Diffusion 1B Chinese EN V0.1

IDEA-CCNLによって開発

初のオープンソース中英バイリンガルStable Diffusionモデル、0.2億の選別済み中国語画像テキストペアでトレーニング

テキスト生成画像中国語オープンソースライセンス:Openrail #中英バイリンガル生成 #アートスタイル転移 #高解像度画像生成

ダウンロード数 182

リリース時間 : 11/1/2022

モデル概要

安定拡散アーキテクチャに基づく中英バイリンガルテキストから画像生成モデル、中国語プロンプトで高品質画像生成をサポート

モデル特徴

中英バイリンガルサポート

中国語と英語のプロンプトを同時にサポートする初のオープンソース安定拡散モデル

高品質トレーニングデータ

CLIPスコア>0.2で選別された0.2億の中国語画像テキストペアを使用

2段階トレーニング

最初にテキストエンコーダを凍結して概念調整し、その後共同トレーニングで中国語ガイド適応性を最適化

モデル能力

テキストから画像生成

アートスタイル変換

クリエイティブ画像合成

使用事例

アート創作

名画スタイル変換

普通のシーンをゴッホなどの芸術家の絵画スタイルに変換

例画像は小橋流水シーンのゴッホスタイル変換効果を展示

水彩画生成

中国語の記述に基づいて水彩スタイルの画像を生成

例画像は小橋流水シーンの水彩スタイル効果を展示

クリエイティブデザイン

面白い画像合成

宇宙服を着たハスキーなど創造的な合成画像を生成

例画像は宇宙服を着たハスキーイメージを展示

日常シーンの芸術化

日常シーンを芸術スタイルに変換、例えば麺を食べる猫

例画像は麺を食べる猫の芸術化効果を展示

🚀 太乙稳定扩散-1B-中文-英文-v0.1

Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1は、最初のオープンソースの中英バイリンガルStable Diffusionモデルです。このモデルは、0.2億のフィルタリングされた中国語の画像とテキストのペアを使用して訓練されています。

メインページ: Fengshenbang
GitHub: Fengshenbang-LM

🚀 クイックスタート

当モデルは、GradioのWeb UIをサポートしています。以下のボタンをクリックすると、Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1を実行できます。

✨ 主な機能

Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1は、最初のオープンソースの中英バイリンガルStable Diffusionモデルです。このモデルは、中国語と英語の両方のテキスト入力に対応しており、多様な画像生成タスクに使用できます。

📦 インストール

本モデルの使用には、diffusers ライブラリが必要です。以下のコマンドでインストールできます。

pip install diffusers

💻 使用例

基本的な使用法

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1").to("cuda")

prompt = '小桥流水人家，Van Gogh style'
image = pipe(prompt, guidance_scale=10).images[0]  
image.save("小桥.png")

高度な使用法

半精度（FP16）での推論を行うことで、メモリ使用量を削減し、推論速度を向上させることができます。

# !pip install git+https://github.com/huggingface/accelerate
from diffusers import StableDiffusionPipeline
import torch
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')

prompt = '小桥流水人家，Van Gogh style'
image = pipe(prompt, guidance_scale=10.0).images[0]  
image.save("小桥.png")

モデルの微調整方法

モデルの微調整方法については、以下のリンクを参照してください。 https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/finetune_taiyi_stable_diffusion

Web UIの設定方法

Web UIの設定方法については、以下のリンクを参照してください。 https://github.com/IDEA-CCNL/stable-diffusion-webui/blob/master/README.md

DreamBoothの使用方法

DreamBoothを使用したモデルの微調整方法については、以下のリンクを参照してください。 https://github.com/IDEA-CCNL/Fengshenbang-LM/tree/main/fengshen/examples/stable_diffusion_dreambooth

📚 ドキュメント

モデル分類

プロパティ	詳細
モデルタイプ	多モーダル
訓練データ	Noah-Wukong(100M) と Zero(23M)
パラメータ数	1B
言語サポート	中国語と英語

モデル情報

本モデルは、Noah-Wukong データセット（100M）と Zero データセット（23M）を使用して訓練されています。まず、IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese を使用して、これらのデータセットの画像とテキストのペアの類似性をスコアリングし、CLIPスコアが0.2を超えるペアを訓練データとして使用しました。

訓練は2つのステージに分けて行われました。最初のステージでは、モデルの他の部分を凍結し、text encoderのみを訓練しました。これにより、元のモデルの生成能力を維持しながら、中国語の概念を画像にアラインさせることができます。2番目のステージでは、text encoderとdiffusion modelの両方を解冻し、一緒に訓練しました。これにより、diffusion modelが中国語のガイダンスにより適応することができます。

最初のステージの訓練には80時間、2番目のステージの訓練には100時間かかり、両方のステージで8台のA100 GPUを使用しました。このモデルは初期バージョンであり、引き続き最適化してオープンソースで公開します。ご意見やご質問は大歓迎です！

生成結果例

小桥流水人家，Van Gogh style。
小桥流水人家，水彩。
吃过桥米线的猫。
穿着宇航服的哈士奇。

ライセンス

本モデルは、CreativeML OpenRAIL-Mライセンスの下で公開されています。詳細なライセンス条項については、こちらを参照してください。

⚠️ 重要な注意事項

本モデルを使用する前に、ライセンス条項をよく読み、同意する必要があります。また、モデルの使用によって生成された出力について、著作権者は一切の権利を主張しませんが、出力の使用はライセンス条項に従う必要があります。

💡 使用上のヒント

半精度（FP16）での推論を行うことで、メモリ使用量を削減し、推論速度を向上させることができます。詳細については、the optimization docs を参照してください。

📄 ライセンス

本モデルは、CreativeML OpenRAIL-Mライセンスの下で公開されています。詳細なライセンス条項については、こちらを参照してください。

🔧 技術詳細

本モデルは、stable-diffusion-v1-4 モデルをベースに、2つのステージでファインチューニングされています。最初のステージでは、text encoderのみを訓練し、2番目のステージでは、text encoderとdiffusion modelの両方を訓練しています。

引用

本モデルを使用した場合は、以下の文献を引用してください。

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

また、以下のウェブサイトも引用してください。

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}