🚀 太乙-Stable-Diffusion-1B-Chinese-v0.1
このモデルは、最初のオープンソースの中国語Stable Diffusionアニメモデルです。100万件の選別されたアニメの中国語の画像とテキストのペアを基に訓練されています。
🚀 クイックスタート
✨ 主な機能
概要
最初のオープンソースの中国語Stable Diffusionアニメモデルで、100万件の選別されたアニメの中国語の画像とテキストのペアを使って訓練されました。訓練の詳細はオープンソース版2次元生成器!IDEA研究院封神榜チームが最初の中国語アニメStable Diffussionモデルを発表を参照してください。より多くのtext2imgの例は太乙アニメ絵画ハンドブック1.0を参照してください。
モデル分類
要件 |
タスク |
シリーズ |
モデル |
パラメータ |
追加情報 |
特殊 |
マルチモーダル |
太乙 |
Stable Diffusion |
1B |
中国語 |
モデル情報
2つのアニメデータセット(100万件の低品質データと1万件の高品質データ)を使用して、IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1モデルをベースに2段階の微調整訓練を行いました。4台のA100を使用して約100時間の訓練を行いました。このバージョンはまだ初期版であり、引き続き最適化して後続のモデルをオープンソースで公開します。交流を歓迎します。
結果
まず、超解像モデルをうまく使って画像の品質を向上させる小さなコツがあります。
例えば以下の例のように:
1個の女の子,緑色の目,野球帽,金色の髪,口を閉じる,帽子,閲覧者を見る,短髪,シンプルな背景,一人,上半身,Tシャツ
Negative prompt: 水彩,漫画,スキャン画像,シンプルな絵,アニメのスクリーンショット,3D,ピクセルスタイル,原画,スケッチ,手描き,鉛筆
Steps: 50, Sampler: Euler a, CFG scale: 7, Seed: 3900970600, Size: 512x512, Model hash: 7ab6852a
生成された画像は512 * 512(サイズ318kb)です:

webuiでextraのR-ESRGAN 4x+ Anime6Bモデルを選択して画像の品質を超解像すると:

2048 * 2048(サイズ2.6Mb)の超高解像度の大きな画像を得ることができます。2枚の画像を拡大すると明確な違いがわかります。512 * 512の画像は拡大するとぼやけますが、2048 * 2048の高解像度の大きな画像は拡大してもぼやけません:

以下の例は、モデルをwebuiで実行して得られたものです。
まずはスタイル変換の例です:

次はいくつかの文書から画像を生成する例です:
prompt1 |
prompt2 |
1個の男の子,かっこいい,微笑み,閲覧者を見る,シンプルな背景,白い肌, 上半身,シャツ,短髪,一人 |
1個の女の子,緑色の髪,セーター,閲覧者を見る,上半身,帽子,屋外,雪が降っている,ハイネックセーター |
 |
 |
屋外,空,雲,青い空,誰もいない,曇り空,風景,日の出,草原 |
屋内,コップ,本,誰もいない,窓,ベッド,椅子,テーブル,瓶,カーテン,陽光, 風景,皿,木の床,本棚,ろうそく,棚,本の山,緑植,梯子,カーペット,小さなカーペット |
 |
 |
屋外,空,水,木,誰もいない,夜,建物,風景,反射,提灯,船, 建築学,提灯,船,反射した水,東アジアの建物 |
建物,サイエンスフィクション,都市,都市の風景,摩天楼,サイバーパンク,人々 |
 |
 |
誰もいない,動物,(猫:1.5),高解像度,茶色の目 |
誰もいない,動物,(うさぎ:1.5),高解像度,茶色の目 |
 |
 |
📦 インストール
webuiの設定
このモデルを使用する場合は、webuiを使うことを強くおすすめします。webuiは視覚的なインターフェースといくつかの高度な画像修正、超解像機能を提供します。
Taiyi Stable Difffusion WebUI
半精度FP16 (CUDA)
torch_dtype=torch.float16
と device_map="auto"
を追加することで、FP16の重みを素早くロードし、推論速度を向上させることができます。
詳細は the optimization docs を参照してください。
import torch
from diffusers import StableDiffusionPipeline
torch.backends.cudnn.benchmark = True
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1", torch_dtype=torch.float16)
pipe.to('cuda')
prompt = '1個の女の子,緑色の髪,セーター,閲覧者を見る,上半身,帽子,屋外,雪が降っている,ハイネックセーター'
image = pipe(prompt, guidance_scale=7.5).images[0]
image.save("1個の女の子.png")
ハンドブック
微調整方法
微調整コード
DreamBooth
DreamBoothコード
📚 ドキュメント
引用
このモデルをご利用の場合は、以下の論文を引用していただけると幸いです:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
また、以下のウェブサイトも引用できます:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
📄 ライセンス
このモデルはCreativeML OpenRAIL-Mライセンスの下で公開されています。詳細はこちらを参照してください。
⚠️ 重要提示
このモデルを取得する前にもう1つの手順があります。このモデルはオープンアクセスですが、CreativeML OpenRAIL-Mライセンスによって権利と使用方法がさらに規定されています。CreativeML OpenRAILライセンスでは以下のことが規定されています。
- モデルを使用して、意図的に違法または有害な出力やコンテンツを生成したり共有したりすることはできません。
- IDEA-CCNLは、ユーザーが生成した出力に対して何らの権利も主張しません。ユーザーは自由にそれらを使用できますが、その使用については責任を負い、ライセンスに定められた規定に違反してはなりません。
- ユーザーは重みを再配布し、モデルを商業的に使用したりサービスとして提供したりすることができます。その場合は、ライセンスと同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があります(ライセンス全体を注意深く読んでください)。
以下の「リポジトリにアクセス」をクリックすることで、あなたの連絡先情報(メールアドレスとユーザー名)がモデルの作成者と共有されることに同意することになります。