🚀 日本語Stable Diffusionモデルカード

日本語Stable Diffusionは、日本語固有の潜在的なテキストから画像への拡散モデルであり、任意のテキスト入力に基づいて写真のようにリアルな画像を生成することができます。
このモデルは、強力なテキストから画像へのモデルであるStable Diffusionを使用して学習されました。詳細な学習方法については、学習手順を参照してください。

✨ 主な機能
日本語Stable Diffusionは、日本語のテキスト入力に基づいて、写真のようにリアルな画像を生成することができます。このモデルは、Stable Diffusionを事前学習モデルとして使用した潜在拡散モデル(LDM)です。
📦 インストール
まず、以下のようにパッケージをインストールします。このパッケージは、日本語Stable Diffusionを実行するために🤗のDiffusersライブラリを修正したものです。
pip install git+https://github.com/rinnakk/japanese-stable-diffusion
まだHF Hubトークンでログインしていない場合は、次のコマンドを実行してログインします。
huggingface-cli login
💻 使用例
基本的な使用法
k_lmsスケジューラーを使用してパイプラインを実行する例です。
import torch
from torch import autocast
from diffusers import LMSDiscreteScheduler
from japanese_stable_diffusion import JapaneseStableDiffusionPipeline
model_id = "rinna/japanese-stable-diffusion"
device = "cuda"
scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = JapaneseStableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to(device)
prompt = "猫の肖像画 油絵"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("output.png")
⚠️ 重要提示
JapaneseStableDiffusionPipeline
は、DiffusersのStableDiffusionPipeline
とほぼ同じですが、モデルを適切に初期化するためのいくつかの行が追加されています。
📚 ドキュメント
モデル詳細
誤用、悪意のある使用、および範囲外の使用
このセクションは、DALLE-MINIモデルカードから引用されていますが、Stable Diffusion v1にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように学習されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用および悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには、以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現を生成すること。
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または広めること。
- 本人の同意なしに個人をなりすますこと。
- 見る人の同意なしに性的なコンテンツを生成すること。
- 誤情報および偽情報。
- 重大な暴力や残虐な描写。
- 著作権またはライセンスされた素材をその使用条件に違反して共有すること。
- 著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- このモデルは完全な写真のようなリアリズムを達成しません。
- このモデルは読み取り可能なテキストをレンダリングすることができません。
- このモデルは、「青い球の上に赤い立方体」のような構成性を必要とするより難しいタスクではうまく機能しません。
- 顔や人全体の表現が適切に生成されないことがあります。
- このモデルは主に日本語のキャプションで学習されており、他の言語ではうまく機能しません。
- このモデルの自動符号化部分は損失があります。
- このモデルは、大規模データセットLAION-5Bのサブセットで学習されており、このデータセットには成人向けの素材が含まれており、追加のセーフティメカニズムや考慮なしに製品で使用するには適していません。
- データセットの重複排除のための追加の対策は取られていません。その結果、学習データに重複する画像については、ある程度の記憶が見られます。学習データはhttps://rom1504.github.io/clip-retrieval/で検索することができ、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。日本語Stable Diffusionは、日本語のキャプション付きのLAION-5Bを含む日本語のデータセットで学習されており、主に日本語の記述に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これがモデルの全体的な出力に影響を与えます。さらに、このモデルは、日本語以外のプロンプトでコンテンツを生成する能力は、日本語のプロンプトと比較して著しく低くなります。
セーフティモジュール
このモデルの意図された使用方法は、DiffusersのSafety Checkerを使用することです。このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と比較することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは、画像生成後のCLIPTextModel
の埋め込み空間で有害な概念のクラス確率を比較します。これらの概念は、生成された画像とともにモデルに渡され、各NSFW概念の手動で設計された重みと比較されます。
学習
学習データ
このモデルの学習には、以下のデータセットを使用しました。
- LAION-5Bの日本語サブセットを含む、約1億枚の日本語キャプション付きの画像。
学習手順
日本語Stable Diffusionは、Stable Diffusionと同じアーキテクチャを持ち、Stable Diffusionを使用して学習されました。Stable Diffusionは英語のデータセットで学習されており、CLIPトークナイザーは基本的に英語用であるため、PITIに触発されて、言語固有のモデルに移行するために2段階の学習を行いました。
- 潜在拡散モデルを固定した状態で、日本語のトークナイザーを使用して日本語固有のテキストエンコーダーを最初から学習します。この段階では、日本語のキャプションをStable Diffusionの潜在空間にマッピングすることが期待されます。
- テキストエンコーダーと潜在拡散モデルを共同で微調整します。この段階では、日本語スタイルの画像をより多く生成することが期待されます。
リリース日
2022年9月9日
引用方法
@misc{rinna-japanese-stable-diffusion,
title = {rinna/japanese-stable-diffusion},
author = {Shing, Makoto and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-stable-diffusion}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
参考文献
@inproceedings{rombach2022high,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {6},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Makoto ShingとKei Sawadaによって作成され、Stable Diffusion v1-4 Model CardおよびDALL-E Miniモデルカードに基づいています。
📄 ライセンス
このモデルは、The CreativeML OpenRAIL M licenseの下で公開されています。このライセンスは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で責任あるAIライセンスの分野で行っている作業から適応されています。