🚀 私の韓国語Stable Diffusion v1-5
このモデルはrunwayml/stable-diffusion-v1-5をベースに、テキストエンコーダとトークナイザを私のBingsu/clip-vit-large-patch14-koに置き換えたものです。
実際に良好に動作する韓国語拡散モデルを探している場合は、以下を参照してください。
🚀 クイックスタート
📦 インストール
pip install transformers accelerate>=0.14.0 diffusers>=0.7.2 ftfy
💻 使用例
基本的な使用法
import torch
from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
repo = "Bingsu/my-korean-stable-diffusion-v1-5"
euler_ancestral_scheduler = EulerAncestralDiscreteScheduler.from_config(repo, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
repo, scheduler=euler_ancestral_scheduler, torch_dtype=torch.float16,
)
pipe.to("cuda")
prompt = "화성에서 말을 타고 있는 우주인 사진"
seed = 23957
generator = torch.Generator("cuda").manual_seed(seed)
image = pipe(prompt, num_inference_steps=25, generator=generator).images[0]
image

高度な使用法
prompt = "고퀄리티 하얀 고양이 사진"
seed = 46399
generator = torch.Generator("cuda").manual_seed(seed)
pipe(prompt, num_inference_steps=25, generator=generator).images[0]

prompt = "고퀄리티 하얀 고양이 사진, 피아노를 치는 중"
seed = 12345
generator = torch.Generator("cuda").manual_seed(seed)
pipe(prompt, num_inference_steps=25, generator=generator).images[0]

prompt = "달과 별이 보이는 밤하늘을 배경으로 한 해변가 사진"
seed = 1234246
generator = torch.Generator("cuda").manual_seed(seed)
pipe(prompt, num_inference_steps=25, generator=generator).images[0]

📚 ドキュメント
直接的な使用
このモデルは研究目的のみを意図しています。可能な研究分野とタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
- 生成モデルの制限とバイアスの調査と理解
- アートワークの生成とデザインや他のアートプロセスでの使用
- 教育または創造的なツールでのアプリケーション
- 生成モデルに関する研究
除外される使用法については以下で説明します。
誤用、悪意のある使用、および想定外の使用
注: このセクションはDALLE - MINIモデルカードから引用されていますが、Stable Diffusion v1にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じると予想される画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを、個人に残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他有害な表現の生成
- 差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または拡散すること
- 本人の同意なしでの個人のなりすまし
- 見る可能性のある人々の同意なしの性的コンテンツ
- 誤情報と偽情報
- 重大な暴力と血腥な描写
- 著作権またはライセンスされた素材の使用条件に違反した共有
- 著作権またはライセンスされた素材の改変版を使用条件に違反して共有すること
制限とバイアス
制限
- このモデルは完全な写真的リアリズムを達成しません。
- このモデルは読み取り可能なテキストをレンダリングできません。
- このモデルは、「青い球体の上に赤い立方体」に対応する画像のレンダリングなど、構成性を伴うより難しいタスクではうまく機能しません。
- 顔や人物は一般的に適切に生成されない場合があります。
- このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- このモデルの自動符号化部分は損失があります。
- このモデルは大規模データセットLAION - 5Bで訓練されており、これには成人向けの素材が含まれており、追加の安全メカニズムと考慮なしに製品で使用するには適していません。
- データセットの重複排除には追加の対策が使用されていません。その結果、訓練データに重複する画像についてある程度の記憶が見られます。訓練データは[https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/)で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v1はLAION - 2B(en)のサブセットで訓練されており、これは主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストと画像は十分に考慮されていない可能性があります。これは、白人と西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトでの場合よりも大幅に劣ります。
安全モジュール
このモデルの意図された使用方法は、DiffusersのSafety Checkerとともに使用することです。このチェッカーは、モデルの出力を既知のハードコードされた不適切なコンセプトと比較することで機能します。これらのコンセプトは、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、このチェッカーは、画像の生成後にCLIPTextModel
の埋め込み空間で有害なコンセプトのクラス確率を比較します。これらのコンセプトは、生成された画像とともにモデルに渡され、各不適切なコンセプトに対する手動で設計された重みと比較されます。
📄 ライセンス
このモデルはCreativeML OpenRAIL - Mライセンスの下で提供されています。