coreml-stable-diffusion-2-1-baseオープンソースモデル - 高解像度画像合成と編集を無料で実現

ホーム

Coreml Stable Diffusion 2 1 Base

pcuenqによって開発

潜在拡散モデルに基づくテキストから画像を生成するシステムで、高解像度画像の合成と編集をサポート

画像生成オープンソースライセンス:その他 #Appleシリコン最適化 #テキストから画像生成 #アート創作ツール

ダウンロード数 164

リリース時間 : 12/23/2022

モデル概要

このモデルはテキストプロンプトに基づいて画像を生成・編集でき、テキストエンコーダーとしてOpenCLIP-ViT/Hを使用し、LAION-5Bデータセットのサブセットでトレーニングされています

モデル特徴

Appleハードウェア最適化

Core ML形式の重みを提供し、Appleシリコンチップ向けに最適化されており、Swift/Python推論をサポート

安全フィルタリング

トレーニングデータはNSFWフィルター処理済み（p_unsafe=0.1閾値）、2段階のファインチューニング戦略を採用

高解像度生成

768x768解像度の画像生成をサポート、v-目的関数に基づき最適化

モデル能力

テキストから画像生成

画像編集

アート創作

スタイル転送

使用事例

アート創作

コンセプトデザイン

テキスト記述に基づいてアートコンセプト画像を生成

クリエイティブなアイデアを迅速に可視化

デジタルアート

様々なスタイルのデジタルアート作品を生成

多様なアートスタイル出力をサポート

教育研究

生成モデル研究

拡散モデルの限界とバイアスを探究

学術論文の実験に使用可能

🚀 Stable Diffusion v2 モデルカード

このモデルは、Hugging FaceによってAppleのリポジトリを使用して生成されました。このリポジトリにはASCLが適用されています。

このモデルカードは、Stable Diffusion v2.1モデルに関連するモデルに焦点を当てています。コードベースはこちらで入手できます。

このstable-diffusion-2-1モデルは、stable-diffusion-2 (768-v-ema.ckpt) を同じデータセットでさらに55kステップ微調整し（punsafe=0.1）、その後punsafe=0.98でさらに155kステップ微調整されています。

ここにある重みは、Apple Siliconハードウェアで使用するためにCore MLに変換されています。

Core MLの重みには4つのバリアントがあります。

coreml-stable-diffusion-2-base
├── original
│   ├── compiled              # Swift推論、"original"アテンション
│   └── packages              # Python推論、"original"アテンション
└── split_einsum
    ├── compiled              # Swift推論、"split_einsum"アテンション
    └── packages              # Python推論、"split_einsum"アテンション

詳細については、https://huggingface.co/blog/diffusers-coreml を参照してください。

üß® diffusers で使用する
stablediffusion リポジトリで使用する: ここから 512-base-ema.ckpt をダウンロードする

📚 ドキュメント

モデル詳細

属性	详情
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	CreativeML Open RAIL++-M License
モデル説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。
詳細情報のリソース	GitHubリポジトリ
引用形式	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

使用方法

直接使用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。

有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
生成モデルの制限とバイアスの調査と理解
アートワークの生成とデザインやその他のアートプロセスでの使用
教育または創造的なツールでのアプリケーション
生成モデルに関する研究

除外される使用方法については以下で説明します。

誤用、悪意のある使用、および範囲外の使用

注: このセクションは元々 DALLE-MINIモデルカードから引用されたもので、Stable Diffusion v1で使用されていましたが、Stable Diffusion v2にも同様に適用されます。

このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じると予想される画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

範囲外の使用

このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにこのモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成
差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または広めること
本人の同意なしでの個人のなりすまし
閲覧者の同意なしの性的なコンテンツ
誤情報と偽情報
重大な暴力やグロテスクな表現
著作権またはライセンスされた素材をその使用条件に違反して共有すること
著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること

制限とバイアス

制限

このモデルは完全な写真的リアリズムを達成しません。
このモデルは読めるテキストをレンダリングできません。
このモデルは、「青い球の上に赤い立方体」のような構成性を伴うより難しいタスクではうまく機能しません。
顔や人全体が適切に生成されない場合があります。
このモデルは主に英語のキャプションで訓練されており、他の言語では同じように機能しません。
このモデルのオートエンコーダー部分は損失があります。
このモデルは、大規模データセット LAION-5B のサブセットで訓練されており、成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAIONのNFSW検出器を使用してデータセットをフィルタリングしています（訓練セクションを参照）。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v2は主に LAION-2B(en) のサブセットで訓練されており、英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して著しく低下します。Stable Diffusion v2は、入力やその意図に関係なく、閲覧者の裁量が必要な程度までバイアスを反映し、悪化させます。

訓練

訓練データ

モデル開発者は、以下のデータセットをモデルの訓練に使用しました。

LAION-5Bとそのサブセット（詳細は以下）。訓練データは、LAIONのNSFW検出器を使用してさらにフィルタリングされており、"p_unsafe"スコアが0.1（保守的）です。詳細については、LAION-5Bの NeurIPS 2022 論文とそのトピックに関するレビューアーの議論を参照してください。

訓練手順

Stable Diffusion v2は、オートエンコーダーとオートエンコーダーの潜在空間で訓練される拡散モデルを組み合わせた潜在拡散モデルです。訓練中は、

画像はエンコーダーによってエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数8を使用し、形状がH x W x 3の画像を形状がH/f x W/f x 4の潜在表現にマッピングします。
テキストプロンプトはOpenCLIP-ViT/Hテキストエンコーダーによってエンコードされます。
テキストエンコーダーの出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに入力されます。
損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。また、いわゆる v-objective も使用しています。詳細はhttps://arxiv.org/abs/2202.00512 を参照してください。

環境への影響

Stable Diffusion v1 推定排出量

この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定しています。ハードウェア、ランタイム、クラウドプロバイダー、およびコンピュートリージョンは、炭素排出量の影響を推定するために利用されました。