🚀 GLIGEN: オープンセットの接地型テキストから画像への生成
GLIGENモデルは、ウィスコンシン大学マディソン校、コロンビア大学、マイクロソフトの研究者とエンジニアによって作成されました。
[StableDiffusionGLIGENPipeline
] は、接地入力に基づいて写実的な画像を生成することができます。
テキストとバウンディングボックスに加えて、入力画像が与えられた場合、このパイプラインはバウンディングボックスで定義された領域にテキストで記述されたオブジェクトを挿入することができます。
そうでない場合、キャプション/プロンプトで記述された画像を生成し、バウンディングボックスで定義された領域にテキストで記述されたオブジェクトを挿入します。このモデルはCOCO2014DとCOCO2014CDデータセットで訓練されており、凍結されたCLIP ViT-L/14テキストエンコーダを使用して接地入力に基づいて条件付けされます。
ここにある重みは、🧨 Diffusersライブラリで使用することを想定しています。タスクに公式チェックポイントを使用したい場合は、gligen ハブ組織を探索してください!
🚀 クイックスタート
このモデルを使用するには、以下の手順を実行してください。まず、必要なライブラリをインストールします。その後、サンプルコードを実行して画像生成を行います。
✨ 主な機能
- 接地入力に基づいて写実的な画像を生成することができます。
- 入力画像が与えられた場合、バウンディングボックスで定義された領域にテキストで記述されたオブジェクトを挿入することができます。
- キャプション/プロンプトで記述された画像を生成し、バウンディングボックスで定義された領域にテキストで記述されたオブジェクトを挿入することができます。
📦 インストール
このモデルを使用するには、以下のコマンドを実行して必要なライブラリをインストールしてください。
pip install --upgrade diffusers transformers scipy
💻 使用例
基本的な使用法
以下のコードは、デフォルトのPNDMスケジューラでパイプラインを実行する例です。
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
"masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-1-4-inpainting-text-box.jpg")
📚 ドキュメント
モデルの詳細
属性 |
详情 |
開発者 |
Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee |
モデルタイプ |
拡散ベースの接地型テキストから画像への生成モデル |
言語 |
英語 |
ライセンス |
The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、the article about the BLOOM Open RAIL license も参照してください。 |
モデルの説明 |
これは、テキストプロンプトとバウンディングボックスに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Model であり、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用しています。 |
詳細情報のリソース |
GitHub Repository, Paper |
引用形式 |
@article{li2023gligen, author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae}, title = {GLIGEN: Open-Set Grounded Text-to-Image Generation}, publisher = {arXiv:2301.07093}, year = {2023}, } |
使用方法
直接使用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下のようなものがあります。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限やバイアスの調査と理解。
- アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
- 教育や創造的なツールでの応用。
- 生成モデルに関する研究。
除外される使用方法については以下で説明します。
誤用、悪意のある使用、および範囲外の使用
注意: このセクションは DALLE-MINIモデルカード から引用されていますが、GLIGENにも同様に適用されます。
このモデルは、人々に敵意的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じると予想される画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人や出来事の事実的または真実の表現として訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。
誤用と悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下のようなものが含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または広めること。
- 本人の同意なしでの個人のなりすまし。
- 見る人の同意なしでの性的なコンテンツ。
- 誤情報とディスインフォメーション。
- 重大な暴力やグロテスクな表現。
- 著作権またはライセンスされた素材の使用条件に違反した共有。
- 著作権またはライセンスされた素材の改変コンテンツの使用条件に違反した共有。
制限とバイアス
制限
- このモデルは完全な写実性を達成することはできません。
- このモデルは読み取り可能なテキストをレンダリングすることはできません。
- このモデルは、「青い球体の上に赤い立方体」のような構成性を伴うより難しいタスクではうまく機能しません。
- 顔や人全体が適切に生成されない場合があります。
- このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- このモデルのオートエンコーダ部分は損失があります。
- このモデルは大規模なデータセット LAION-5B で訓練されており、成人向けの素材が含まれており、追加の安全メカニズムと考慮なしに製品で使用するには適していません。
- データセットの重複排除に追加の対策は取られていません。その結果、訓練データに重複している画像についてある程度の記憶が見られます。訓練データは https://rom1504.github.io/clip-retrieval/ で検索することができ、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
Stable Diffusion v1は LAION-2B(en) のサブセットで訓練されており、主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣っています。
セーフティモジュール
このモデルの意図された使用方法は、Diffusersの Safety Checker を使用することです。
このチェッカーは、モデルの出力を既知のハードコードされたNSFWコンセプトと比較することで機能します。
これらのコンセプトは、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。
具体的には、チェッカーは画像生成後に CLIPTextModel
の埋め込み空間で有害なコンセプトのクラス確率を比較します。
これらのコンセプトは、生成された画像とともにモデルに渡され、各NSFWコンセプトの手動で設計された重みと比較されます。
訓練
詳細については、GLIGEN
を参照してください。
引用
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
⚠️ 重要提示
このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスにより、権利と使用方法がさらに明確に規定されています。
CreativeML OpenRAILライセンスでは以下のことが規定されています。
- このモデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはなりません。
- 著者は、あなたが生成した出力に対して何らの権利も主張しません。あなたは自由にそれらを使用することができ、その使用について責任を負います。その使用は、ライセンスに定められた規定に違反してはなりません。
- あなたは、重みを再配布し、モデルを商業的におよび/またはサービスとして使用することができます。その場合、ライセンスに記載されているのと同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があることに注意してください(ライセンス全体を注意深く読んでください)。
完全なライセンスをここで注意深く読んでください:
https://huggingface.co/spaces/CompVis/stable-diffusion-license
このモデルカードは、Nikhil Gajendrakumar によって書かれ、DALL-E Miniモデルカード をベースにしています。