🚀 GLIGEN: オープンセット接地型テキストから画像生成
GLIGENモデルは、ウィスコンシン大学マディソン校、コロンビア大学、マイクロソフトの研究者やエンジニアによって作成されました。
[StableDiffusionGLIGENTextImagePipeline
] は、接地入力に基づいて写実的な画像を生成することができます。
テキストとバウンディングボックスに加えて、入力画像が与えられた場合、このパイプラインはバウンディングボックスで定義された領域にテキストで記述されたオブジェクトを挿入することができます。
そうでない場合、キャプション/プロンプトで記述された画像を生成し、バウンディングボックスで定義された領域にテキストで記述されたオブジェクトを挿入します。このモデルはCOCO2014DおよびCOCO2014CDデータセットでトレーニングされており、凍結されたCLIP ViT-L/14テキストエンコーダを使用して接地入力に基づいて条件付けを行います。
ここにある重みは、🧨 Diffusersライブラリで使用することを想定しています。タスクに公式チェックポイントを使用したい場合は、gligen Hub組織を探索してください!
🚀 クイックスタート
💻 使用例
基本的な使用法
pip install --upgrade diffusers transformers scipy
import torch
from diffusers import StableDiffusionGLIGENTextImagePipeline
from diffusers.utils import load_image
pipe = StableDiffusionGLIGENTextImagePipeline.from_pretrained("anhnct/Gligen_Inpainting_Text_Image", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a backpack"
boxes = [[0.2676, 0.4088, 0.4773, 0.7183]]
phrases = None
gligen_image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/backpack.jpeg"
)
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_images=[gligen_image],
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-inpainting-text-image-box.jpg")
✨ 主な機能
- テキストプロンプト、バウンディングボックス、参照画像に基づいて画像を生成できます。
- テキスト逆変換、DreamBooth、LoRA微調整を使用せずに、生成画像に新しいオブジェクトやスタイルを追加できます。
📦 インストール
pip install --upgrade diffusers transformers scipy
📚 ドキュメント
モデル詳細
属性 |
详情 |
開発者 |
Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee |
モデルタイプ |
拡散ベースの接地型テキストから画像生成モデル |
言語 |
英語 |
ライセンス |
The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。 |
モデル説明 |
これは、テキストプロンプト、バウンディングボックス、参照画像に基づいて画像を生成するために使用できるモデルです。テキスト逆変換、DreamBooth、LoRA微調整を使用せずに、生成画像に新しいオブジェクトやスタイルを追加できます。これは、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用する Latent Diffusion Model です。 |
詳細情報のリソース |
GitHub Repository, Paper |
引用形式 |
@article{li2023gligen, author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae}, title = {GLIGEN: Open-Set Grounded Text-to-Image Generation}, publisher = {arXiv:2301.07093}, year = {2023}, } |
用途
直接利用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限やバイアスの調査と理解。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育または創造的ツールへの応用。
- 生成モデルの研究。
除外される用途については以下で説明します。
誤用、悪意のある使用、および範囲外の使用
*注: このセクションは DALLE-MINIモデルカード から引用されていますが、GLIGENにも同様に適用されます。
このモデルは、人々に敵意や疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するようにトレーニングされていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。
誤用と悪意のある使用
このモデルを個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または拡散すること。
- 本人の同意なしでの個人のなりすまし。
- 見る人の同意なしの性的なコンテンツ。
- 誤情報と偽情報。
- 重大な暴力や残虐な描写。
- 著作権またはライセンスのある素材をその使用条件に違反して共有すること。
- 著作権またはライセンスのある素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- このモデルは完全な写実性を達成しません。
- このモデルは読み取り可能なテキストをレンダリングできません。
- このモデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
- 顔や人物全体が適切に生成されない場合があります。
- このモデルは主に英語のキャプションでトレーニングされており、他の言語ではうまく機能しません。
- このモデルのオートエンコーディング部分は損失があります。
- このモデルは大規模データセット LAION-5B でトレーニングされており、これには成人向けの素材が含まれており、追加の安全メカニズムと考慮なしでは製品での使用に適していません。
- データセットの重複排除に追加の対策は使用されていません。その結果、トレーニングデータに重複する画像についてある程度の記憶が見られます。トレーニングデータは https://rom1504.github.io/clip-retrieval/ で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
Stable Diffusion v1は LAION-2B(en) のサブセットでトレーニングされており、これは主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。
セーフティモジュール
このモデルの意図された使用方法は、Diffusersの Safety Checker を使用することです。
このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と比較することで機能します。
これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。
具体的には、チェッカーは画像の生成 後 に CLIPTextModel
の埋め込み空間で有害な概念のクラス確率を比較します。
これらの概念は生成された画像とともにモデルに渡され、各NSFW概念に対する手動で設計された重みと比較されます。
トレーニング
詳細については、GLIGEN
を参照してください。
📄 ライセンス
The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
引用
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
このモデルカードは Nguyễn Công Tú Anh によって書かれており、DALL-E Miniモデルカード に基づいています。