模型概述
模型特點
模型能力
使用案例
🚀 GLIGEN:開放式文本到圖像生成模型
GLIGEN模型能夠基於文本提示和邊界框生成和修改圖像,為圖像生成領域的研究和應用提供了強大的支持。
🚀 快速開始
我們推薦使用 🤗 的Diffusers庫 來運行GLIGEN。
PyTorch
pip install --upgrade diffusers transformers scipy
使用默認的PNDM調度器運行管道:
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image
# 在邊界框定義的區域插入文本描述的對象
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
"masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-1-4-inpainting-text-box.jpg")
✨ 主要特性
- 開放式文本到圖像生成:基於文本提示和邊界框生成和修改圖像。
- 條件輸入生成:可以根據文本和邊界框條件生成逼真的圖像。
- 圖像插入功能:可以在輸入圖像的指定區域插入文本描述的對象。
📦 安裝指南
使用以下命令安裝所需的庫:
pip install --upgrade diffusers transformers scipy
💻 使用示例
基礎用法
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image
# 在邊界框定義的區域插入文本描述的對象
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
"masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-1-4-inpainting-text-box.jpg")
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
開發者 | Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee |
模型類型 | 基於擴散的開放式文本到圖像生成模型 |
語言 | 英語 |
許可證 | CreativeML OpenRAIL M許可證 |
模型描述 | 該模型可以根據文本提示和邊界框生成和修改圖像。它是一個 潛在擴散模型,使用固定的預訓練文本編碼器 (CLIP ViT-L/14)。 |
更多信息資源 | GitHub倉庫,論文 |
引用格式 | @article{li2023gligen, author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae}, title = {GLIGEN: Open-Set Grounded Text-to-Image Generation}, publisher = {arXiv:2301.07093}, year = {2023}, } |
用途
直接用途
該模型僅用於研究目的,可能的研究領域和任務包括:
- 安全部署可能生成有害內容的模型。
- 探索和理解生成模型的侷限性和偏差。
- 生成藝術作品並用於設計和其他藝術過程。
- 在教育或創意工具中的應用。
- 生成模型的研究。
濫用、惡意使用和超出範圍的使用
該模型不應被用於故意創建或傳播對人造成敵對或排斥環境的圖像。這包括生成人們可預見會感到不安、痛苦或冒犯的圖像,或傳播歷史或當前刻板印象的內容。
- 超出範圍的使用:該模型未經過訓練以真實或準確地表示人物或事件,因此使用該模型生成此類內容超出了其能力範圍。
- 濫用和惡意使用:使用該模型生成對個人殘酷的內容是對該模型的濫用。這包括但不限於:
- 生成貶低、非人化或以其他方式傷害人們或其環境、文化、宗教等的表現形式。
- 故意推廣或傳播歧視性內容或有害刻板印象。
- 在未經個人同意的情況下冒充個人。
- 未經可能看到該內容的人的同意而生成性內容。
- 虛假信息和錯誤信息。
- 表現嚴重暴力和血腥場面。
- 違反版權或許可材料的使用條款進行分享。
- 違反版權或許可材料的使用條款對其進行修改後分享。
侷限性和偏差
侷限性
- 模型無法實現完美的逼真度。
- 模型無法渲染清晰可讀的文本。
- 模型在涉及組合性的更困難任務上表現不佳,例如渲染與 “一個紅色立方體在藍色球體上” 對應的圖像。
- 面部和人物一般可能無法正確生成。
- 模型主要使用英語字幕進行訓練,在其他語言中的效果不佳。
- 模型的自動編碼部分存在信息損失。
- 模型在大規模數據集 LAION - 5B 上進行訓練,該數據集包含成人內容,在沒有額外安全機制和考慮的情況下不適合產品使用。
- 數據集未進行去重處理,因此對於訓練數據中重複的圖像會有一定程度的記憶現象。可以在 [https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/) 上搜索訓練數據,以幫助檢測記憶的圖像。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。Stable Diffusion v1在 LAION - 2B(en) 的子集上進行訓練,該數據集主要由英語描述的圖像組成。使用其他語言的社區和文化的文本和圖像可能未得到充分考慮。這影響了模型的整體輸出,因為白人和西方文化通常被設定為默認值。此外,模型使用非英語提示生成內容的能力明顯低於使用英語提示的能力。
安全模塊
該模型的預期用途是與Diffusers中的 安全檢查器 一起使用。該檢查器通過將模型輸出與已知的硬編碼NSFW概念進行比較來工作。這些概念被故意隱藏,以降低反向工程此過濾器的可能性。具體來說,檢查器在圖像生成後,在 CLIPTextModel
的嵌入空間中比較有害概念的類概率。這些概念與生成的圖像一起傳入模型,並與每個NSFW概念的手工設計權重進行比較。
訓練
更多詳細信息請參考 GLIGEN。
引用
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
本模型卡片由 Nikhil Gajendrakumar 編寫,並基於 DALL - E Mini模型卡片。
📄 許可證
本模型使用 CreativeML OpenRAIL M許可證,這是一個 Open RAIL M許可證,改編自 BigScience 和 RAIL Initiative 在負責任AI許可領域的聯合工作。有關我們許可證所基於的 BLOOM Open RAIL許可證的文章 請參閱相關鏈接。
請仔細閱讀完整的許可證:https://huggingface.co/spaces/CompVis/stable-diffusion-license。
⚠️ 重要提示
本模型僅用於研究目的,請勿用於商業或其他非法用途。請遵守許可證的規定,不得使用該模型故意生成或分享非法或有害的輸出或內容。
💡 使用建議
在使用該模型時,建議使用 安全檢查器 來確保生成的內容符合規定。同時,由於模型主要使用英語字幕進行訓練,使用英語提示可能會獲得更好的效果。









