Gligen_Inpainting_Text_Image開源圖像生成模型 - 根據提示和圖像生成逼真畫面

首頁

Gligen Inpainting Text Image

由anhnct開發

GLIGEN是一種基於擴散的接地文本到圖像生成模型，能夠根據文本提示、邊界框和參考圖像生成逼真圖像。

文本生成圖像開源協議:Openrail #文本引導圖像生成 #邊界框控制 #開放集對象插入

下載量 108

發布時間 : 8/23/2023

模型概述

該模型可以根據文本提示、邊界框和參考圖像生成圖像，支持在指定區域內插入新對象或風格，無需額外微調。

模型特點

開放集接地生成

支持根據文本提示和邊界框在指定區域內生成或插入對象，無需額外微調。

多模態輸入

支持文本、邊界框和參考圖像作為輸入，靈活控制生成內容。

高質量生成

基於擴散模型和CLIP ViT-L/14文本編碼器，生成逼真圖像。

模型能力

文本生成圖像

圖像編輯

對象插入

使用案例

藝術創作

藝術作品生成

根據文本提示生成藝術作品，用於設計或創意過程。

生成符合描述的藝術圖像

教育工具

教學輔助

生成教學用圖像，幫助學生理解抽象概念。

生成直觀的教學圖像

研究

生成模型研究

探索和理解生成模型的侷限性和偏見。

提供研究數據和案例

🚀 GLIGEN：開放式基礎文本到圖像生成

GLIGEN模型由來自威斯康星大學麥迪遜分校、哥倫比亞大學和微軟的研究人員和工程師創建。[StableDiffusionGLIGENTextImagePipeline]能夠根據基礎輸入生成逼真的圖像。

除了文本和邊界框外，如果提供了輸入圖像，此管道可以將文本描述的對象插入到邊界框定義的區域中。否則，它將生成由標題/提示描述的圖像，並將文本描述的對象插入到邊界框定義的區域中。該模型在COCO2014D和COCO2014CD數據集上進行訓練，並使用凍結的CLIP ViT - L/14文本編碼器來根據基礎輸入進行條件設置。

這裡的權重旨在與🧨 Diffusers庫一起使用。如果您想使用官方檢查點進行某項任務，請探索gligen Hub組織！

🚀 快速開始

我們建議使用🤗的Diffusers庫來運行GLIGEN。

安裝

pip install --upgrade diffusers transformers scipy

運行示例

運行帶有默認調度器的管道：

# 使用參考圖像在生成的圖像中添加對象
import torch
from diffusers import StableDiffusionGLIGENTextImagePipeline
from diffusers.utils import load_image

pipe = StableDiffusionGLIGENTextImagePipeline.from_pretrained("anhnct/Gligen_Inpainting_Text_Image", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

input_image = load_image(
    "https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)

prompt = "a backpack"
boxes = [[0.2676, 0.4088, 0.4773, 0.7183]]
phrases = None
gligen_image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/backpack.jpeg"
)

images = pipe(
    prompt=prompt,
    gligen_phrases=phrases,
    gligen_inpaint_image=input_image,
    gligen_images=[gligen_image],
    gligen_boxes=boxes,
    gligen_scheduled_sampling_beta=1,
    output_type="pil",
    num_inference_steps=50,
).images

images[0].save("./gligen-inpainting-text-image-box.jpg")

✨ 主要特性

可根據文本提示、邊界框和參考圖像生成圖像。
無需使用文本反轉、DreamBooth或LoRA微調，即可在生成的圖像中添加新對象或風格。

📦 安裝指南

使用以下命令安裝所需的庫：

pip install --upgrade diffusers transformers scipy

💻 使用示例

基礎用法

# 使用參考圖像在生成的圖像中添加對象
import torch
from diffusers import StableDiffusionGLIGENTextImagePipeline
from diffusers.utils import load_image

pipe = StableDiffusionGLIGENTextImagePipeline.from_pretrained("anhnct/Gligen_Inpainting_Text_Image", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

input_image = load_image(
    "https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)

prompt = "a backpack"
boxes = [[0.2676, 0.4088, 0.4773, 0.7183]]
phrases = None
gligen_image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/backpack.jpeg"
)

images = pipe(
    prompt=prompt,
    gligen_phrases=phrases,
    gligen_inpaint_image=input_image,
    gligen_images=[gligen_image],
    gligen_boxes=boxes,
    gligen_scheduled_sampling_beta=1,
    output_type="pil",
    num_inference_steps=50,
).images

images[0].save("./gligen-inpainting-text-image-box.jpg")

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee
模型類型	基於擴散的基礎文本到圖像生成模型
語言	英語
許可證	CreativeML OpenRAIL M許可證是一種Open RAIL M許可證，改編自BigScience和RAIL Initiative在負責任的AI許可領域的聯合工作。另見關於BLOOM Open RAIL許可證的文章，我們的許可證基於此。
模型描述	這是一個可根據文本提示、邊界框和參考圖像生成圖像的模型。它無需使用文本反轉、DreamBooth或LoRA微調，即可在生成的圖像中添加新對象或風格。它是一個潛在擴散模型，使用固定的預訓練文本編碼器(CLIP ViT - L/14)來根據基礎輸入進行條件設置。
更多信息資源	GitHub倉庫，論文

用途

直接使用

該模型僅用於研究目的。可能的研究領域和任務包括：

安全部署有可能生成有害內容的模型。
探索和理解生成模型的侷限性和偏差。
生成藝術作品並用於設計和其他藝術過程。
在教育或創意工具中的應用。
對生成模型的研究。

濫用、惡意使用和超出範圍的使用

該模型不應被用於故意創建或傳播會為人們創造敵對或疏離環境的圖像。這包括生成人們可預見會感到不安、痛苦或冒犯的圖像；或傳播歷史或當前刻板印象的內容。

超出範圍的使用

該模型並非用於生成真實或準確反映人物或事件的內容，因此使用該模型生成此類內容超出了該模型的能力範圍。

濫用和惡意使用

使用該模型生成對個人殘忍的內容是對該模型的濫用。這包括但不限於：

生成貶低、非人性化或以其他方式有害的人物或其環境、文化、宗教等的表現形式。
故意推廣或傳播歧視性內容或有害的刻板印象。
在未經個人同意的情況下冒充他人。
未經可能看到該內容的人的同意而生成性內容。
錯誤信息和虛假信息。
令人震驚的暴力和血腥場面的表現形式。
違反使用條款分享受版權保護或許可的材料。
違反使用條款分享受版權保護或許可材料的修改內容。

侷限性和偏差

侷限性

模型無法實現完美的逼真度。
模型無法渲染清晰可讀的文本。
模型在涉及組合性的更困難任務上表現不佳，例如渲染與“紅色立方體在藍色球體上”對應的圖像。
面部和人物通常可能無法正確生成。
模型主要使用英語字幕進行訓練，在其他語言中的效果不佳。
模型的自動編碼部分存在信息損失。
模型在大規模數據集LAION - 5B上進行訓練，該數據集包含成人內容，在沒有額外安全機制和考慮的情況下不適合用於產品。
未使用額外措施對數據集進行去重。因此，我們觀察到對於訓練數據中重複的圖像存在一定程度的記憶現象。可以在[https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/)上搜索訓練數據，以協助檢測記憶的圖像。

偏差

雖然圖像生成模型的能力令人印象深刻，但它們也可能強化或加劇社會偏差。Stable Diffusion v1在LAION - 2B(en)的子集上進行訓練，該子集主要由英語描述的圖像組成。使用其他語言的社區和文化的文本和圖像可能未得到充分考慮。這影響了模型的整體輸出，因為白人及西方文化通常被設定為默認。此外，該模型使用非英語提示生成內容的能力明顯低於使用英語提示的能力。

安全模塊

該模型的預期用途是與Diffusers中的安全檢查器一起使用。該檢查器通過將模型輸出與已知的硬編碼NSFW概念進行比較來工作。這些概念被故意隱藏，以降低反向工程此過濾器的可能性。具體而言，檢查器在圖像生成之後，在CLIPTextModel的嵌入空間中比較有害概念的類別概率。這些概念與生成的圖像一起傳入模型，並與每個NSFW概念的手工設計權重進行比較。

🔧 技術細節

該模型使用凍結的CLIP ViT - L/14文本編碼器來根據基礎輸入進行條件設置，並且在COCO2014D和COCO2014CD數據集上進行訓練。

📄 許可證

該模型使用CreativeML OpenRAIL M許可證。

引用

    @article{li2023gligen,
      author      = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
      title       = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
      publisher   = {arXiv:2301.07093},
      year        = {2023},
    }

此模型卡片由Nguyễn Công Tú Anh編寫，並基於DALL - E Mini模型卡片。