GLIGEN 1.4开源图像生成模型 - 凭文本提示与边界框修改、生成图像

首页

Gligen 1 4 Inpainting Text Box

由 masterful 开发

GLIGEN是一种基于扩散的落地文本生成图像模型，能够根据文本提示和边界框生成或修改图像。

文本生成图像开源协议:Openrail #文本定位生成 #边界框控制 #图像编辑

下载量 616

发布时间 : 8/8/2023

模型简介

GLIGEN模型通过文本提示和边界框输入，在指定区域插入文本描述的物体或生成新图像。支持图像到图像的转换任务，适用于创意设计和艺术创作。

模型特点

开放集落地生成

能够根据任意文本描述在图像指定区域生成或插入物体

精确区域控制

通过边界框输入实现生成内容的精确定位

图像编辑能力

支持在现有图像基础上进行局部修改和添加内容

模型能力

文本到图像生成

图像到图像转换

局部图像编辑

创意内容生成

使用案例

艺术创作

概念艺术设计

根据文本描述生成科幻或奇幻风格的概念艺术

可快速生成多样化创意方案

场景构建

在现有图像中添加新元素构建复杂场景

实现精确的场景元素布局

设计应用

产品原型设计

在产品图像中添加新设计元素

快速可视化设计概念

🚀 GLIGEN：开放式文本到图像生成模型

GLIGEN模型能够基于文本提示和边界框生成和修改图像，为图像生成领域的研究和应用提供了强大的支持。

🚀 快速开始

我们推荐使用 🤗 的Diffusers库来运行GLIGEN。

PyTorch

pip install --upgrade diffusers transformers scipy

使用默认的PNDM调度器运行管道：

import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image

# 在边界框定义的区域插入文本描述的对象
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
    "masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

input_image = load_image(
    "https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]

images = pipe(
    prompt=prompt,
    gligen_phrases=phrases,
    gligen_inpaint_image=input_image,
    gligen_boxes=boxes,
    gligen_scheduled_sampling_beta=1,
    output_type="pil",
    num_inference_steps=50,
).images

images[0].save("./gligen-1-4-inpainting-text-box.jpg")

✨ 主要特性

开放式文本到图像生成：基于文本提示和边界框生成和修改图像。
条件输入生成：可以根据文本和边界框条件生成逼真的图像。
图像插入功能：可以在输入图像的指定区域插入文本描述的对象。

📦 安装指南

使用以下命令安装所需的库：

pip install --upgrade diffusers transformers scipy

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image

# 在边界框定义的区域插入文本描述的对象
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
    "masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

input_image = load_image(
    "https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]

images = pipe(
    prompt=prompt,
    gligen_phrases=phrases,
    gligen_inpaint_image=input_image,
    gligen_boxes=boxes,
    gligen_scheduled_sampling_beta=1,
    output_type="pil",
    num_inference_steps=50,
).images

images[0].save("./gligen-1-4-inpainting-text-box.jpg")

📚 详细文档

模型详情

属性	详情
开发者	Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee
模型类型	基于扩散的开放式文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M许可证
模型描述	该模型可以根据文本提示和边界框生成和修改图像。它是一个潜在扩散模型，使用固定的预训练文本编码器 (CLIP ViT-L/14)。
更多信息资源	GitHub仓库，论文
引用格式	@article{li2023gligen, author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae}, title = {GLIGEN: Open-Set Grounded Text-to-Image Generation}, publisher = {arXiv:2301.07093}, year = {2023}, }

用途

直接用途

该模型仅用于研究目的，可能的研究领域和任务包括：

安全部署可能生成有害内容的模型。
探索和理解生成模型的局限性和偏差。
生成艺术作品并用于设计和其他艺术过程。
在教育或创意工具中的应用。
生成模型的研究。

滥用、恶意使用和超出范围的使用

该模型不应被用于故意创建或传播对人造成敌对或排斥环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像，或传播历史或当前刻板印象的内容。

超出范围的使用：该模型未经过训练以真实或准确地表示人物或事件，因此使用该模型生成此类内容超出了其能力范围。
滥用和恶意使用：使用该模型生成对个人残酷的内容是对该模型的滥用。这包括但不限于：
- 生成贬低、非人化或以其他方式伤害人们或其环境、文化、宗教等的表现形式。
- 故意推广或传播歧视性内容或有害刻板印象。
- 在未经个人同意的情况下冒充个人。
- 未经可能看到该内容的人的同意而生成性内容。
- 虚假信息和错误信息。
- 表现严重暴力和血腥场面。
- 违反版权或许可材料的使用条款进行分享。
- 违反版权或许可材料的使用条款对其进行修改后分享。

局限性和偏差

局限性

模型无法实现完美的逼真度。
模型无法渲染清晰可读的文本。
模型在涉及组合性的更困难任务上表现不佳，例如渲染与 “一个红色立方体在蓝色球体上” 对应的图像。
面部和人物一般可能无法正确生成。
模型主要使用英语字幕进行训练，在其他语言中的效果不佳。
模型的自动编码部分存在信息损失。
模型在大规模数据集 LAION - 5B 上进行训练，该数据集包含成人内容，在没有额外安全机制和考虑的情况下不适合产品使用。
数据集未进行去重处理，因此对于训练数据中重复的图像会有一定程度的记忆现象。可以在 [https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/) 上搜索训练数据，以帮助检测记忆的图像。

偏差

虽然图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。Stable Diffusion v1在 LAION - 2B(en) 的子集上进行训练，该数据集主要由英语描述的图像组成。使用其他语言的社区和文化的文本和图像可能未得到充分考虑。这影响了模型的整体输出，因为白人和西方文化通常被设定为默认值。此外，模型使用非英语提示生成内容的能力明显低于使用英语提示的能力。

安全模块

该模型的预期用途是与Diffusers中的安全检查器一起使用。该检查器通过将模型输出与已知的硬编码NSFW概念进行比较来工作。这些概念被故意隐藏，以降低反向工程此过滤器的可能性。具体来说，检查器在图像生成后，在 CLIPTextModel 的嵌入空间中比较有害概念的类概率。这些概念与生成的图像一起传入模型，并与每个NSFW概念的手工设计权重进行比较。

训练

更多详细信息请参考 GLIGEN。

引用

    @article{li2023gligen,
      author      = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
      title       = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
      publisher   = {arXiv:2301.07093},
      year        = {2023},
    }

本模型卡片由 Nikhil Gajendrakumar 编写，并基于 DALL - E Mini模型卡片。