模型简介
模型特点
模型能力
使用案例
🚀 GLIGEN:开放式文本到图像生成模型
GLIGEN模型能够基于文本提示和边界框生成和修改图像,为图像生成领域的研究和应用提供了强大的支持。
🚀 快速开始
我们推荐使用 🤗 的Diffusers库 来运行GLIGEN。
PyTorch
pip install --upgrade diffusers transformers scipy
使用默认的PNDM调度器运行管道:
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image
# 在边界框定义的区域插入文本描述的对象
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
"masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-1-4-inpainting-text-box.jpg")
✨ 主要特性
- 开放式文本到图像生成:基于文本提示和边界框生成和修改图像。
- 条件输入生成:可以根据文本和边界框条件生成逼真的图像。
- 图像插入功能:可以在输入图像的指定区域插入文本描述的对象。
📦 安装指南
使用以下命令安装所需的库:
pip install --upgrade diffusers transformers scipy
💻 使用示例
基础用法
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image
# 在边界框定义的区域插入文本描述的对象
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
"masterful/gligen-1-4-inpainting-text-box", variant="fp16", torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
input_image = load_image(
"https://hf.co/datasets/huggingface/documentation-images/resolve/main/diffusers/gligen/livingroom_modern.png"
)
prompt = "a birthday cake"
boxes = [[0.2676, 0.6088, 0.4773, 0.7183]]
phrases = ["a birthday cake"]
images = pipe(
prompt=prompt,
gligen_phrases=phrases,
gligen_inpaint_image=input_image,
gligen_boxes=boxes,
gligen_scheduled_sampling_beta=1,
output_type="pil",
num_inference_steps=50,
).images
images[0].save("./gligen-1-4-inpainting-text-box.jpg")
📚 详细文档
模型详情
属性 | 详情 |
---|---|
开发者 | Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang, Jianfeng Gao, Chunyuan Li, Yong Jae Lee |
模型类型 | 基于扩散的开放式文本到图像生成模型 |
语言 | 英语 |
许可证 | CreativeML OpenRAIL M许可证 |
模型描述 | 该模型可以根据文本提示和边界框生成和修改图像。它是一个 潜在扩散模型,使用固定的预训练文本编码器 (CLIP ViT-L/14)。 |
更多信息资源 | GitHub仓库,论文 |
引用格式 | @article{li2023gligen, author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae}, title = {GLIGEN: Open-Set Grounded Text-to-Image Generation}, publisher = {arXiv:2301.07093}, year = {2023}, } |
用途
直接用途
该模型仅用于研究目的,可能的研究领域和任务包括:
- 安全部署可能生成有害内容的模型。
- 探索和理解生成模型的局限性和偏差。
- 生成艺术作品并用于设计和其他艺术过程。
- 在教育或创意工具中的应用。
- 生成模型的研究。
滥用、恶意使用和超出范围的使用
该模型不应被用于故意创建或传播对人造成敌对或排斥环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像,或传播历史或当前刻板印象的内容。
- 超出范围的使用:该模型未经过训练以真实或准确地表示人物或事件,因此使用该模型生成此类内容超出了其能力范围。
- 滥用和恶意使用:使用该模型生成对个人残酷的内容是对该模型的滥用。这包括但不限于:
- 生成贬低、非人化或以其他方式伤害人们或其环境、文化、宗教等的表现形式。
- 故意推广或传播歧视性内容或有害刻板印象。
- 在未经个人同意的情况下冒充个人。
- 未经可能看到该内容的人的同意而生成性内容。
- 虚假信息和错误信息。
- 表现严重暴力和血腥场面。
- 违反版权或许可材料的使用条款进行分享。
- 违反版权或许可材料的使用条款对其进行修改后分享。
局限性和偏差
局限性
- 模型无法实现完美的逼真度。
- 模型无法渲染清晰可读的文本。
- 模型在涉及组合性的更困难任务上表现不佳,例如渲染与 “一个红色立方体在蓝色球体上” 对应的图像。
- 面部和人物一般可能无法正确生成。
- 模型主要使用英语字幕进行训练,在其他语言中的效果不佳。
- 模型的自动编码部分存在信息损失。
- 模型在大规模数据集 LAION - 5B 上进行训练,该数据集包含成人内容,在没有额外安全机制和考虑的情况下不适合产品使用。
- 数据集未进行去重处理,因此对于训练数据中重复的图像会有一定程度的记忆现象。可以在 [https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/) 上搜索训练数据,以帮助检测记忆的图像。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。Stable Diffusion v1在 LAION - 2B(en) 的子集上进行训练,该数据集主要由英语描述的图像组成。使用其他语言的社区和文化的文本和图像可能未得到充分考虑。这影响了模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,模型使用非英语提示生成内容的能力明显低于使用英语提示的能力。
安全模块
该模型的预期用途是与Diffusers中的 安全检查器 一起使用。该检查器通过将模型输出与已知的硬编码NSFW概念进行比较来工作。这些概念被故意隐藏,以降低反向工程此过滤器的可能性。具体来说,检查器在图像生成后,在 CLIPTextModel
的嵌入空间中比较有害概念的类概率。这些概念与生成的图像一起传入模型,并与每个NSFW概念的手工设计权重进行比较。
训练
更多详细信息请参考 GLIGEN。
引用
@article{li2023gligen,
author = {Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
title = {GLIGEN: Open-Set Grounded Text-to-Image Generation},
publisher = {arXiv:2301.07093},
year = {2023},
}
本模型卡片由 Nikhil Gajendrakumar 编写,并基于 DALL - E Mini模型卡片。
📄 许可证
本模型使用 CreativeML OpenRAIL M许可证,这是一个 Open RAIL M许可证,改编自 BigScience 和 RAIL Initiative 在负责任AI许可领域的联合工作。有关我们许可证所基于的 BLOOM Open RAIL许可证的文章 请参阅相关链接。
请仔细阅读完整的许可证:https://huggingface.co/spaces/CompVis/stable-diffusion-license。
⚠️ 重要提示
本模型仅用于研究目的,请勿用于商业或其他非法用途。请遵守许可证的规定,不得使用该模型故意生成或分享非法或有害的输出或内容。
💡 使用建议
在使用该模型时,建议使用 安全检查器 来确保生成的内容符合规定。同时,由于模型主要使用英语字幕进行训练,使用英语提示可能会获得更好的效果。









