gligen-xl-1024開源模型 - 配合SDXL做文本生成圖像，提供HuggingFace風格管道

首頁

Gligen Xl 1024

由jiuntian開發

支持SDXL版本的GLIGEN適配器，提供HuggingFace風格的管道，用於文本生成圖像任務。

文本生成圖像開源協議:Apache-2.0 #SDXL適配器 #文本生成圖像 #對象定位控制

下載量 1,265

發布時間 : 1/19/2025

模型概述

該項目開源了SDXL的GLIGEN適配器預訓練權重，同時提供了diffusers管道和訓練代碼，支持在文本生成圖像任務中進行對象定位控制。

模型特點

SDXL支持

為Stable Diffusion XL (SDXL)提供了GLIGEN適配器支持，擴展了模型的應用範圍。

對象定位控制

通過gligen_boxes參數可以精確控制生成圖像中對象的位置。

Diffusers集成

提供HuggingFace diffusers風格的管道，便於集成和使用。

模型能力

文本生成圖像

對象定位控制

高分辨率圖像生成(1024x1024)

使用案例

創意設計

場景生成

生成包含特定對象和佈局的場景圖像，如草原上的狗。

可生成1024x1024分辨率的高質量圖像

廣告設計

廣告素材生成

根據產品描述和佈局要求生成廣告素材圖像。

可精確控制產品在圖像中的位置

🚀 SDXL版GLIGEN適配器項目

本項目旨在藉助Hugging Face風格的管道，支持SDXL版本的GLIGEN適配器。該項目是創建InteractDiffusion XL工作的一部分。更多詳細信息請訪問Github倉庫。

📦 安裝信息

屬性	詳情
數據集	jiuntian/sa1b-sdxl-latents-1024、jiuntian/sa-1b_boxes_sdxl
基礎模型	stabilityai/stable-diffusion-xl-base-1.0
管道標籤	text-to-image
庫名稱	diffusers
許可證	apache-2.0

✨ 主要特性

IGLIGEN在Diffusers框架上覆現了GLIGEN，並使訓練過程更易於復現。他們已經發布了適用於SD v1.4/v1.5、SD v2.0/v2.1的代碼和預訓練權重，但對SDXL的支持仍備受期待。本倉庫開源了適用於SDXL的GLIGEN適配器的預訓練權重，以及Diffusers管道和訓練代碼。我們感謝GLIGEN和IGLIGEN的作者們所做的工作。

💻 使用示例

基礎用法

import torch
from diffusers import DiffusionPipeline

pipeline = DiffusionPipeline.from_pretrained(
    "jiuntian/gligen-xl-1024", trust_remote_code=True, torch_dtype=torch.float16
).to("cuda")

prompt = "An image of grassland with a dog."

# Image generation with GLIGEN
output_images = pipeline(
    prompt,
    num_inference_steps=50,
    height=1024, width=1024,
    gligen_scheduled_sampling_beta=0.4,
    gligen_boxes=[[0.1, 0.6, 0.3, 0.8]],
    gligen_phrases=["a dog"],
    num_images_per_prompt=1,
    output_type="pt"
).images

📚 詳細文檔

本倉庫（IGLIGEN - XL）的作者與GLIGEN和IGLIGEN的作者沒有關聯。由於IGLIGEN - XL基於GLIGEN和IGLIGEN，如果你使用IGLIGEN - XL的代碼或適配器，請考慮引用原始的GLIGEN和IGLIGEN論文：

@article{li2023gligen,
  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
  journal={CVPR},
  year={2023}
}
@article{lian2023llmgrounded,
  title={Llm-grounded diffusion: Enhancing prompt understanding of text-to-image diffusion models with large language models},
  author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
  journal={arXiv preprint arXiv:2305.13655},
  year={2023}
}

該項目是創建InteractDiffusion XL工作的一部分。

如果你使用IGLIGEN - XL的代碼/訓練權重，請考慮引用InteractDiffusion：

@inproceedings{hoe2023interactdiffusion,
  title={InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models}, 
  author={Jiun Tian Hoe and Xudong Jiang and Chee Seng Chan and Yap-Peng Tan and Weipeng Hu},
  year={2024},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
}