gligen-xl-1024オープンソースモデル - SDXLと組み合わせてテキストから画像生成を行い、HuggingFaceスタイルのパイプラインを提供

ホーム

Gligen Xl 1024

jiuntianによって開発

SDXLバージョンのGLIGENアダプターをサポートし、HuggingFaceスタイルのパイプラインを提供し、テキストから画像生成タスクに使用されます。

テキスト生成画像オープンソースライセンス:Apache-2.0 #SDXLアダプター #テキストから画像生成 #オブジェクト位置制御

ダウンロード数 1,265

リリース時間 : 1/19/2025

モデル概要

このプロジェクトはSDXLのGLIGENアダプターの事前学習済み重みをオープンソース化し、diffusersパイプラインとトレーニングコードを提供し、テキストから画像生成タスクでオブジェクト位置制御をサポートします。

モデル特徴

SDXLサポート

Stable Diffusion XL (SDXL)にGLIGENアダプターサポートを提供し、モデルの適用範囲を拡張します。

オブジェクト位置制御

gligen_boxesパラメータを通じて生成画像内のオブジェクト位置を精密に制御できます。

Diffusers統合

HuggingFace diffusersスタイルのパイプラインを提供し、統合と使用が容易です。

モデル能力

テキストから画像生成

オブジェクト位置制御

高解像度画像生成(1024x1024)

使用事例

クリエイティブデザイン

シーン生成

特定のオブジェクトとレイアウトを含むシーン画像を生成します。例えば草原にいる犬など。

1024x1024解像度の高品質画像を生成可能

広告デザイン

広告素材生成

製品説明とレイアウト要件に基づいて広告素材画像を生成します。

画像内の製品位置を精密に制御可能

🚀 SDXL版GLIGENアダプタープロジェクト

このプロジェクトは、huggingfaceスタイルのパイプラインを備えたSDXLバージョンのGLIGENアダプターをサポートすることを目的としています。このプロジェクトは、InteractDiffusion XL の作成に向けた取り組みの一部です。詳細については、Githubリポジトリを参照してください。

📦 データセットとモデル情報

属性	详情
データセット	jiuntian/sa1b-sdxl-latents-1024、jiuntian/sa-1b_boxes_sdxl
ベースモデル	stabilityai/stable-diffusion-xl-base-1.0
パイプラインタグ	text-to-image
ライブラリ名	diffusers

✨ 主な機能

IGLIGEN は、diffusersフレームワーク上でGLIGENを再現し、トレーニング手順を再現しやすくしました。彼らはSD v1.4/v1.5、SD v2.0/v2.1用のコードと事前学習済みの重みを公開していますが、SDXLのサポートは大いに期待されています。このリポジトリでは、SDXL用のGLIGENアダプターの事前学習済み重みを、diffusersパイプラインとトレーニングコードとともにオープンソースで公開しています。GLIGENとIGLIGENの著者の皆様に感謝いたします。

💻 使用例

基本的な使用法

import torch
from diffusers import DiffusionPipeline

pipeline = DiffusionPipeline.from_pretrained(
    "jiuntian/gligen-xl-1024", trust_remote_code=True, torch_dtype=torch.float16
).to("cuda")

prompt = "An image of grassland with a dog."

# Image generation with GLIGEN
output_images = pipeline(
    prompt,
    num_inference_steps=50,
    height=1024, width=1024,
    gligen_scheduled_sampling_beta=0.4,
    gligen_boxes=[[0.1, 0.6, 0.3, 0.8]],
    gligen_phrases=["a dog"],
    num_images_per_prompt=1,
    output_type="pt"
).images

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

📚 引用

このリポジトリ (IGLIGEN-XL) の著者は、GLIGENとIGLIGENの著者とは関係がありません。IGLIGEN-XLはGLIGENとIGLIGENに基づいているため、IGLIGEN-XLのコードまたはアダプターを使用する場合は、元のGLIGENとIGLIGENの論文を引用していただけると幸いです。

@article{li2023gligen,
  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
  journal={CVPR},
  year={2023}
}
@article{lian2023llmgrounded,
  title={Llm-grounded diffusion: Enhancing prompt understanding of text-to-image diffusion models with large language models},
  author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
  journal={arXiv preprint arXiv:2305.13655},
  year={2023}
}

このプロジェクトは、InteractDiffusion XL の作成に向けた取り組みの一部です。IGLIGEN-XLのコード/学習済みの重みを使用する場合は、InteractDiffusionを引用していただけると幸いです。

@inproceedings{hoe2023interactdiffusion,
  title={InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models}, 
  author={Jiun Tian Hoe and Xudong Jiang and Chee Seng Chan and Yap-Peng Tan and Weipeng Hu},
  year={2024},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
}