🚀 SDXL版GLIGENアダプタープロジェクト
このプロジェクトは、huggingfaceスタイルのパイプラインを備えたSDXLバージョンのGLIGENアダプターをサポートすることを目的としています。このプロジェクトは、InteractDiffusion XL の作成に向けた取り組みの一部です。詳細については、Githubリポジトリ を参照してください。
📦 データセットとモデル情報
属性 |
详情 |
データセット |
jiuntian/sa1b-sdxl-latents-1024、jiuntian/sa-1b_boxes_sdxl |
ベースモデル |
stabilityai/stable-diffusion-xl-base-1.0 |
パイプラインタグ |
text-to-image |
ライブラリ名 |
diffusers |
✨ 主な機能
IGLIGEN は、diffusersフレームワーク上でGLIGENを再現し、トレーニング手順を再現しやすくしました。彼らはSD v1.4/v1.5、SD v2.0/v2.1用のコードと事前学習済みの重みを公開していますが、SDXLのサポートは大いに期待されています。このリポジトリでは、SDXL用のGLIGENアダプターの事前学習済み重みを、diffusersパイプラインとトレーニングコードとともにオープンソースで公開しています。GLIGENとIGLIGENの著者の皆様に感謝いたします。
💻 使用例
基本的な使用法
import torch
from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained(
"jiuntian/gligen-xl-1024", trust_remote_code=True, torch_dtype=torch.float16
).to("cuda")
prompt = "An image of grassland with a dog."
output_images = pipeline(
prompt,
num_inference_steps=50,
height=1024, width=1024,
gligen_scheduled_sampling_beta=0.4,
gligen_boxes=[[0.1, 0.6, 0.3, 0.8]],
gligen_phrases=["a dog"],
num_images_per_prompt=1,
output_type="pt"
).images
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で公開されています。
📚 引用
このリポジトリ (IGLIGEN-XL) の著者は、GLIGENとIGLIGENの著者とは関係がありません。IGLIGEN-XLはGLIGENとIGLIGENに基づいているため、IGLIGEN-XLのコードまたはアダプターを使用する場合は、元のGLIGENとIGLIGENの論文を引用していただけると幸いです。
@article{li2023gligen,
title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
journal={CVPR},
year={2023}
}
@article{lian2023llmgrounded,
title={Llm-grounded diffusion: Enhancing prompt understanding of text-to-image diffusion models with large language models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}
このプロジェクトは、InteractDiffusion XL の作成に向けた取り組みの一部です。IGLIGEN-XLのコード/学習済みの重みを使用する場合は、InteractDiffusionを引用していただけると幸いです。
@inproceedings{hoe2023interactdiffusion,
title={InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models},
author={Jiun Tian Hoe and Xudong Jiang and Chee Seng Chan and Yap-Peng Tan and Weipeng Hu},
year={2024},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
}