controlnet-openpose-sdxl-1.0開源模型 - 利用姿態條件控制Stable Diffusion圖像生成

首頁

Controlnet Openpose Sdxl 1.0

由thibaud開發

基於Stable Diffusion XL的ControlNet模型，使用OpenPose v2姿態條件控制圖像生成

圖像生成開源協議:其他 #姿態控制圖像生成 #高精度人體姿態 #SDXL適配ControlNet

下載量 40.82k

發布時間 : 8/13/2023

模型概述

該模型通過OpenPose姿態檢測技術控制圖像生成過程，特別適用於需要精確姿態控制的場景，如舞蹈、動作捕捉等。

模型特點

OpenPose v2支持

使用最新版OpenPose姿態檢測技術，提供更精確的人體姿態控制

Stable Diffusion XL基礎

基於強大的Stable Diffusion XL模型，生成高質量圖像

精確姿態控制

通過姿態條件精確控制生成圖像中人物的動作和姿勢

模型能力

姿態控制圖像生成

高質量圖像合成

人物動作精確控制

使用案例

藝術創作

舞蹈動作生成

根據特定舞蹈姿勢生成藝術圖像

示例展示了芭蕾舞者在日落下的優美姿態

角色動作設計

為虛構角色設計特定動作姿勢

示例展示了達斯·維達在沙漠中跳舞的效果

內容創作

廣告圖像生成

根據特定產品展示需求生成人物姿勢

🚀 SDXL-controlnet: OpenPose (v2)

SDXL-controlnet: OpenPose (v2) 是基於 stabilityai/stable-diffusion-xl-base-1.0 訓練得到的 ControlNet 權重，使用 OpenPose (v2) 進行條件控制。它可以實現文本到圖像的轉換，通過輸入特定的文本描述，生成相應的圖像。

✨ 主要特性

基於 Stable Diffusion XL 基礎模型，結合 OpenPose (v2) 條件控制，能夠生成具有特定姿態的圖像。
支持在 🧨 diffusers 庫中使用，方便開發者進行集成和調用。

📦 安裝指南

首先，安裝所有必要的庫：

pip install -q controlnet_aux transformers accelerate
pip install -q git+https://github.com/huggingface/diffusers

💻 使用示例

基礎用法

以下是一個使用該模型生成圖像的示例代碼，讓 Darth Vader 在沙漠中跳舞：

from diffusers import AutoencoderKL, StableDiffusionXLControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import OpenposeDetector
from diffusers.utils import load_image

# Compute openpose conditioning image.
openpose = OpenposeDetector.from_pretrained("lllyasviel/ControlNet")

image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/person.png"
)
openpose_image = openpose(image)

# Initialize ControlNet pipeline.
controlnet = ControlNetModel.from_pretrained("thibaud/controlnet-openpose-sdxl-1.0", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()

# Infer.
prompt = "Darth vader dancing in a desert, high quality"
negative_prompt = "low quality, bad quality"
images = pipe(
    prompt, 
    negative_prompt=negative_prompt,
    num_inference_steps=25,
    num_images_per_prompt=4,
    image=openpose_image.resize((1024, 1024)),
    generator=torch.manual_seed(97),
).images
images[0]