sd-controlnet-depth開源圖像生成模型 - 按深度約束生成高質量圖像

首頁

Sd Controlnet Depth

由lllyasviel開發

ControlNet是一種通過深度估計條件控制Stable Diffusion的神經網絡結構，可生成符合深度約束的圖像。

圖像生成其他開源協議:Openrail #深度圖控制 #圖像條件生成 #Stable Diffusion擴展

下載量 11.41k

發布時間 : 2/24/2023

模型概述

基於深度估計條件的ControlNet模型，通過額外輸入條件控制預訓練的大型擴散模型，支持生成符合特定深度結構的圖像。

模型特點

深度條件控制

通過灰度深度圖（黑深白淺）精確控制生成圖像的立體結構

小數據訓練

僅需5萬以下樣本即可穩健學習任務特定條件

設備兼容性

支持在個人設備上完成訓練，也可擴展至大規模計算集群

模型能力

基於深度圖生成圖像

圖像結構精確控制

與Stable Diffusion兼容

使用案例

藝術創作

三維場景重建

根據深度圖生成具有正確透視關係的藝術場景

示例顯示可準確保持原始深度結構（如風暴兵案例）

設計輔助

產品原型可視化

通過簡略深度草圖快速生成高保真渲染圖

🚀 Controlnet - 深度版本

ControlNet是一種神經網絡結構，通過添加額外條件來控制擴散模型。此檢查點對應於基於深度估計的ControlNet，可與Stable Diffusion結合使用。

✨ 主要特性

能夠為預訓練的大型擴散模型添加額外輸入條件，支持如邊緣圖、分割圖、關鍵點等多種條件輸入。
以端到端的方式學習特定任務條件，即使訓練數據集較小（< 50k），學習過程也很穩健。
訓練速度與微調擴散模型相當，可在個人設備上進行訓練，也能在強大的計算集群上處理大量數據。

📦 安裝指南

若要使用該模型，需安裝diffusers及相關依賴包：

$ pip install diffusers transformers accelerate

💻 使用示例

基礎用法

from transformers import pipeline
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
from PIL import Image
import numpy as np
import torch
from diffusers.utils import load_image

depth_estimator = pipeline('depth-estimation')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")

image = depth_estimator(image)['depth']
image = np.array(image)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-depth", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("Stormtrooper's lecture", image, num_inference_steps=20).images[0]

image.save('./images/stormtrooper_depth_out.png')

stormtrooper

stormtrooler_depth

stormtrooler_depth_out

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Lvmin Zhang, Maneesh Agrawala
模型類型	基於擴散的文生圖生成模型
語言	英文
許可證	The CreativeML OpenRAIL M license 是一種 Open RAIL M license，改編自 BigScience 和 the RAIL Initiative 在負責任AI許可領域的聯合工作。有關我們所使用許可證的更多信息，請參閱關於BLOOM Open RAIL許可證的文章。
更多信息資源	GitHub倉庫，論文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

發佈的檢查點

作者發佈了8種不同的檢查點，每種都基於 Stable Diffusion v1 - 5 在不同類型的條件下進行訓練：

模型名稱	控制圖像概述	控制圖像示例	生成圖像示例
lllyasviel/sd-controlnet-canny 基於Canny邊緣檢測訓練	黑色背景上帶有白色邊緣的單色圖像。
lllyasviel/sd-controlnet-depth 基於Midas深度估計訓練	黑色代表深區域，白色代表淺區域的灰度圖像。
lllyasviel/sd-controlnet-hed 基於HED邊緣檢測（軟邊緣）訓練	黑色背景上帶有白色軟邊緣的單色圖像。
lllyasviel/sd-controlnet-mlsd 基於M - LSD線檢測訓練	黑色背景上僅由白色直線組成的單色圖像。
lllyasviel/sd-controlnet-normal 基於法線貼圖訓練	法線貼圖圖像。
lllyasviel/sd-controlnet_openpose 基於OpenPose骨骼圖像訓練	OpenPose骨骼圖像。
lllyasviel/sd-controlnet_scribble 基於人工塗鴉訓練	黑色背景上帶有白色輪廓的手繪單色圖像。
lllyasviel/sd-controlnet_seg 基於語義分割訓練	ADE20K 的分割協議圖像。