sd-controlnet-depth开源图像生成模型 - 按深度约束生成高质量图像

首页

Sd Controlnet Depth

由 lllyasviel 开发

ControlNet是一种通过深度估计条件控制Stable Diffusion的神经网络结构，可生成符合深度约束的图像。

图像生成其他开源协议:Openrail #深度图控制 #图像条件生成 #Stable Diffusion扩展

下载量 11.41k

发布时间 : 2/24/2023

模型简介

基于深度估计条件的ControlNet模型，通过额外输入条件控制预训练的大型扩散模型，支持生成符合特定深度结构的图像。

模型特点

深度条件控制

通过灰度深度图（黑深白浅）精确控制生成图像的立体结构

小数据训练

仅需5万以下样本即可稳健学习任务特定条件

设备兼容性

支持在个人设备上完成训练，也可扩展至大规模计算集群

模型能力

基于深度图生成图像

图像结构精确控制

与Stable Diffusion兼容

使用案例

艺术创作

三维场景重建

根据深度图生成具有正确透视关系的艺术场景

示例显示可准确保持原始深度结构（如风暴兵案例）

设计辅助

产品原型可视化

通过简略深度草图快速生成高保真渲染图

🚀 Controlnet - 深度版本

ControlNet是一种神经网络结构，通过添加额外条件来控制扩散模型。此检查点对应于基于深度估计的ControlNet，可与Stable Diffusion结合使用。

✨ 主要特性

能够为预训练的大型扩散模型添加额外输入条件，支持如边缘图、分割图、关键点等多种条件输入。
以端到端的方式学习特定任务条件，即使训练数据集较小（< 50k），学习过程也很稳健。
训练速度与微调扩散模型相当，可在个人设备上进行训练，也能在强大的计算集群上处理大量数据。

📦 安装指南

若要使用该模型，需安装diffusers及相关依赖包：

$ pip install diffusers transformers accelerate

💻 使用示例

基础用法

from transformers import pipeline
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
from PIL import Image
import numpy as np
import torch
from diffusers.utils import load_image

depth_estimator = pipeline('depth-estimation')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")

image = depth_estimator(image)['depth']
image = np.array(image)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-depth", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("Stormtrooper's lecture", image, num_inference_steps=20).images[0]

image.save('./images/stormtrooper_depth_out.png')

stormtrooper

stormtrooler_depth

stormtrooler_depth_out

📚 详细文档

模型详情

属性	详情
开发者	Lvmin Zhang, Maneesh Agrawala
模型类型	基于扩散的文生图生成模型
语言	英文
许可证	The CreativeML OpenRAIL M license 是一种 Open RAIL M license，改编自 BigScience 和 the RAIL Initiative 在负责任AI许可领域的联合工作。有关我们所使用许可证的更多信息，请参阅关于BLOOM Open RAIL许可证的文章。
更多信息资源	GitHub仓库，论文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

发布的检查点

作者发布了8种不同的检查点，每种都基于 Stable Diffusion v1 - 5 在不同类型的条件下进行训练：

模型名称	控制图像概述	控制图像示例	生成图像示例
lllyasviel/sd-controlnet-canny 基于Canny边缘检测训练	黑色背景上带有白色边缘的单色图像。
lllyasviel/sd-controlnet-depth 基于Midas深度估计训练	黑色代表深区域，白色代表浅区域的灰度图像。
lllyasviel/sd-controlnet-hed 基于HED边缘检测（软边缘）训练	黑色背景上带有白色软边缘的单色图像。
lllyasviel/sd-controlnet-mlsd 基于M - LSD线检测训练	黑色背景上仅由白色直线组成的单色图像。
lllyasviel/sd-controlnet-normal 基于法线贴图训练	法线贴图图像。
lllyasviel/sd-controlnet_openpose 基于OpenPose骨骼图像训练	OpenPose骨骼图像。
lllyasviel/sd-controlnet_scribble 基于人工涂鸦训练	黑色背景上带有白色轮廓的手绘单色图像。
lllyasviel/sd-controlnet_seg 基于语义分割训练	ADE20K 的分割协议图像。