t2iadapter_zoedepth_sd15v1开源模型 - 为Stable Diffusion 1.5提供深度估计条件控制

T2iadapter Zoedepth Sd15v1

由 TencentARC 开发

T2I适配器是为Stable Diffusion提供额外条件控制的网络架构，本检查点专为Stable Diffusion 1.5模型提供基于Zoedepth深度估计的条件控制。

图像生成其他开源协议:Apache-2.0 #深度条件控制 #StableDiffusion适配 #图像结构生成

下载量 1,669

发布时间 : 7/14/2023

模型简介

T2I适配器是一种为Stable Diffusion提供额外条件控制的网络架构，能够接收不同类型条件输入并与特定基础Stable Diffusion检查点配合使用。本检查点专为Stable Diffusion 1.5模型提供基于Zoedepth深度估计的条件控制。

模型特点

深度条件控制

通过Zoedepth深度估计提供精确的空间结构控制

轻量适配器架构

无需重新训练整个模型，只需添加小型适配器网络

与Stable Diffusion兼容

专为Stable Diffusion 1.5模型设计，无缝集成

模型能力

基于深度图的图像生成

空间结构控制

文本到图像生成

使用案例

创意设计

建筑可视化

根据深度图生成具有精确空间结构的建筑渲染图

保持原始深度结构的同时实现艺术化渲染

产品设计

基于产品深度图生成不同风格的展示图

保留产品几何特征的同时改变材质和风格

艺术创作

深度引导艺术创作

使用深度图引导生成具有特定空间布局的艺术作品

实现艺术风格与空间结构的完美结合

🚀 T2I Adapter - Zoedepth

T2I Adapter是一个为稳定扩散模型提供额外条件的网络。每个T2I检查点接收不同类型的条件作为输入，并与特定的基础稳定扩散检查点一起使用。

此检查点为稳定扩散1.5检查点提供基于ZoeDepth深度估计的条件。

🚀 快速开始

依赖安装

pip install diffusers transformers matplotlib

运行代码

from PIL import Image
import torch
import numpy as np
import matplotlib
from diffusers import T2IAdapter, StableDiffusionAdapterPipeline

def colorize(value, vmin=None, vmax=None, cmap='gray_r', invalid_val=-99, invalid_mask=None, background_color=(128, 128, 128, 255), gamma_corrected=False, value_transform=None):
    """Converts a depth map to a color image.

    Args:
        value (torch.Tensor, numpy.ndarry): Input depth map. Shape: (H, W) or (1, H, W) or (1, 1, H, W). All singular dimensions are squeezed
        vmin (float, optional): vmin-valued entries are mapped to start color of cmap. If None, value.min() is used. Defaults to None.
        vmax (float, optional):  vmax-valued entries are mapped to end color of cmap. If None, value.max() is used. Defaults to None.
        cmap (str, optional): matplotlib colormap to use. Defaults to 'magma_r'.
        invalid_val (int, optional): Specifies value of invalid pixels that should be colored as 'background_color'. Defaults to -99.
        invalid_mask (numpy.ndarray, optional): Boolean mask for invalid regions. Defaults to None.
        background_color (tuple[int], optional): 4-tuple RGB color to give to invalid pixels. Defaults to (128, 128, 128, 255).
        gamma_corrected (bool, optional): Apply gamma correction to colored image. Defaults to False.
        value_transform (Callable, optional): Apply transform function to valid pixels before coloring. Defaults to None.

    Returns:
        numpy.ndarray, dtype - uint8: Colored depth map. Shape: (H, W, 4)
    """
    if isinstance(value, torch.Tensor):
        value = value.detach().cpu().numpy()

    value = value.squeeze()
    if invalid_mask is None:
        invalid_mask = value == invalid_val
    mask = np.logical_not(invalid_mask)

    # normalize
    vmin = np.percentile(value[mask],2) if vmin is None else vmin
    vmax = np.percentile(value[mask],85) if vmax is None else vmax
    if vmin != vmax:
        value = (value - vmin) / (vmax - vmin)  # vmin..vmax
    else:
        # Avoid 0-division
        value = value * 0.

    # squeeze last dim if it exists
    # grey out the invalid values

    value[invalid_mask] = np.nan
    cmapper = matplotlib.cm.get_cmap(cmap)
    if value_transform:
        value = value_transform(value)
        # value = value / value.max()
    value = cmapper(value, bytes=True)  # (nxmx4)

    img = value[...]
    img[invalid_mask] = background_color

    if gamma_corrected:
        img = img / 255
        img = np.power(img, 2.2)
        img = img * 255
        img = img.astype(np.uint8)
    return img

model = torch.hub.load("isl-org/ZoeDepth", "ZoeD_N", pretrained=True)

img = Image.open('./images/zoedepth_in.png')

out = model.infer_pil(img)

zoedepth_image = Image.fromarray(colorize(out)).convert('RGB')

zoedepth_image.save('images/zoedepth.png')

adapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_zoedepth_sd15v1", torch_dtype=torch.float16)
pipe = StableDiffusionAdapterPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", adapter=adapter, safety_checker=None, torch_dtype=torch.float16, variant="fp16"
)

pipe.to('cuda')
zoedepth_image_out = pipe(prompt="motorcycle", image=zoedepth_image).images[0]

zoedepth_image_out.save('images/zoedepth_out.png')

zoedepth_in zoedepth_out

✨ 主要特性

T2I Adapter网络能够为稳定扩散模型提供额外的条件输入，每个T2I检查点可接收不同类型的条件，与特定的基础稳定扩散检查点配合使用，增强了文本到图像扩散模型的可控性。

📚 详细文档

模型详情

开发者：T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
模型类型：基于扩散的文本到图像生成模型
语言：英语
许可证：Apache 2.0
更多信息资源：GitHub仓库，论文。
引用方式：

@misc{
    title={T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models}, 
    author={Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie},
    year={2023},
    eprint={2302.08453},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

检查点

模型名称	控制图像概述	控制图像示例	生成图像示例
TencentARC/t2iadapter_color_sd14v1 使用空间调色板训练	一张8x8调色板的图像。
TencentARC/t2iadapter_canny_sd14v1 使用Canny边缘检测训练	一张黑色背景上带有白色边缘的单色图像。
TencentARC/t2iadapter_sketch_sd14v1 使用PidiNet边缘检测训练	一张黑色背景上带有白色轮廓的手绘单色图像。
TencentARC/t2iadapter_depth_sd14v1 使用Midas深度估计训练	一张灰度图像，黑色代表深区域，白色代表浅区域。
TencentARC/t2iadapter_openpose_sd14v1 使用OpenPose骨骼图像训练	一张OpenPose骨骼图像。
TencentARC/t2iadapter_keypose_sd14v1 使用mmpose骨架图像训练	一张mmpose骨架图像。
TencentARC/t2iadapter_seg_sd14v1 使用语义分割训练	一张自定义分割协议图像。
TencentARC/t2iadapter_canny_sd15v2
TencentARC/t2iadapter_depth_sd15v2
TencentARC/t2iadapter_sketch_sd15v2
TencentARC/t2iadapter_zoedepth_sd15v1