ControlNet v1.1開源AI模型 - 支持瓦片圖像條件的免費圖像生成與超分

首頁

Control V11f1e Sd15 Tile

由lllyasviel開發

ControlNet v1.1 是一個通過添加額外條件來控制預訓練大型擴散模型的神經網絡結構，特別適用於基於瓦片圖像條件的圖像生成和超分辨率任務。

圖像生成其他開源協議:Openrail #圖像超分辨率 #細節增強 #分塊處理

下載量 14.39k

發布時間 : 5/4/2023

模型概述

該模型基於 Stable Diffusion v1-5 訓練，能夠根據輸入的瓦片圖像條件生成高質量圖像，適用於圖像增強、細節生成等場景。

模型特點

瓦片圖像條件控制

能夠根據輸入的瓦片圖像條件生成相同大小的高質量細節圖像，類似於超分辨率模型但功能更廣泛。

高效訓練

即使在小數據集（<5萬樣本）上也能保持穩健學習，訓練速度與微調擴散模型相當。

兼容性強

可與 Stable Diffusion v1-5 及其他擴散模型（如 dreamboothed stable diffusion）配合使用。

模型能力

圖像超分辨率

細節增強

條件圖像生成

圖像到圖像轉換

使用案例

圖像處理

圖像細節增強

對低分辨率或模糊圖像進行細節增強和超分辨率處理

生成與輸入圖像相同大小但包含更豐富細節的高質量圖像

藝術創作

基於瓦片圖像條件生成藝術風格圖像

保持輸入圖像結構的同時添加藝術風格細節

🚀 Controlnet - v1.1 - Tile版本

Controlnet v1.1是一種強大的神經網絡結構，可通過添加額外條件來控制擴散模型。本項目提供了該模型的特定版本（Tile版本），可與Stable Diffusion結合使用，為圖像生成帶來更多可能性。

🚀 快速開始

Controlnet v1.1 由 Lvmin Zhang 在 lllyasviel/ControlNet-v1-1 中發佈。

此檢查點是將原始檢查點轉換為 diffusers 格式後的版本。它可以與 Stable Diffusion 結合使用，例如 runwayml/stable-diffusion-v1-5。

更多詳細信息，請查看 🧨 Diffusers文檔。

ControlNet是一種神經網絡結構，通過添加額外條件來控制擴散模型。

此檢查點對應於基於 平鋪圖像 進行條件控制的ControlNet。從概念上講，它類似於超分辨率模型，但用途不僅限於此，也可以生成與輸入（條件）圖像相同大小的細節。

本模型由 takuma104 貢獻

✨ 主要特性

可與Stable Diffusion結合使用，增強圖像生成能力。
基於平鋪圖像進行條件控制，適用於多種圖像生成場景。
訓練速度快，可在個人設備上進行訓練。

📦 安裝指南

安裝依賴包

$ pip install diffusers transformers accelerate

💻 使用示例

基礎用法

import torch
from PIL import Image
from diffusers import ControlNetModel, DiffusionPipeline
from diffusers.utils import load_image

def resize_for_condition_image(input_image: Image, resolution: int):
    input_image = input_image.convert("RGB")
    W, H = input_image.size
    k = float(resolution) / min(H, W)
    H *= k
    W *= k
    H = int(round(H / 64.0)) * 64
    W = int(round(W / 64.0)) * 64
    img = input_image.resize((W, H), resample=Image.LANCZOS)
    return img

controlnet = ControlNetModel.from_pretrained('lllyasviel/control_v11f1e_sd15_tile', 
                                             torch_dtype=torch.float16)
pipe = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",
                                         custom_pipeline="stable_diffusion_controlnet_img2img",
                                         controlnet=controlnet,
                                         torch_dtype=torch.float16).to('cuda')
pipe.enable_xformers_memory_efficient_attention()

source_image = load_image('https://huggingface.co/lllyasviel/control_v11f1e_sd15_tile/resolve/main/images/original.png')

condition_image = resize_for_condition_image(source_image, 1024)
image = pipe(prompt="best quality", 
             negative_prompt="blur, lowres, bad anatomy, bad hands, cropped, worst quality", 
             image=condition_image, 
             controlnet_conditioning_image=condition_image, 
             width=condition_image.size[0],
             height=condition_image.size[1],
             strength=1.0,
             generator=torch.manual_seed(0),
             num_inference_steps=32,
            ).images[0]

image.save('output.png')

original tile_output

高級用法

暫無高級用法示例，你可以根據基礎用法進行擴展和調整。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Lvmin Zhang, Maneesh Agrawala
模型類型	基於擴散的文本到圖像生成模型
語言	英語
許可證	CreativeML OpenRAIL M許可證是一種 Open RAIL M許可證，改編自 BigScience 和 RAIL Initiative 在負責任AI許可領域的工作。有關我們許可證所基於的 BLOOM Open RAIL許可證的文章也可供參考。
更多信息資源	GitHub倉庫，論文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

模型介紹

Controlnet由Lvmin Zhang和Maneesh Agrawala在 Adding Conditional Control to Text-to-Image Diffusion Models 中提出。

論文摘要如下：

我們提出了一種神經網絡結構ControlNet，用於控制預訓練的大型擴散模型以支持額外的輸入條件。ControlNet以端到端的方式學習特定任務的條件，即使訓練數據集較小（< 50k），學習過程也很穩健。此外，訓練ControlNet的速度與微調擴散模型的速度一樣快，並且可以在個人設備上進行訓練。或者，如果有強大的計算集群可用，模型可以擴展到處理大量（數百萬到數十億）的數據。我們報告稱，像Stable Diffusion這樣的大型擴散模型可以通過ControlNet進行增強，以支持邊緣圖、分割圖、關鍵點等條件輸入。這可能會豐富控制大型擴散模型的方法，並進一步促進相關應用的發展。

其他已發佈的檢查點 v1-1

作者發佈了14種不同的檢查點，每種都在 Stable Diffusion v1-5 上針對不同類型的條件進行了訓練：

模型名稱	控制圖像概述	條件圖像
lllyasviel/control_v11p_sd15_canny	使用Canny邊緣檢測進行訓練	黑色背景上帶有白色邊緣的單色圖像。
lllyasviel/control_v11e_sd15_ip2p	使用像素到像素指令進行訓練	無特定條件。
lllyasviel/control_v11p_sd15_inpaint	使用圖像修復進行訓練	無特定條件。
lllyasviel/control_v11p_sd15_mlsd	使用多級線段檢測進行訓練	帶有註釋線段的圖像。
lllyasviel/control_v11f1p_sd15_depth	使用深度估計進行訓練	帶有深度信息的圖像，通常表示為灰度圖像。
lllyasviel/control_v11p_sd15_normalbae	使用表面法線估計進行訓練	帶有表面法線信息的圖像，通常表示為彩色編碼圖像。
lllyasviel/control_v11p_sd15_seg	使用圖像分割進行訓練	帶有分割區域的圖像，通常表示為彩色編碼圖像。
lllyasviel/control_v11p_sd15_lineart	使用線稿生成進行訓練	帶有線稿的圖像，通常是白色背景上的黑色線條。
lllyasviel/control_v11p_sd15s2_lineart_anime	使用動漫線稿生成進行訓練	帶有動漫風格線稿的圖像。
lllyasviel/control_v11p_sd15_openpose	使用人體姿態估計進行訓練	帶有人體姿態的圖像，通常表示為一組關鍵點或骨架。
lllyasviel/control_v11p_sd15_scribble	使用基於塗鴉的圖像生成進行訓練	帶有塗鴉的圖像，通常是隨機或用戶繪製的筆觸。
lllyasviel/control_v11p_sd15_softedge	使用軟邊緣圖像生成進行訓練	帶有軟邊緣的圖像，通常用於創建更具繪畫感或藝術效果的圖像。
lllyasviel/control_v11e_sd15_shuffle	使用圖像打亂進行訓練	帶有打亂的補丁或區域的圖像。
lllyasviel/control_v11f1e_sd15_tile	使用圖像平鋪進行訓練	模糊圖像或圖像的一部分。