NitroFusion開源圖像生成模型 - 高保真單步擴散，輕鬆創優質圖像

首頁

Nitrofusion

由ChenDY開發

通過動態對抗訓練實現高保真單步擴散的圖像生成模型

圖像生成 #單步文生圖 #對抗擴散蒸餾 #高保真圖像

下載量 490

發布時間 : 11/30/2024

模型概述

氮氣融合是一種基於對抗擴散蒸餾技術的文生圖模型，能夠實現1-4步快速生成高質量圖像，提供寫實和鮮豔兩種風格選擇。

模型特點

單步生成

支持僅需1步推理即可生成高質量圖像

雙風格選擇

提供照片級寫實和高飽和度色彩兩種風格模型

動態對抗訓練

採用時間步偏移技術優化多步推理效果

高效推理

1-4步即可完成圖像生成，顯著提升生成速度

模型能力

文本到圖像生成

快速圖像合成

風格化圖像生成

使用案例

創意設計

概念藝術創作

快速生成設計概念圖

1步生成可用草圖，4步獲得精細作品

內容生產

社交媒體配圖

批量生成風格統一的宣傳圖片

支持快速迭代不同風格方案

🚀 NitroFusion

NitroFusion是一個通過動態對抗訓練實現高保真單步擴散的項目。該項目提出了新的方法，在文本到圖像生成領域展現出高效且優質的圖像生成能力，為相關研究和應用提供了新的思路和工具。

基礎信息

屬性	詳情
基礎模型	tianweiy/DMD2、ByteDance/Hyper - SD、stabilityai/stable - diffusion - xl - base - 1.0
任務類型	文本到圖像
庫名稱	diffusers
標籤	文本到圖像、穩定擴散、SDXL、對抗擴散蒸餾

🚀 快速開始

你可以通過以下鏈接快速瞭解和體驗NitroFusion：

✨ 主要特性

模型概覽

nitrosd - realism_unet.safetensors：能生成具有精細細節的逼真圖像。
nitrosd - vibrant_unet.safetensors：生成的圖像具有鮮豔、飽和的色彩特徵。
兩個模型均支持1到4步推理。

💻 使用示例

基礎用法

首先，我們需要實現帶有時間步偏移的調度器以進行多步推理：

from diffusers import LCMScheduler
class TimestepShiftLCMScheduler(LCMScheduler):
    def __init__(self, *args, shifted_timestep=250, **kwargs):
        super().__init__(*args, **kwargs)
        self.register_to_config(shifted_timestep=shifted_timestep)
    def set_timesteps(self, *args, **kwargs):
        super().set_timesteps(*args, **kwargs)
        self.origin_timesteps = self.timesteps.clone()
        self.shifted_timesteps = (self.timesteps * self.config.shifted_timestep / self.config.num_train_timesteps).long()
        self.timesteps = self.shifted_timesteps
    def step(self, model_output, timestep, sample, generator=None, return_dict=True):
        if self.step_index is None:
            self._init_step_index(timestep)
        self.timesteps = self.origin_timesteps
        output = super().step(model_output, timestep, sample, generator, return_dict)
        self.timesteps = self.shifted_timesteps
        return output

然後，我們可以使用擴散器管道：

import torch
from diffusers import DiffusionPipeline, UNet2DConditionModel
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file
# Load model.
base_model_id = "stabilityai/stable-diffusion-xl-base-1.0"
repo = "ChenDY/NitroFusion"
# NitroSD-Realism
ckpt = "nitrosd-realism_unet.safetensors"
unet = UNet2DConditionModel.from_config(base_model_id, subfolder="unet").to("cuda", torch.float16)
unet.load_state_dict(load_file(hf_hub_download(repo, ckpt), device="cuda"))
scheduler = TimestepShiftLCMScheduler.from_pretrained(base_model_id, subfolder="scheduler", shifted_timestep=250)
scheduler.config.original_inference_steps = 4
# # NitroSD-Vibrant
# ckpt = "nitrosd-vibrant_unet.safetensors"
# unet = UNet2DConditionModel.from_config(base_model_id, subfolder="unet").to("cuda", torch.float16)
# unet.load_state_dict(load_file(hf_hub_download(repo, ckpt), device="cuda"))
# scheduler = TimestepShiftLCMScheduler.from_pretrained(base_model_id, subfolder="scheduler", shifted_timestep=500)
# scheduler.config.original_inference_steps = 4
pipe = DiffusionPipeline.from_pretrained(
    base_model_id,
    unet=unet,
    scheduler=scheduler,
    torch_dtype=torch.float16,
    variant="fp16",
).to("cuda")
prompt = "a photo of a cat"
image = pipe(
    prompt=prompt,
    num_inference_steps=1,  # NotroSD-Realism and -Vibrant both support 1 - 4 inference steps.
    guidance_scale=0,
).images[0]

ComfyUI使用方法

下載nitrosd - realism_comfyui.safetensors和nitrosd - vibrant_comfyui.safetensors，並將它們放在ComfyUI/models/checkpoints目錄下。
將ComfyUI - TimestepShiftModel倉庫克隆到ComfyUI/custom_nodes目錄下。
嘗試使用工作流！