relismoilumi開源圖像生成模型 - 免費部署，憑文本提示創作編輯高清圖

首頁

Relismoilumi

由aaronamortegui開發

基於擴散的文本生成圖像模型，支持通過文本提示生成和編輯高質量圖像

圖像生成 #文本生成圖像 #高分辨率生成 #藝術創作

下載量 181

發布時間 : 3/9/2023

模型概述

Stable Diffusion v2-1是基於潛在擴散模型的文本生成圖像系統，採用OpenCLIP-ViT/H作為文本編碼器，支持768x768分辨率圖像生成。該版本在v2基礎上通過安全過濾策略進行了優化訓練。

模型特點

高分辨率生成

支持最高768x768分辨率的圖像生成，比前代模型有顯著提升

安全過濾優化

採用punsafe參數進行分級訓練，平衡生成質量與內容安全性

OpenCLIP文本編碼

使用OpenCLIP-ViT/H作為文本編碼器，提供更好的文本理解能力

潛在空間效率

通過8倍下采樣的潛在表示空間進行擴散，大幅降低計算資源需求

模型能力

文本生成圖像

圖像編輯

藝術創作

設計輔助

使用案例

創意設計

概念藝術創作

為遊戲/影視行業快速生成概念藝術圖

可快速迭代多種設計風格

平面設計

生成廣告、海報等設計素材

提供高質量基礎素材

教育研究

生成模型研究

研究生成模型的侷限性與偏差

可用於學術論文實驗

教學演示

展示AI生成藝術的技術原理

生動直觀的教學工具

🚀 Stable Diffusion v2-1 模型卡片

本模型卡片聚焦於 Stable Diffusion v2-1 模型，代碼庫可在此處獲取。

stable-diffusion-2-1 模型是在 stable-diffusion-2 (768-v-ema.ckpt) 的基礎上進行微調得到的。它在相同數據集上額外訓練了 55k 步（punsafe=0.1），然後又以 punsafe=0.98 進行了 155k 步的微調。

可結合 stablediffusion 倉庫使用：在此處下載 v2-1_768-ema-pruned.ckpt。
也可結合 🧨 diffusers 使用。

✨ 主要特性

基於文本提示生成和修改圖像。
採用固定的預訓練文本編碼器 OpenCLIP-ViT/H 的潛在擴散模型。

📦 安裝指南

使用 🤗 的 Diffusers 庫能簡單高效地運行 Stable Diffusion 2。

pip install diffusers transformers accelerate scipy safetensors

💻 使用示例

基礎用法

運行管道（若不更換調度器，將使用默認的 DDIM 運行，此示例中我們將其更換為 DPMSolverMultistepScheduler）：

from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# 此處使用 DPMSolverMultistepScheduler (DPM-Solver++) 調度器
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

高級用法

⚠️ 重要提示

儘管 xformers 不是必需依賴項，但我們強烈建議安裝它以實現內存高效的注意力機制（提升性能）。

💡 使用建議

若你的 GPU 顯存有限，在將模型發送到 cuda 後添加 pipe.enable_attention_slicing() 以減少顯存使用（代價是速度會變慢）。

📚 詳細文檔

模型詳情

開發者：Robin Rombach、Patrick Esser
模型類型：基於擴散的文本到圖像生成模型
語言：英語
許可證：CreativeML Open RAIL++-M 許可證
模型描述：這是一個可基於文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用固定的預訓練文本編碼器 (OpenCLIP-ViT/H)。
更多信息資源：GitHub 倉庫
引用格式：

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

用途

直接使用

該模型僅用於研究目的。可能的研究領域和任務包括：

安全部署有生成有害內容潛力的模型。
探究和理解生成模型的侷限性和偏差。
生成藝術作品並用於設計和其他藝術創作過程。
應用於教育或創意工具。
生成模型的研究。

禁止使用情況

本部分內容最初取自 DALLE-MINI 模型卡片，曾用於 Stable Diffusion v1，同樣適用於 Stable Diffusion v2。

該模型不得用於故意創建或傳播會給人們造成敵對或疏離環境的圖像。這包括生成人們可預見會感到不安、痛苦或冒犯的圖像；或傳播歷史或當前刻板印象的內容。

超出適用範圍的使用

該模型並非用於真實準確地呈現人物或事件，因此使用該模型生成此類內容超出了其能力範圍。

濫用和惡意使用

使用該模型生成對個人殘酷的內容屬於濫用行為。這包括但不限於：

生成貶低、非人化或以其他方式傷害人們或其環境、文化、宗教等的表徵。
故意推廣或傳播歧視性內容或有害刻板印象。
在未經同意的情況下冒充他人。
未經可能看到該內容的人的同意而生成性內容。
虛假和誤導性信息。
令人髮指的暴力和血腥畫面。
違反使用條款分享受版權保護或有許可的材料。
違反使用條款分享對受版權保護或有許可的材料進行修改後的內容。

侷限性和偏差

侷限性

模型無法實現完美的照片寫實效果。
模型無法渲染清晰可讀的文本。
模型在涉及組合性的更復雜任務上表現不佳，例如渲染與 “A red cube on top of a blue sphere” 對應的圖像。
面部和人物通常無法正確生成。
模型主要使用英語字幕進行訓練，在其他語言中的效果不佳。
模型的自動編碼部分存在信息損失。
模型在大規模數據集 LAION-5B 的一個子集上進行訓練，該數據集包含成人、暴力和性內容。為部分緩解此問題，我們使用 LAION 的 NFSW 檢測器對數據集進行了過濾（見訓練部分）。

偏差

雖然圖像生成模型的能力令人印象深刻，但它們也可能強化或加劇社會偏差。Stable Diffusion 主要在 LAION-2B(en) 的子集上進行訓練，這些圖像僅限於英語描述。來自使用其他語言的社區和文化的文本和圖像可能未得到充分考慮。這影響了模型的整體輸出，因為白人和西方文化通常被設定為默認。此外，模型使用非英語提示生成內容的能力明顯不如使用英語提示。Stable Diffusion v2 反映並加劇了這種偏差，無論輸入或意圖如何，都建議用戶謹慎使用。

訓練

訓練數據

模型開發者使用以下數據集進行模型訓練：

LAION-5B 及其子集（詳情如下）。訓練數據使用 LAION 的 NSFW 檢測器進一步過濾，“p_unsafe” 分數為 0.1（保守）。更多詳情，請參考 LAION-5B 的 NeurIPS 2022 論文和關於該主題的評審討論。

訓練過程

Stable Diffusion v2 是一個潛在擴散模型，它將自動編碼器與在自動編碼器潛在空間中訓練的擴散模型相結合。訓練過程如下：

圖像通過編碼器進行編碼，將圖像轉換為潛在表示。自動編碼器使用相對下采樣因子 8，將形狀為 H x W x 3 的圖像映射到形狀為 H/f x W/f x 4 的潛在表示。
文本提示通過 OpenCLIP-ViT/H 文本編碼器進行編碼。
文本編碼器的輸出通過交叉注意力輸入到潛在擴散模型的 UNet 主幹中。
損失是添加到潛在表示的噪聲與 UNet 預測之間的重建目標。我們還使用所謂的 v-objective，詳見 https://arxiv.org/abs/2202.00512。

目前提供以下檢查點：

512-base-ema.ckpt：在 LAION-5B 的一個過濾掉明確色情內容的子集上，以 256x256 分辨率訓練 550k 步，使用 LAION-NSFW 分類器且 punsafe=0.1，美學分數 >= 4.5。在相同數據集上以 512x512 分辨率（分辨率 >= 512x512）再訓練 850k 步。
768-v-ema.ckpt：從 512-base-ema.ckpt 恢復訓練，在同一數據集上使用 v-objective 訓練 150k 步。在數據集的 768x768 子集上再訓練 140k 步。
512-depth-ema.ckpt：從 512-base-ema.ckpt 恢復訓練並微調 200k 步。添加一個額外的輸入通道來處理 MiDaS (dpt_hybrid) 產生的（相對）深度預測，作為額外的條件。處理此額外信息的 U-Net 額外輸入通道初始化為零。
512-inpainting-ema.ckpt：從 512-base-ema.ckpt 恢復訓練並再訓練 200k 步。遵循 LAMA 中提出的掩碼生成策略，結合被掩碼圖像的潛在 VAE 表示作為額外條件。處理此額外信息的 U-Net 額外輸入通道初始化為零。用於訓練 1.5-inpainting 檢查點的策略與此相同。
x4-upscaling-ema.ckpt：在包含 >2048x2048 圖像的 LAION 的 10M 子集上訓練 1250k 步。模型在 512x512 大小的裁剪圖像上進行訓練，是一個文本引導的潛在上採樣擴散模型。除了文本輸入外，它還接收一個 noise_level 作為輸入參數，可根據預定義的擴散時間表向低分辨率輸入添加噪聲。
硬件：32 x 8 x A100 GPUs
優化器：AdamW
梯度累積：1
批次大小：32 x 8 x 2 x 4 = 2048
學習率：在 10000 步內熱身到 0.0001，然後保持不變

評估結果

使用不同的無分類器引導尺度（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）和 50 步 DDIM 採樣步驟進行評估，顯示了各檢查點的相對改進：

pareto

使用 50 步 DDIM 採樣和來自 COCO2017 驗證集的 10000 個隨機提示進行評估，分辨率為 512x512。未針對 FID 分數進行優化。

環境影響

Stable Diffusion v1 估計排放量

基於該信息，我們使用 Lacoste 等人 (2019) 中提出的機器學習影響計算器估計了以下 CO2 排放量。我們利用硬件、運行時間、雲服務提供商和計算區域來估計碳影響。

屬性	詳情
硬件類型	A100 PCIe 40GB
使用時長	200000 小時
雲服務提供商	AWS
計算區域	US-east
碳排放（功耗 x 時間 x 基於電網位置產生的碳排放量）	15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

本模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 撰寫，基於 Stable Diffusion v1 和 DALL-E Mini 模型卡片。