coreml-stable-diffusion-2-1-base開源模型 - 免費實現高分辨率圖像合成與編輯

首頁

Coreml Stable Diffusion 2 1 Base

由pcuenq開發

基於潛在擴散模型的文本生成圖像系統，支持高分辨率圖像合成與編輯

圖像生成開源協議:其他 #蘋果硅優化 #文本到圖像生成 #藝術創作工具

下載量 164

發布時間 : 12/23/2022

模型概述

該模型可根據文本提示生成和修改圖像，使用OpenCLIP-ViT/H作為文本編碼器，在LAION-5B數據集子集上訓練

模型特點

蘋果硬件優化

提供Core ML格式權重，專為蘋果硅芯片優化，支持Swift/Python推理

安全過濾

訓練數據經過NSFW過濾器處理（p_unsafe=0.1閾值），並採用兩階段微調策略

高分辨率生成

支持768x768分辨率圖像生成，基於v-目標函數優化

模型能力

文本生成圖像

圖像編輯

藝術創作

風格遷移

使用案例

藝術創作

概念設計

根據文字描述生成藝術概念圖

快速可視化創意構思

數字藝術

生成各種風格的數字藝術作品

支持多種藝術風格輸出

教育研究

生成模型研究

探究擴散模型的侷限性與偏見

可用於學術論文實驗

🚀 Stable Diffusion v2 模型卡片

Stable Diffusion v2 是一個基於擴散的文本到圖像生成模型，可根據文本提示生成和修改圖像。本模型由 Hugging Face 使用 Apple 的倉庫生成，該倉庫採用 ASCL 許可證。

🚀 快速開始

使用 diffusers：可參考示例進行使用。
使用 stablediffusion 倉庫：從這裡下載 512-base-ema.ckpt 文件。

✨ 主要特性

多變體支持：提供了 4 種 Core ML 權重變體，包括不同的注意力機制和推理方式，適用於 Swift 和 Python 推理。
跨平臺使用：可在 Apple Silicon 硬件上使用，也可結合不同的庫和倉庫進行調用。

📦 安裝指南

文檔未提及具體安裝命令，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Robin Rombach, Patrick Esser
模型類型	基於擴散的文本到圖像生成模型
語言	英語
許可證	CreativeML Open RAIL++ - M 許可證
模型描述	這是一個可根據文本提示生成和修改圖像的模型，是一個潛在擴散模型，使用了固定的預訓練文本編碼器 (OpenCLIP - ViT/H)。
更多信息資源	[GitHub 倉庫](https://github.com/Stability - AI/)
引用方式	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High - Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684 - 10695} }

使用方式

直接使用

該模型僅用於研究目的，可能的研究領域和任務包括：

安全部署可能生成有害內容的模型。
探索和理解生成模型的侷限性和偏差。
生成藝術作品並用於設計和其他藝術過程。
在教育或創意工具中的應用。
生成模型的研究。

禁止使用情況

該模型不應被用於故意創建或傳播對人造成敵意或疏離環境的圖像，包括生成人們可預見會感到不安、痛苦或冒犯的圖像，或傳播歷史或當前刻板印象的內容。

超出範圍的使用：該模型未經過訓練以真實或準確地表示人物或事件，因此使用該模型生成此類內容超出了其能力範圍。
濫用和惡意使用：使用該模型生成對個人殘忍的內容屬於濫用行為，包括但不限於生成貶低、非人化或其他有害的人物或其環境、文化、宗教等的表示；故意推廣或傳播歧視性內容或有害刻板印象；未經同意冒充個人；未經可能看到的人的同意生成性內容；虛假和誤導性信息；嚴重暴力和血腥的表示；違反使用條款分享受版權保護或許可的材料；違反使用條款分享對受版權保護或許可材料的修改內容。

侷限性和偏差

侷限性

模型無法實現完美的照片寫實主義。
模型無法渲染清晰可讀的文本。
模型在涉及組合性的更困難任務上表現不佳，例如渲染與 “紅色立方體在藍色球體上” 對應的圖像。
面部和人物通常可能無法正確生成。
模型主要使用英語字幕進行訓練，在其他語言上的表現不佳。
模型的自動編碼部分存在信息損失。
模型在大規模數據集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 的一個子集上進行訓練，該數據集包含成人、暴力和性內容。為部分緩解此問題，使用 LAION 的 NFSW 檢測器對數據集進行了過濾。

偏差

圖像生成模型雖然功能強大，但也可能強化或加劇社會偏差。Stable Diffusion v2 主要在 [LAION - 2B(en)](https://laion.ai/blog/laion - 5b/) 的子集上進行訓練，該數據集的圖像描述僅限於英語。使用其他語言的社區和文化的文本和圖像可能未得到充分考慮，這影響了模型的整體輸出，因為白人文化和西方文化通常被設為默認。此外，模型使用非英語提示生成內容的能力明顯低於使用英語提示的情況。Stable Diffusion v2 反映並加劇了偏差，因此無論輸入或意圖如何，都建議觀眾謹慎使用。

訓練

訓練數據

模型開發者使用以下數據集進行模型訓練：

LAION - 5B 及其子集（詳情如下）。訓練數據進一步使用 LAION 的 NSFW 檢測器進行過濾，“p_unsafe” 分數為 0.1（保守）。更多詳情請參考 LAION - 5B 的 [NeurIPS 2022](https://openreview.net/forum?id = M3Y74vmsMcY) 論文和相關評審討論。

訓練過程

Stable Diffusion v2 是一個潛在擴散模型，它將自動編碼器與在自動編碼器潛在空間中訓練的擴散模型相結合。在訓練期間：

圖像通過編碼器進行編碼，將圖像轉換為潛在表示。自動編碼器使用相對下采樣因子 8，將形狀為 H x W x 3 的圖像映射到形狀為 H/f x W/f x 4 的潛在表示。
文本提示通過 OpenCLIP - ViT/H 文本編碼器進行編碼。
文本編碼器的輸出通過交叉注意力輸入到潛在擴散模型的 UNet 主幹中。
損失是添加到潛在表示的噪聲與 UNet 預測之間的重建目標，還使用了所謂的 “v - 目標”，詳情見 https://arxiv.org/abs/2202.00512。

環境影響

基於 Lacoste 等人 (2019) 提出的機器學習影響計算器，估計 Stable Diffusion v1 的 CO2 排放量如下：

屬性	詳情
硬件類型	A100 PCIe 40GB
使用時長	200000 小時
雲服務提供商	AWS
計算區域	美國東部
碳排放（功耗 x 時間 x 基於電網位置產生的碳）	15000 千克 CO2 當量