🚀 Stable Diffusion v2 模型卡片
Stable Diffusion v2 是一個基於擴散的文本到圖像生成模型,可根據文本提示生成和修改圖像。本模型由 Hugging Face 使用 Apple 的倉庫 生成,該倉庫採用 ASCL 許可證。
🚀 快速開始
- 使用
diffusers
:可參考 示例 進行使用。
- 使用
stablediffusion
倉庫:從 這裡 下載 512-base-ema.ckpt
文件。
✨ 主要特性
- 多變體支持:提供了 4 種 Core ML 權重變體,包括不同的注意力機制和推理方式,適用於 Swift 和 Python 推理。
- 跨平臺使用:可在 Apple Silicon 硬件上使用,也可結合不同的庫和倉庫進行調用。
📦 安裝指南
文檔未提及具體安裝命令,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發者 |
Robin Rombach, Patrick Esser |
模型類型 |
基於擴散的文本到圖像生成模型 |
語言 |
英語 |
許可證 |
CreativeML Open RAIL++ - M 許可證 |
模型描述 |
這是一個可根據文本提示生成和修改圖像的模型,是一個 潛在擴散模型,使用了固定的預訓練文本編碼器 (OpenCLIP - ViT/H)。 |
更多信息資源 |
[GitHub 倉庫](https://github.com/Stability - AI/) |
引用方式 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High - Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684 - 10695} } |
使用方式
直接使用
該模型僅用於研究目的,可能的研究領域和任務包括:
- 安全部署可能生成有害內容的模型。
- 探索和理解生成模型的侷限性和偏差。
- 生成藝術作品並用於設計和其他藝術過程。
- 在教育或創意工具中的應用。
- 生成模型的研究。
禁止使用情況
該模型不應被用於故意創建或傳播對人造成敵意或疏離環境的圖像,包括生成人們可預見會感到不安、痛苦或冒犯的圖像,或傳播歷史或當前刻板印象的內容。
- 超出範圍的使用:該模型未經過訓練以真實或準確地表示人物或事件,因此使用該模型生成此類內容超出了其能力範圍。
- 濫用和惡意使用:使用該模型生成對個人殘忍的內容屬於濫用行為,包括但不限於生成貶低、非人化或其他有害的人物或其環境、文化、宗教等的表示;故意推廣或傳播歧視性內容或有害刻板印象;未經同意冒充個人;未經可能看到的人的同意生成性內容;虛假和誤導性信息;嚴重暴力和血腥的表示;違反使用條款分享受版權保護或許可的材料;違反使用條款分享對受版權保護或許可材料的修改內容。
侷限性和偏差
侷限性
- 模型無法實現完美的照片寫實主義。
- 模型無法渲染清晰可讀的文本。
- 模型在涉及組合性的更困難任務上表現不佳,例如渲染與 “紅色立方體在藍色球體上” 對應的圖像。
- 面部和人物通常可能無法正確生成。
- 模型主要使用英語字幕進行訓練,在其他語言上的表現不佳。
- 模型的自動編碼部分存在信息損失。
- 模型在大規模數據集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 的一個子集上進行訓練,該數據集包含成人、暴力和性內容。為部分緩解此問題,使用 LAION 的 NFSW 檢測器對數據集進行了過濾。
偏差
圖像生成模型雖然功能強大,但也可能強化或加劇社會偏差。Stable Diffusion v2 主要在 [LAION - 2B(en)](https://laion.ai/blog/laion - 5b/) 的子集上進行訓練,該數據集的圖像描述僅限於英語。使用其他語言的社區和文化的文本和圖像可能未得到充分考慮,這影響了模型的整體輸出,因為白人文化和西方文化通常被設為默認。此外,模型使用非英語提示生成內容的能力明顯低於使用英語提示的情況。Stable Diffusion v2 反映並加劇了偏差,因此無論輸入或意圖如何,都建議觀眾謹慎使用。
訓練
訓練數據
模型開發者使用以下數據集進行模型訓練:
- LAION - 5B 及其子集(詳情如下)。訓練數據進一步使用 LAION 的 NSFW 檢測器進行過濾,“p_unsafe” 分數為 0.1(保守)。更多詳情請參考 LAION - 5B 的 [NeurIPS 2022](https://openreview.net/forum?id = M3Y74vmsMcY) 論文和相關評審討論。
訓練過程
Stable Diffusion v2 是一個潛在擴散模型,它將自動編碼器與在自動編碼器潛在空間中訓練的擴散模型相結合。在訓練期間:
- 圖像通過編碼器進行編碼,將圖像轉換為潛在表示。自動編碼器使用相對下采樣因子 8,將形狀為 H x W x 3 的圖像映射到形狀為 H/f x W/f x 4 的潛在表示。
- 文本提示通過 OpenCLIP - ViT/H 文本編碼器進行編碼。
- 文本編碼器的輸出通過交叉注意力輸入到潛在擴散模型的 UNet 主幹中。
- 損失是添加到潛在表示的噪聲與 UNet 預測之間的重建目標,還使用了所謂的 “v - 目標”,詳情見 https://arxiv.org/abs/2202.00512。
環境影響
基於 Lacoste 等人 (2019) 提出的 機器學習影響計算器,估計 Stable Diffusion v1 的 CO2 排放量如下:
屬性 |
詳情 |
硬件類型 |
A100 PCIe 40GB |
使用時長 |
200000 小時 |
雲服務提供商 |
AWS |
計算區域 |
美國東部 |
碳排放(功耗 x 時間 x 基於電網位置產生的碳) |
15000 千克 CO2 當量 |
🔧 技術細節
文檔未提供足夠具體的技術說明(>50 字),故跳過此章節。
📄 許可證
本模型的許可證為 CreativeML Open RAIL++ - M 許可證。