IF-II-M-v1.0開源圖像生成模型 - 高真實感、懂語言的圖像免費創作

首頁

IF II M V1.0

由DeepFloyd開發

DeepFloyd-IF 是一款基於像素的文本到圖像三級級聯擴散模型，能夠生成高真實感和語言理解能力的圖像。

文本生成圖像 #級聯擴散模型 #高真實感圖像生成 #多階段超分辨率

下載量 1,293

發布時間 : 3/21/2023

模型概述

DeepFloyd-IF 是一款基於像素的文本到圖像級聯擴散模型，由凍結的文本模塊和三個像素級聯擴散模塊組成，分別生成64x64、256x256和1024x1024分辨率的圖像。

模型特點

高真實感圖像生成

能夠生成具有最新技術水平的高真實感圖像。

多級分辨率生成

通過三級級聯擴散模塊生成64x64、256x256和1024x1024分辨率的圖像。

高效運行

優化後可在僅14GB VRAM的GPU上運行。

模型能力

文本到圖像生成

圖像超分辨率

圖像放大

使用案例

創意設計

概念藝術創作

根據文本描述生成高質量的概念藝術圖像。

生成具有高真實感的藝術作品

廣告設計

快速生成廣告所需的視覺素材。

節省設計時間和成本

教育研究

視覺語言研究

用於研究文本到圖像生成的技術和算法。

🚀 IF-II-M-v1.0

DeepFloyd-IF 是一款基於像素的文本到圖像的三級級聯擴散模型，能夠生成在逼真度和語言理解方面達到新水平的圖片。這是一個高效的模型，性能超越了當前的先進模型，在 COCO 數據集上實現了零樣本 FID - 30K 分數為 6.66 的成績。

🚀 快速開始

DeepFloyd-IF 集成了 🤗 Hugging Face 的 🧨 diffusers 庫，該庫經過優化，可在顯存低至 14GB 的 GPU 上運行。

在使用 IF 之前，你需要接受其使用條件，具體操作如下：

確保你擁有 Hugging Face 賬戶並已登錄。
在 DeepFloyd/IF-I-M-v1.0 的模型卡片上接受許可協議。
確保在本地登錄。安裝 huggingface_hub：

pip install huggingface_hub --upgrade

在 Python shell 中運行登錄函數：

from huggingface_hub import login

login()

並輸入你的 Hugging Face Hub 訪問令牌。

接下來，安裝 diffusers 及其依賴項：

pip install diffusers accelerate transformers safetensors sentencepiece

現在，你就可以在本地運行該模型了。

默認情況下，diffusers 使用模型 CPU 卸載功能，只需 14GB 的顯存即可運行整個 IF 管道。

如果你使用的是 torch>=2.0.0，請確保 移除所有 enable_xformers_memory_efficient_attention() 函數。

✨ 主要特性

先進的圖像生成能力：能夠生成具有高度逼真度和良好語言理解能力的圖像。
高效的模型性能：在 COCO 數據集上取得了優異的零樣本 FID - 30K 分數。
集成 Hugging Face 庫：與 🤗 Hugging Face 的 🧨 diffusers 庫集成，方便使用。

📦 安裝指南

pip install huggingface_hub --upgrade
pip install diffusers accelerate transformers safetensors sentencepiece

💻 使用示例

基礎用法

# 加載所有階段並卸載到 CPU
from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch

# 階段 1
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-M-v1.0", variant="fp16", torch_dtype=torch.float16)
stage_1.enable_xformers_memory_efficient_attention()  # 如果 torch.__version__ >= 2.0.0 則移除該行
stage_1.enable_model_cpu_offload()

# 階段 2
stage_2 = DiffusionPipeline.from_pretrained(
    "DeepFloyd/IF-II-M-v1.0", text_encoder=None, variant="fp16", torch_dtype=torch.float16
)
stage_2.enable_xformers_memory_efficient_attention()  # 如果 torch.__version__ >= 2.0.0 則移除該行
stage_2.enable_model_cpu_offload()

# 階段 3
safety_modules = {"feature_extractor": stage_1.feature_extractor, "safety_checker": stage_1.safety_checker, "watermarker": stage_1.watermarker}
stage_3 = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-x4-upscaler", **safety_modules, torch_dtype=torch.float16)
stage_3.enable_xformers_memory_efficient_attention()  # 如果 torch.__version__ >= 2.0.0 則移除該行
stage_3.enable_model_cpu_offload()

# 獲取文本嵌入
prompt = 'a photo of a kangaroo wearing an orange hoodie and blue sunglasses standing in front of the eiffel tower holding a sign that says "very deep learning"'

# 文本嵌入
prompt_embeds, negative_embeds = stage_1.encode_prompt(prompt)

# 運行階段 1
generator = torch.manual_seed(0)

image = stage_1(prompt_embeds=prompt_embeds, negative_prompt_embeds=negative_embeds, generator=generator, output_type="pt").images
pt_to_pil(image)[0].save("./if_stage_I.png")

# 運行階段 2
image = stage_2(
    image=image, prompt_embeds=prompt_embeds, negative_prompt_embeds=negative_embeds, generator=generator, output_type="pt"
).images
pt_to_pil(image)[0].save("./if_stage_II.png")

# 運行階段 3
image = stage_3(prompt=prompt, image=image, generator=generator, noise_level=100).images
image[0].save("./if_stage_III.png")

高級用法

使用 diffusers 有多種方法可以加快推理時間並進一步降低內存消耗。具體操作請參考 Diffusers 文檔：

🚀 優化推理時間
⚙️ 優化推理過程中的低內存使用

有關如何使用 IF 的更多詳細信息，請參考 IF 博客文章和文檔 📖。

Diffusers 的 dreambooth 腳本還支持微調 🎨 IF。通過參數高效微調，你可以使用單個 GPU 和約 28GB 的顯存為 IF 添加新的概念。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	DeepFloyd, StabilityAI
模型類型	基於像素的文本到圖像級聯擴散模型
級聯階段	II
參數數量	450M
支持語言	主要為英語，在一定程度上支持其他羅曼語系語言
許可證	DeepFloyd IF 許可協議
模型描述	DeepFloyd - IF 由凍結文本模型和三個像素級聯擴散模塊組成，每個模塊用於生成分辨率逐漸提高的圖像：64x64、256x256 和 1024x1024。模型的所有階段都使用基於 T5 變壓器的凍結文本編碼器來提取文本嵌入，然後將其輸入到通過交叉注意力和注意力池化增強的 UNet 架構中
更多信息資源	[GitHub](https://github.com/deep - floyd/IF)，網站，所有鏈接

訓練信息

訓練數據：12 億個文本 - 圖像對（基於 LAION - A 和少量額外的內部數據集）。在訓練的任何級聯和階段都不使用數據集的測試/驗證部分。COCO 的驗證部分有助於在訓練期間展示“在線”損失行為（以發現意外情況和其他問題），但該數據集從不用於訓練。
訓練過程：IF - II - M - v1.0 是一個基於像素的擴散級聯，使用 T5 - Encoder 嵌入（隱藏狀態）將圖像從 64px 提升到 256px。在訓練期間：
- 使用 Pillow==9.2.0 的 BICUBIC 重採樣（reducing_gap = None，有助於避免混疊）將圖像通過移位中心裁剪增強（從中心隨機移位不超過大小的 0.1）裁剪為正方形，並調整為 64px（低分辨率）和 256px（真實值），然後處理為張量 BxCxHxW。
- 低分辨率圖像通過噪聲（q - 採樣方法）進行額外增強，級聯 - I 系列使用相同的擴散配置。將均勻分佈的隨機化增強噪聲參數（aug - level）作為條件添加到 Unet 中，由可訓練層的時間步嵌入和線性投影（帶激活）進行處理。
- 通過開源的凍結 T5 - v1_1 - xxl 文本編碼器對文本提示進行編碼（該編碼器完全由 Google 團隊訓練），隨機將 10% 的文本丟棄為空字符串，以增加無分類器引導（CFG）的能力。
- 文本編碼器的非池化輸出被輸入到投影（無激活的線性層）中，並通過受控的混合自注意力和交叉注意力在擴散模型的 UNet 主幹中使用。
- 文本編碼器的輸出還通過注意力池化（64 個頭）進行池化，並作為額外特徵用於時間嵌入。
- 擴散過程限制為 1000 個離散步驟，使用餘弦 beta 噪聲調度。
- 損失是添加到圖像中的噪聲與 UNet 預測之間的重建目標。
- 檢查點 IF - II - M - v1.0 的訓練過程在所有數據集上以 2500000 步的分辨率 256x256 進行，使用 OneCycleLR 策略、few - bit 反向 GELU 激活、優化器 AdamW8bit + DeepSpeed - Zero1，T5 - 編碼器完全凍結。
硬件：24 x 8 x A100 GPUs
優化器：AdamW8bit + DeepSpeed ZeRO - 1
批次大小：1536
學習率：one - cycle 餘弦策略，熱身 10000 步，起始學習率 = 4e - 6，最大學習率 = 1e - 4，最終學習率 = 1e - 8

評估結果

FID - 30K: 6.66

🔧 技術細節

IF - II - M - v1.0 是一個基於像素的文本到圖像的級聯擴散模型，其核心在於利用 T5 編碼器的強大文本理解能力和 UNet 架構的圖像生成能力。通過多個階段的級聯，逐步提高生成圖像的分辨率。在訓練過程中，採用了多種數據增強和優化策略，以提高模型的性能和泛化能力。例如，對圖像進行裁剪和重採樣處理，添加噪聲增強，以及使用隨機丟棄文本的方法來支持無分類器引導。同時，使用了先進的優化器和學習率策略，確保模型在大規模數據集上的高效訓練。

📄 許可證

本模型使用 DeepFloyd IF 許可協議。詳細的許可協議內容如下： DeepFloyd 許可協議本許可協議（可根據本許可協議進行修訂，“許可協議”）由您或您的僱主或其他實體（如果您代表您的僱主或其他實體簽訂本協議）（“被許可方”或“您”）與 Stability AI Ltd.（“Stability AI”或“我們”）簽訂，適用於您使用 Stability AI 根據本許可協議提供的任何計算機程序、算法、源代碼、目標代碼或軟件（“軟件”）以及 Stability AI 提供的與軟件相關的任何規格、手冊、文檔和其他書面信息（“文檔”）。

通過點擊下方的“我接受”或使用軟件，即表示您同意本許可協議的條款。如果您不同意本許可協議，則您無權使用軟件或文檔（統稱“軟件產品”），並且必須立即停止使用軟件產品。如果您代表您的僱主或其他實體同意受本許可協議條款的約束，您向 Stability AI 聲明並保證您擁有充分的合法權力使您的僱主或該實體受本許可協議的約束。如果您沒有必要的權力，則您不得代表您的僱主或其他實體接受本許可協議或訪問軟件產品。

許可授予 a. 在您遵守文檔以及第 2、3 和 5 節的前提下，Stability AI 授予您在 Stability AI 的版權權益下的非排他性、全球性、不可轉讓、不可再許可、可撤銷、免版稅且有限的許可，僅用於您的非商業研究目的，以複製、分發和創建軟件的衍生作品。上述許可僅針對您個人，未經 Stability AI 的事先書面同意，您不得轉讓或再許可本許可協議或本許可協議下的任何其他權利或義務；任何此類轉讓或再許可均無效，並將自動且立即終止本許可協議。 b. 您可以僅為與上述授予的軟件許可相關的目的製作合理數量的文檔副本。 c. 本節 1（許可授予）中明確規定的權利授予是您在軟件產品中的完整權利授予，除非通過棄權、禁止反言、暗示、衡平法或其他方式，否則不授予其他許可。Stability AI 及其許可方保留本許可協議未明確授予的所有權利。
限制您不得，也不得允許、協助或促使任何第三方： a. 全部或部分地使用、修改、複製、再現、創建軟件產品（或其任何衍生作品、包含軟件產品的作品或軟件產生的任何數據）的衍生作品或分發軟件產品，用於（i）任何商業或生產目的，（ii）軍事目的或用於核技術服務，（iii）監視目的，包括與監視相關的任何研究或開發，（iv）生物特徵處理，（v）以任何侵犯、盜用或以其他方式違反任何第三方權利的方式，或（vi）以任何違反任何適用法律以及違反任何隱私或安全法律、規則、法規、指令或政府要求（包括《通用數據保護條例》（歐盟法規 (EU) 2016/679）、《加利福尼亞消費者隱私法》以及所有管理生物特徵信息處理的法律）的方式，以及上述任何法律的所有修訂和後續法律； b. 更改或刪除軟件產品上或其中出現的版權和其他專有通知； c. 使用任何設備、裝置、軟件或其他手段規避或移除 Stability AI 與軟件相關使用的任何安全或保護措施，或規避或移除任何使用限制，或啟用 Stability AI 禁用的功能；或 d. 對軟件產品提供或施加任何更改、限制或與本許可協議條款不一致的條款。 e. 1) 違反任何適用的美國和非美國出口管制和貿易制裁法律（“出口法律”）；2) 直接或間接出口、再出口、提供或以其他方式轉讓軟件產品：(a) 給任何被出口法律禁止的個人、實體或國家；(b) 給美國或非美國政府限制方名單上的任何人；或 (c) 用於任何被出口法律禁止的目的，包括核武器、化學武器或生物武器或導彈技術應用；3) 如果您或他們：(a) 位於全面制裁的司法管轄區，(b) 當前列在美國或非美國限制方名單上，或 (c) 用於任何被出口法律禁止的目的，則不得使用或下載軟件產品；並且 (4) 不得通過 IP 代理或其他方法偽裝您的位置。
歸屬在您分發的軟件產品的任何副本（以及其衍生作品或包含軟件產品的作品）時，您必須提供 (i) 本許可協議的副本，以及 (ii) 以下歸屬聲明：“DeepFloyd 根據 DeepFloyd 許可協議獲得許可，版權所有 (c) Stability AI Ltd. 保留所有權利。”
免責聲明軟件產品“按原樣”和“帶有所有缺陷”提供，不提供任何形式的明示或暗示保證。Stability AI 明確否認所有關於軟件產品的明示或暗示陳述和保證，無論是根據法規、習慣、慣例還是其他方式，包括但不限於適銷性、特定用途適用性、所有權、令人滿意的質量或不侵權的暗示保證。Stability AI 不保證軟件產品將無錯誤或無病毒或其他有害組件，或產生任何特定結果。
責任限制在法律允許的最大範圍內，Stability AI 在任何情況下均不對您承擔責任 (A) 根據任何責任理論，無論是基於合同、侵權、疏忽、嚴格責任、保證或本許可協議下的其他方式，或 (B) 對於任何間接、後果性、示範性、偶發性、懲罰性或特殊損害或利潤損失，即使 Stability AI 已被告知此類損害的可能性。軟件產品、其組成組件和任何輸出（統稱“軟件材料”）並非設計或旨在用於任何軟件材料的故障或缺陷可能合理預期會導致任何人嚴重傷害的應用或情況，包括潛在的歧視或侵犯個人隱私權，或導致嚴重的人身、財產或環境損害（每一項，“高風險使用”）。如果您選擇將任何軟件材料用於高風險使用，則您自行承擔風險。您同意設計並實施適當的決策和風險緩解程序及政策，以應對高風險使用，以便即使軟件材料出現故障或缺陷，受該活動影響的人員或財產的安全仍能保持在高風險使用領域合理、適當和合法的水平。
賠償您將賠償、辯護並使 Stability AI 及其子公司和關聯公司以及我們各自的股東、董事、高級管理人員、員工、代理人、繼承人和受讓人（統稱“Stability AI 方”）免受因以下原因引起的或與之相關的任何索賠、要求、指控、訴訟、程序或調查（統稱“索賠”）所產生的任何損失、負債、損害、罰款、處罰和費用（包括合理的律師費）：(a) 您訪問或使用軟件產品（以及由此類訪問或使用產生的任何結果或數據），包括任何高風險使用（定義見下文）；(b) 您違反本許可協議；或 (c) 您侵犯、盜用或侵犯他人的任何權利（包括知識產權或其他專有權利和隱私權）。您將立即通知 Stability AI 方任何此類索賠，並與 Stability AI 方合作辯護此類索賠。您還將授予 Stability AI 方自行選擇對任何索賠進行辯護或和解的唯一控制權。本賠償是對您與 Stability AI 或其他 Stability AI 方之間的書面協議中規定的任何其他賠償或補救措施的補充，而非替代。
終止；存續 a. 如果您違反本許可協議的條款，本許可協議將自動終止。 b. 我們可以隨時通知您（包括電子通知）全部或部分終止本許可協議。 c. 本許可協議終止後，以下各節仍然有效：2（限制）、3（歸屬）、4（免責聲明）、5（責任限制）、6（賠償）、7（終止；存續）、8（第三方材料）、9（商標）、10（適用法律；爭議解決）和 11（雜項）。
第三方材料軟件產品可能包含第三方軟件或其他組件（包括免費和開源軟件）（上述所有內容，“第三方材料”），這些材料受各自第三方許可方的許可條款約束。您與第三方的交易或通信以及您對任何第三方材料的使用或交互僅在您與第三方之間進行。Stability AI 不控制或認可任何第三方材料，也不對其作出任何陳述或保證，您訪問和使用此類第三方材料自行承擔風險。
商標作為本許可協議的一部分，未授予被許可方任何商標許可，除非本協議“歸屬”部分要求進行引用所必需的範圍，否則未經 Stability AI 的事先書面許可，不得使用與 Stability AI 相關的任何名稱或標記。
適用法律；爭議解決本許可協議將根據加利福尼亞州的法律進行管轄和解釋，不考慮法律衝突條款。因本許可協議引起的任何訴訟或程序將在加利福尼亞州聖馬特奧縣的聯邦或州法院提起，各方不可撤銷地接受此類法院的管轄權和審判地。
雜項如果本許可協議的任何條款或部分條款違法、無效或不可執行，則該條款或部分條款應視為從本許可協議中分割出來，並且不影響任何其餘條款的有效性和可執行性。Stability AI 未能行使或執行本許可協議的任何權利或條款，不構成對該權利或條款的放棄。本許可協議未賦予任何第三方受益人權利。本許可協議連同文檔包含了您與 Stability AI 就本許可協議主題事項達成的全部理解，並取代了您與 Stability AI 就該主題事項達成的所有其他書面或口頭協議和理解。除非以書面形式並由您和 Stability AI 的授權代表簽署，否則對本許可協議任何條款的更改或補充均不具有約束力。

用途說明

直接使用

本模型僅供研究目的發佈。任何將模型部署到生產環境的嘗試不僅需要遵守許可協議，還需要部署者承擔全部責任。

可能的研究領域和任務包括：

生成藝術圖像並用於設計和其他藝術過程。
安全部署有可能生成有害內容的模型。
探究和理解生成模型的侷限性和偏差。
在教育或創意工具中的應用。
生成模型的研究。

排除的使用情況如下所述。

濫用、惡意使用和超出範圍使用

注意：本節內容最初取自 [DALLE - MINI 模型卡片](https://huggingface.co/dalle - mini/dalle - mini)，曾用於 Stable Diffusion，同樣適用於 IF。

不得使用該模型故意創建或傳播會為人們創造敵對或疏離環境的圖像。這包括生成人們可預見會感到不安、痛苦或冒犯的圖像，或傳播歷史或當前刻板印象的內容。

超出範圍使用

該模型並非為生成真實或準確反映人物或事件的內容而訓練，因此使用該模型生成此類內容超出了該模型的能力範圍。

濫用和惡意使用

使用該模型生成對個人殘酷的內容屬於對該模型的濫用。這包括但不限於：

生成貶低、非人化或以其他方式傷害人們或其環境、文化、宗教等的表現形式。
故意推廣或傳播歧視性內容或有害刻板印象。
未經他人同意冒充他人。
未經可能看到內容的人的同意發佈性內容。
虛假和誤導性信息
嚴重暴力和血腥場面的表現形式
違反版權或許可材料使用條款分享受版權保護或許可的材料。
違反版權或許可材料使用條款分享對受版權保護或許可材料的修改內容。

侷限性和偏差

侷限性

模型無法實現完美的逼真度。
模型主要使用英語字幕進行訓練，在其他語言中的表現不佳。
模型在大規模數據集 [LAION - 5B](https://laion.ai/blog/laion - 5b/) 的一個子集上進行訓練，該數據集包含成人、暴力和性內容。為了部分緩解這一問題，我們採取了...（見訓練部分）。

偏差

雖然圖像生成模型的能力令人印象深刻，但它們也可能強化或加劇社會偏差。IF 主要在 [LAION - 2B(en)](https://laion.ai/blog/laion - 5b/) 的子集上進行訓練，該子集包含的圖像僅限於英語描述。來自使用其他語言的社區和文化的文本和圖像可能未得到充分考慮。這影響了模型的整體輸出，因為白人和西方文化往往被設定為默認。此外，模型使用非英語提示生成內容的能力明顯低於使用英語提示的能力。IF 反映並加劇了偏差，因此無論輸入或意圖如何，都建議查看者謹慎使用。

本模型卡片由 DeepFloyd 團隊編寫，基於 [StableDiffusion 模型卡片](https://huggingface.co/CompVis/stable - diffusion - v1 - 4)。