I

IF I L V1.0

由DeepFloyd開發
DeepFloyd-IF是基於像素的三級級聯擴散模型,能以全新水準實現照片級真實感和語言理解。其高效性超越當前最優模型,在COCO數據集上零樣本FID-30K得分達6.66。
下載量 4,299
發布時間 : 3/21/2023

模型概述

基於像素的文本生成圖像級聯擴散模型,採用凍結文本編碼器(T5)提取文本嵌入,通過增強UNet架構生成64px→256px→1024px圖像。

模型特點

高效級聯結構
採用三級級聯擴散模型,逐步生成64px→256px→1024px的高分辨率圖像
深度語言理解
結合凍結T5文本編碼器,實現精準的文本-圖像語義對齊
卓越性能表現
在COCO數據集零樣本評估中FID-30K得分6.66,超越當前最優模型

模型能力

文本生成圖像
高分辨率圖像合成
多語言提示理解

使用案例

藝術創作
概念藝術生成
根據文字描述自動生成概念藝術草圖
可生成64px至1024px不同精度的圖像
教育研究
生成模型安全性研究
用於研究文本到圖像模型的潛在風險和倫理問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase