I

IF II L V1.0

由DeepFloyd開發
DeepFloyd-IF是基於像素的三級級聯擴散模型,能以卓越的寫實性和語言理解生成圖像,零樣本FID-30K得分達6.66。
下載量 33.76k
發布時間 : 3/21/2023

模型概述

像素級文本到圖像級聯擴散模型,由凍結文本模塊和三級像素擴散模塊組成,分辨率逐級提升(64x64→256x256→1024x1024),採用T5編碼器提取文本嵌入並輸入UNet架構。

模型特點

高寫實性圖像生成
零樣本FID-30K得分6.66(COCO數據集),具有卓越的細節表現力
三級級聯架構
通過64x64→256x256→1024x1024三階段逐步提升分辨率,優化生成質量
深度語言理解
採用T5文本編碼器,實現精準的文本-圖像語義對齊
顯存優化設計
支持CPU卸載技術,最低僅需14GB顯存即可運行

模型能力

文本到圖像生成
高分辨率圖像上採樣
多語言提示理解
藝術風格創作

使用案例

藝術創作
概念設計
快速生成服裝、場景等創意概念圖
示例:'袋鼠穿橙色衛衣戴藍墨鏡站在埃菲爾鐵塔前'的精準生成
教育研究
生成模型安全性研究
分析擴散模型的偏見與安全限制
內置軍事/監控等禁用場景限制
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase