I

IF I L V1.0

由 DeepFloyd 开发
DeepFloyd-IF是基于像素的三级级联扩散模型,能以全新水准实现照片级真实感和语言理解。其高效性超越当前最优模型,在COCO数据集上零样本FID-30K得分达6.66。
下载量 4,299
发布时间 : 3/21/2023

模型简介

基于像素的文本生成图像级联扩散模型,采用冻结文本编码器(T5)提取文本嵌入,通过增强UNet架构生成64px→256px→1024px图像。

模型特点

高效级联结构
采用三级级联扩散模型,逐步生成64px→256px→1024px的高分辨率图像
深度语言理解
结合冻结T5文本编码器,实现精准的文本-图像语义对齐
卓越性能表现
在COCO数据集零样本评估中FID-30K得分6.66,超越当前最优模型

模型能力

文本生成图像
高分辨率图像合成
多语言提示理解

使用案例

艺术创作
概念艺术生成
根据文字描述自动生成概念艺术草图
可生成64px至1024px不同精度的图像
教育研究
生成模型安全性研究
用于研究文本到图像模型的潜在风险和伦理问题
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase