I

IF I L V1.0

Developed by DeepFloyd
DeepFloyd-IFはピクセルベースの3段階カスケード拡散モデルで、写真レベルのリアリズムと言語理解を新たな水準で実現します。その効率性は現在の最先端モデルを凌駕し、COCOデータセットにおけるゼロショットFID-30Kスコアは6.66を達成しました。
Downloads 4,299
Release Time : 3/21/2023

Model Overview

ピクセルベースのテキストから画像を生成するカスケード拡散モデルで、凍結されたテキストエンコーダ(T5)を使用してテキスト埋め込みを抽出し、強化されたUNetアーキテクチャを通じて64px→256px→1024pxの画像を生成します。

Model Features

効率的なカスケード構造
3段階のカスケード拡散モデルを採用し、64px→256px→1024pxの高解像度画像を段階的に生成
深い言語理解
凍結されたT5テキストエンコーダを組み合わせ、正確なテキスト-画像の意味的整合性を実現
卓越した性能
COCOデータセットのゼロショット評価でFID-30Kスコア6.66を達成し、現在の最先端モデルを上回る

Model Capabilities

テキストから画像生成
高解像度画像合成
多言語プロンプト理解

Use Cases

アート創作
コンセプトアート生成
テキスト記述に基づいて自動的にコンセプトアートのスケッチを生成
64pxから1024pxまでの異なる精度の画像を生成可能
教育研究
生成モデルの安全性研究
テキストから画像モデルの潜在的なリスクや倫理問題を研究するために使用
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase