I

IF I L V1.0

DeepFloydによって開発
DeepFloyd-IFはピクセルベースの3段階カスケード拡散モデルで、写真レベルのリアリズムと言語理解を新たな水準で実現します。その効率性は現在の最先端モデルを凌駕し、COCOデータセットにおけるゼロショットFID-30Kスコアは6.66を達成しました。
ダウンロード数 4,299
リリース時間 : 3/21/2023

モデル概要

ピクセルベースのテキストから画像を生成するカスケード拡散モデルで、凍結されたテキストエンコーダ(T5)を使用してテキスト埋め込みを抽出し、強化されたUNetアーキテクチャを通じて64px→256px→1024pxの画像を生成します。

モデル特徴

効率的なカスケード構造
3段階のカスケード拡散モデルを採用し、64px→256px→1024pxの高解像度画像を段階的に生成
深い言語理解
凍結されたT5テキストエンコーダを組み合わせ、正確なテキスト-画像の意味的整合性を実現
卓越した性能
COCOデータセットのゼロショット評価でFID-30Kスコア6.66を達成し、現在の最先端モデルを上回る

モデル能力

テキストから画像生成
高解像度画像合成
多言語プロンプト理解

使用事例

アート創作
コンセプトアート生成
テキスト記述に基づいて自動的にコンセプトアートのスケッチを生成
64pxから1024pxまでの異なる精度の画像を生成可能
教育研究
生成モデルの安全性研究
テキストから画像モデルの潜在的なリスクや倫理問題を研究するために使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase