I

IF II L V1.0

DeepFloydによって開発
DeepFloyd-IFはピクセルベースの3段階カスケード拡散モデルで、卓越した写実性と言語理解により画像を生成でき、ゼロショットFID-30Kスコアは6.66を達成。
ダウンロード数 33.76k
リリース時間 : 3/21/2023

モデル概要

ピクセルレベルのテキストから画像へのカスケード拡散モデルで、凍結テキストモジュールと3段階のピクセル拡散モジュールで構成され、解像度が段階的に向上(64x64→256x256→1024x1024)。T5エンコーダーでテキスト埋め込みを抽出しUNetアーキテクチャに入力。

モデル特徴

高写実性画像生成
ゼロショットFID-30Kスコア6.66(COCOデータセット)、卓越したディテール表現力
3段階カスケード構造
64x64→256x256→1024x1024の3段階で解像度を段階的に向上させ、生成品質を最適化
深い言語理解
T5テキストエンコーダーを採用し、正確なテキスト-画像意味整合を実現
メモリ最適化設計
CPUオフロード技術をサポートし、最小14GBのVRAMで動作可能

モデル能力

テキストから画像生成
高解像度画像アップサンプリング
多言語プロンプト理解
アートスタイル創作

使用事例

アート創作
コンセプトデザイン
衣装やシーンなどのクリエイティブなコンセプト画像を迅速生成
例:'オレンジのフーディーを着て青いサングラスをかけたカンガルーがエッフェル塔の前に立つ'の正確な生成
教育研究
生成モデルの安全性研究
拡散モデルのバイアスと安全制限を分析
軍事/監視などの禁止シーン制限を内蔵
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase