IF-I-XL-v1.0オープンソース画像生成モデル - 無料でデプロイしてリアルなスタイルの画像を生成する

ホーム

IF I XL V1.0

DeepFloydによって開発

DeepFloyd-IFはピクセルベースのテキストから画像への3段階カスケード拡散モデルで、革新的な写実スタイルと言語理解能力を備えた画像を生成できます。

テキスト生成画像 #ピクセルレベルのテキストから画像生成 #3段階カスケード拡散モデル #高度な言語理解

ダウンロード数 35.23k

リリース時間 : 4/6/2023

モデル概要

DeepFloyd-IFはモジュラー設計を採用し、凍結テキストモジュールと3つのピクセルカスケード拡散モジュールで構成され、64x64、256x256、1024x1024と解像度を段階的に向上させます。

モデル特徴

効率的な生成

COCOデータセットでゼロショットFID-30Kスコア6.66を達成し、現在の最先端モデルを凌駕しました。

マルチカスケード生成

3段階のカスケード拡散モジュールにより、64x64から1024x1024まで画像解像度を段階的に向上させます。

深い言語理解

T5トランスフォーマーベースの凍結テキストエンコーダーを使用してテキスト埋め込みを抽出し、画像生成の意味的精度を向上させます。

モデル能力

テキストから画像生成

高解像度画像生成

多言語サポート

使用事例

クリエイティブデザイン

アート創作

テキスト記述に基づいて芸術作品を生成

芸術的なスタイルの画像を生成

広告デザイン

広告コンセプト画像を迅速に生成

広告ニーズに合致した画像を生成

教育

教育補助

教育用イラストを生成

教育内容に関連した画像を生成

🚀 IF-I-XL-v1.0

DeepFloyd-IFは、画素ベースのテキストから画像への3段階カスケード拡散モデルで、写真のリアリズムと言語理解に関して新たな最先端技術を用いて画像を生成することができます。この結果、現在の最先端モデルを上回る高効率なモデルが実現され、COCOデータセットでのゼロショットFID-30Kスコアが6.66となりました。

参考論文 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

🚀 クイックスタート

IFは🤗 Hugging Faceの🧨 diffusersライブラリと統合されており、VRAMが14GBのGPUでも効率的に実行できるように最適化されています。

IFを使用する前に、使用条件に同意する必要があります。そのためには以下の手順を行ってください。

Hugging Faceアカウントを持っていることを確認し、ログインしてください。
DeepFloyd/IF-I-XL-v1.0のモデルカードでライセンスに同意してください。
ローカルでログインすることを確認してください。huggingface_hubをインストールします。

pip install huggingface_hub --upgrade

Pythonシェルでログイン関数を実行します。

from huggingface_hub import login

login()

そして、Hugging Face Hubアクセストークンを入力してください。

次に、diffusersと依存関係をインストールします。

pip install diffusers accelerate transformers safetensors sentencepiece

これで、モデルをローカルで実行することができます。

デフォルトでは、diffusersはモデルのCPUオフロードを利用して、VRAMが14GBでもIFパイプライン全体を実行できます。

torch>=2.0.0を使用している場合は、すべての enable_xformers_memory_efficient_attention()関数を削除することを確認してください。

すべての段階をロードしてCPUにオフロードする

from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch

# stage 1
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF

✨ 主な機能

DeepFloyd-IFは、画素ベースのテキストから画像へのカスケード拡散モデルで、写真のリアリズムと言語理解に関して新たな最先端技術を用いて画像を生成することができます。このモデルは、凍結されたテキストモードと3つの画素カスケード拡散モジュールで構成されており、それぞれが解像度を上げて画像を生成するように設計されています。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	DeepFloyd, StabilityAI
モデルタイプ	画素ベースのテキストから画像へのカスケード拡散モデル
カスケード段階	I
パラメータ数	43億
言語	主に英語、一部ロマンス語族の言語
ライセンス	DeepFloyd IF License Agreement
モデルの説明	DeepFloyd-IFは、凍結されたテキストモードと3つの画素カスケード拡散モジュールで構成されており、それぞれが解像度を上げて画像を生成するように設計されています。具体的には、64x64、256x256、1024x1024の解像度の画像を生成します。モデルのすべての段階で、T5トランスフォーマーに基づく凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングで強化されたUNetアーキテクチャに入力します。
詳細情報のリソース	GitHub, deepfloyd.ai, All Links
引用方法	近日公開予定

📄 ライセンス

DeepFloyd LICENSE AGREEMENT

このライセンス契約書（本契約書に基づき改正される場合を含め、「ライセンス」）は、あなた、またはあなたの雇用主もしくは他の団体（あなたが雇用主または他の団体を代表して本契約に署名する場合）（「ライセンシー」または「あなた」）とStability AI Ltd.（「Stability AI」または「当社」）との間で締結され、当社が本ライセンスの下で提供するコンピュータプログラム、アルゴリズム、ソースコード、オブジェクトコード、またはソフトウェア（「ソフトウェア」）および当社がソフトウェアに関連して提供する仕様書、マニュアル、ドキュメント、およびその他の書面情報（「ドキュメント」）の使用に適用されます。

以下の「同意する」をクリックするか、ソフトウェアを使用することにより、あなたは本ライセンスの条項に同意することになります。本ライセンスに同意しない場合は、ソフトウェアまたはドキュメント（まとめて「ソフトウェア製品」）を使用する権利は一切ありません。また、ソフトウェア製品の使用を直ちに中止する必要があります。あなたが雇用主または他の団体を代表して本ライセンスの条項に拘束されることに同意する場合、あなたはStability AIに対して、雇用主または当該団体を本ライセンスに拘束する完全な法的権限を有することを表明および保証します。必要な権限がない場合は、雇用主または他の団体を代表して本ライセンスを受け入れたり、ソフトウェア製品にアクセスしたりすることはできません。

ライセンスの付与
- a. あなたがドキュメントおよび第2条、第3条、第5条の規定を遵守することを条件として、Stability AIは、あなたに対して、Stability AIの著作権に基づく非排他的、世界規模、譲渡不可、再ライセンス不可、取消可能、無償、かつ限定的なライセンスを付与します。このライセンスにより、あなたは、ソフトウェアを非商用の研究目的のみで複製、配布、および派生作品を作成することができます。前述のライセンスはあなた個人に付与されるものであり、Stability AIの事前の書面による同意なしに、本ライセンスまたは本ライセンスに基づく他の権利または義務を譲渡または再ライセンスすることはできません。そのような譲渡または再ライセンスは無効となり、本ライセンスは自動的かつ直ちに終了します。
- b. あなたは、上記で付与されたソフトウェアのライセンスに関連して使用するために、合理的な数のドキュメントのコピーを作成することができます。
- c. 本条（ライセンスの付与）に明示的に規定された権利の付与は、ソフトウェア製品に関するあなたへの完全な権利の付与であり、放棄、禁反言、暗示、衡平法またはその他の理由によるか否かを問わず、他のライセンスは付与されません。Stability AIおよびそのライセンサーは、本ライセンスによって明示的に付与されないすべての権利を留保します。
制限事項 あなたは、第三者に対しても、以下のことを行ってはなりません。
- a. ソフトウェア製品（またはその派生作品、ソフトウェア製品を組み込んだ作品、またはソフトウェアによって生成されたデータ）を、全体または一部について、(i) 商用または生産目的、(ii) 軍事目的または核技術のサービスにおいて、(iii) 監視目的、監視に関連する研究または開発を含む、(iv) 生体認証処理、(v) 第三者の権利を侵害、盗用、またはその他の方法で違反する方法、または(vi) 適用される法律を違反し、プライバシーまたはセキュリティの法律、規則、規制、指令、または政府の要件（一般データ保護規則（規則 (EU) 2016/679）、カリフォルニア州消費者プライバシー法、および生体認証情報の処理を管轄するすべての法律を含む）を違反する方法で使用、変更、コピー、複製、派生作品を作成、または配布すること。
- b. ソフトウェア製品に表示または含まれる著作権およびその他の所有権表示を変更または削除すること。
- c. 機器、デバイス、ソフトウェア、またはその他の手段を利用して、Stability AIがソフトウェアに関連して使用するセキュリティまたは保護を回避または削除したり、使用制限を回避または削除したり、Stability AIによって無効化された機能を有効にすること。
- d. ソフトウェア製品に対して、本ライセンスの条項を変更、制限、または矛盾する条項を提示または課すこと。
- e. 1) 適用される米国および非米国の輸出管理および貿易制裁法律（「輸出法律」）を違反すること。2) ソフトウェア製品を、(a) 輸出法律によって禁止されている個人、団体、または国に、(b) 米国または非米国政府の制限対象者リストに載っている者に、または(c) 輸出法律によって禁止されている目的、核、化学または生物兵器、またはミサイル技術の応用を含む、直接または間接的に輸出、再輸出、提供、またはその他の方法で移転すること。3) あなたまたは彼らが、(a) 包括的に制裁されている管轄区域に所在する場合、(b) 現在米国または非米国の制限対象者リストに載っている場合、または(c) 輸出法律によって禁止されている目的で、ソフトウェア製品を使用またはダウンロードすること。4) IPプロキシまたは他の方法であなたの位置を隠すこと。
帰属表示 あなたが配布するソフトウェア製品（およびその派生作品またはソフトウェア製品を組み込んだ作品）のすべてのコピーには、(i) 本ライセンスのコピーと、(ii) 以下の帰属表示を提供する必要があります。「DeepFloydはDeepFloyd Licenseの下でライセンスされています。Copyright (c) Stability AI Ltd. All Rights Reserved.」
免責事項 ソフトウェア製品は、「現状のまま」かつ「あらゆる欠陥を含んだまま」提供され、明示または黙示を問わず、いかなる種類の保証も伴いません。Stability AIは、法令、慣習、慣用またはその他の理由によるか否かを問わず、ソフトウェア製品に関連するすべての表明および保証を明示的に否認します。これには、商品性、特定の目的への適合性、所有権、満足のいく品質、または非侵害の黙示的保証が含まれますが、これらに限定されません。Stability AIは、ソフトウェア製品がエラーフリーまたはウイルスやその他の有害なコンポーネントを含まないこと、または特定の結果を生み出すことを保証または表明しません。
責任の制限 法律で許容される最大限の範囲で、いかなる場合も、Stability AIは、(A) 本ライセンスに基づく契約、不法行為、過失、無過失責任、保証、またはその他の理論に基づく責任、または(B) 間接的、結果的、懲罰的、偶発的、懲戒的または特別な損害または利益の損失に対して、あなたに対して責任を負いません。たとえStability AIがそのような損害の可能性を知っていたとしても同様です。ソフトウェア製品、その構成要素、およびすべての出力（まとめて「ソフトウェア素材」）は、ソフトウェア素材の故障または欠陥が、合理的に予想されるように、人の重傷、潜在的な差別または個人のプライバシー権の侵害、または重大な身体的、財産的、または環境的損害（それぞれ「高リスク使用」）につながる可能性のある、いかなるアプリケーションまたは状況での使用を目的として設計または意図されていません。あなたがソフトウェア素材を高リスク使用のために選択した場合、それはあなた自身の責任で行うものとします。あなたは、高リスク使用に関連して、適切な意思決定およびリスク軽減の手順および方針を設計および実施することに同意します。これにより、ソフトウェア素材に故障または欠陥があった場合でも、活動によって影響を受ける人または財産の安全が、高リスク使用の分野にとって合理的、適切、かつ合法なレベルに維持されます。
補償あなたは、Stability AIおよび当社の子会社および関連会社、ならびに当社のそれぞれの株主、取締役、役員、従業員、代理人、後継者、および譲受人（まとめて「Stability AI関係者」）を、(a) ソフトウェア製品のアクセスまたは使用（およびそのようなアクセスまたは使用から生成される結果またはデータを含む）、高リスク使用（以下で定義）を含む、(b) 本ライセンスの違反、または(c) 他人の権利（知的財産権またはその他の所有権およびプライバシー権を含む）の違反、盗用または侵害に起因するまたは関連する、いかなる請求、要求、主張、訴訟、手続き、または調査（まとめて「請求」）に関連して生じる損失、債務、損害、罰金、罰則、および費用（合理的な弁護士費用を含む）から補償し、弁護し、免責する責任を負います。あなたは、そのような請求があった場合、速やかにStability AI関係者に通知し、そのような請求の弁護においてStability AI関係者と協力するものとします。あなたはまた、Stability AIの単独の選択により、いかなる請求の弁護または和解の独占的な管理権をStability AI関係者に付与するものとします。この補償は、あなたとStability AIまたは他のStability AI関係者との間の書面による契約に定められた他の補償または救済とは別に、追加的なものです。
終了；存続
- a. あなたが本ライセンスの条項を違反した場合、本ライセンスは自動的に終了します。
- b. 当社は、あなたに通知（電子通知を含む）することにより、いつでも本ライセンスの全部または一部を終了することができます。
- c. 本ライセンスの終了後も、以下の条項は存続します。第2条（制限事項）、第3条（帰属表示）、第4条（免責事項）、第5条（責任の制限）、第6条（補償）、第7条（終了；存続）、第8条（第三者の素材）、第9条（商標）、第10条（適用法律；紛争解決）、および第11条（その他）。
第三者の素材 ソフトウェア製品には、第三者のソフトウェアまたはその他のコンポーネント（無料およびオープンソースソフトウェアを含む）（以上すべて「第三者の素材」）が含まれる場合があり、これらはそれぞれの第三者のライセンサーのライセンス条項の対象となります。あなたと第三者との取引または通信、およびあなたによる第三者の素材の使用または相互作用は、あなたと第三者の間でのみ行われます。Stability AIは、第三者の素材を管理または承認せず、また第三者の素材に関するいかなる表明または保証も行いません。あなたによる第三者の素材のアクセスおよび使用は、あなた自身の責任で行われます。
商標本ライセンスの一部として、ライセンシーに商標ライセンスは付与されておらず、Stability AIの事前の書面による許可なしに、Stability AIに関連するいかなる名称または標章も使用することはできません。ただし、本契約の「帰属表示」の項で必要とされる参照を行うために必要な範囲を除きます。
適用法律；紛争解決 本ライセンスは、法律の衝突規定を考慮せずに、カリフォルニア州の法律に基づいて管理および解釈されます。本ライセンスに起因するまたは関連するいかなる訴訟または手続きも、カリフォルニア州サンマテオ郡の連邦または州裁判所に提起されるものとし、各当事者は、当該裁判所の管轄権および会場に無条件に服するものとします。
その他 本ライセンスのいかなる条項または条項の一部が違法、無効、または執行不能である場合、その条項または条項の一部は本ライセンスから切り離されるものとし、残りの条項の有効性および執行可能性に影響を与えません。Stability AIが本ライセンスのいかなる権利または条項を行使または執行しないことは、その権利または条項の放棄として解釈されることはありません。本ライセンスは、他の何人かまたは団体に対して第三者受益者権利を付与するものではありません。本ライセンスは、ドキュメントとともに、本ライセンスの主題に関するあなたとStability AIの間の完全な了解を含み、当該主題に関するあなたとStability AIの間の他のすべての書面または口頭の契約および了解に取って代わります。本ライセンスのいかなる条項の変更または追加も、あなたとStability AIの双方の権限を有する代表者が署名した書面によるものでない限り、拘束力を持たないものとします。