IF-I-L-v1.0オープンソース画像生成モデル - 写真レベルのリアリティを持つ画像の高速生成を実現

IF I L V1.0

DeepFloydによって開発

DeepFloyd-IFはピクセルベースの3段階カスケード拡散モデルで、写真レベルのリアリズムと言語理解を新たな水準で実現します。その効率性は現在の最先端モデルを凌駕し、COCOデータセットにおけるゼロショットFID-30Kスコアは6.66を達成しました。

テキスト生成画像 #カスケード拡散モデル #高解像度画像生成 #英語テキスト理解

ダウンロード数 4,299

リリース時間 : 3/21/2023

モデル概要

ピクセルベースのテキストから画像を生成するカスケード拡散モデルで、凍結されたテキストエンコーダ（T5）を使用してテキスト埋め込みを抽出し、強化されたUNetアーキテクチャを通じて64px→256px→1024pxの画像を生成します。

モデル特徴

効率的なカスケード構造

3段階のカスケード拡散モデルを採用し、64px→256px→1024pxの高解像度画像を段階的に生成

深い言語理解

凍結されたT5テキストエンコーダを組み合わせ、正確なテキスト-画像の意味的整合性を実現

卓越した性能

COCOデータセットのゼロショット評価でFID-30Kスコア6.66を達成し、現在の最先端モデルを上回る

モデル能力

テキストから画像生成

高解像度画像合成

多言語プロンプト理解

使用事例

アート創作

コンセプトアート生成

テキスト記述に基づいて自動的にコンセプトアートのスケッチを生成

64pxから1024pxまでの異なる精度の画像を生成可能

教育研究

生成モデルの安全性研究

テキストから画像モデルの潜在的なリスクや倫理問題を研究するために使用

🚀 IF-I-L-v1.0

DeepFloyd-IFは、画素ベースのテキストから画像への3段カスケード拡散モデルで、写実性と言語理解において新たな最先端技術で画像を生成することができます。この結果、現在の最先端モデルを上回る高効率なモデルとなり、COCOデータセットでゼロショットFID-30Kスコア6.66を達成しています。

参考論文 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

🚀 クイックスタート

モデルの概要

開発者: DeepFloyd, StabilityAI
モデルの種類: 画素ベースのテキストから画像へのカスケード拡散モデル
カスケード段階: I
パラメータ数: 9億
言語: 主に英語、一部ロマンス語派の言語
ライセンス: DeepFloyd IF License Agreement
モデルの説明: DeepFloyd-IFは、凍結されたテキストモードと3つの画素カスケード拡散モジュールで構成されたモジュール型で、それぞれが解像度を上げて画像を生成するように設計されています。解像度は64x64、256x256、1024x1024です。モデルのすべての段階で、T5トランスフォーマーに基づく凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングで強化されたUNetアーキテクチャに入力します。
詳細情報のリソース: GitHub, ウェブサイト, すべてのリンク

📦 インストール

IFは🤗 Hugging Faceの🧨 diffusersライブラリと統合されており、VRAMが14GBのGPUでも実行できるように最適化されています。

IFを使用する前に、使用条件に同意する必要があります。そのためには、以下の手順を実行します。

Hugging Faceアカウントを持っていることを確認し、ログインします。
DeepFloyd/IF-I-L-v1.0のモデルカードでライセンスに同意します。
ローカルでログインすることを確認します。huggingface_hubをインストールします。

pip install huggingface_hub --upgrade

Pythonシェルでログイン関数を実行します。

from huggingface_hub import login

login()

そして、Hugging Face Hubアクセストークンを入力します。

次に、diffusersと依存関係をインストールします。

pip install diffusers accelerate transformers safetensors sentencepiece

これで、モデルをローカルで実行できます。

デフォルトでは、diffusersはモデルのCPUオフロードを使用して、VRAMが14GBの環境でもIFパイプライン全体を実行できます。

torch>=2.0.0を使用している場合は、すべての enable_xformers_memory_efficient_attention()関数を削除することを確認してください。

💻 使用例

基本的な使用法

from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch

# stage 1
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-L-v1.0", variant="fp16", torch_dtype=torch.float16)
stage_1.enable_model_cpu_offload()

# stage 2
stage_2 = DiffusionPipeline.from_pretrained(
    "DeepFloyd/IF-II-L-v1.0", text_encoder=None, variant="fp16", torch_dtype=torch.float16
)
stage_2.enable_model_cpu_offload()

# stage 3
safety_modules = {"feature_extractor": stage_1.feature_extractor, "safety_checker": stage_1.safety_checker, "watermarker": stage_1.watermarker}
stage_3 = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-x4-upscaler", **safety_modules, torch_dtype=torch.float16)
stage_3.enable_model_cpu_offload()

prompt = "a photo of a cat"
# 1. Generate image with stage 1
image = stage_1(prompt, output_type="pt").images
image = pt_to_pil(image)[0]

# 2. Upscale with stage 2
image = stage_2(prompt=prompt, image=image.unsqueeze(0), output_type="pt").images
image = pt_to_pil(image)[0]

# 3. Upscale with stage 3
image = stage_3(prompt=prompt, image=image.unsqueeze(0)).images[0]

📄 ライセンス

DeepFloyd LICENSE AGREEMENT

このライセンス契約（このライセンス契約に従って改正される場合があります。「ライセンス」）は、あなた、またはあなたの雇用主もしくは他の団体（あなたがあなたの雇用主または他の団体を代表してこの契約に署名する場合）（「ライセンシー」または「あなた」）とStability AI Ltd.（「Stability AI」または「私たち」）の間で締結され、Stability AIがこのライセンスの下で提供するコンピュータプログラム、アルゴリズム、ソースコード、オブジェクトコード、またはソフトウェア（「ソフトウェア」）と、Stability AIがソフトウェアに関連して提供する仕様、マニュアル、ドキュメント、およびその他の書面情報（「ドキュメント」）の使用に適用されます。

以下の「同意する」をクリックするか、ソフトウェアを使用することにより、あなたはこのライセンスの条項に同意することになります。このライセンスに同意しない場合は、ソフトウェアまたはドキュメント（まとめて「ソフトウェア製品」）を使用する権利はありません。すぐにソフトウェア製品の使用を停止する必要があります。あなたがあなたの雇用主または他の団体を代表してこのライセンスの条項に拘束されることに同意する場合は、Stability AIに対して、あなたがあなたの雇用主またはそのような団体をこのライセンスに拘束する完全な法的権限を持っていることを表明および保証します。必要な権限がない場合は、あなたの雇用主または他の団体を代表してライセンスを受け入れたり、ソフトウェア製品にアクセスしたりすることはできません。

ライセンスの付与
- a. あなたがドキュメントおよび第2条、第3条、および第5条に従うことを条件として、Stability AIは、あなたに対して、Stability AIの著作権に基づく非排他的、世界規模の、譲渡不可、再ライセンス不可、取消可能、無料で制限付きのライセンスを付与します。このライセンスにより、あなたはソフトウェアを非商業的な研究目的のためにのみ複製、配布、および派生作品を作成することができます。前述のライセンスはあなた個人に付与されるものであり、Stability AIの事前の書面による同意なしに、このライセンスまたはこのライセンスに基づく他の権利や義務を譲渡または再ライセンスすることはできません。そのような譲渡または再ライセンスは無効となり、このライセンスは自動的かつ即座に終了します。
- b. あなたは、上記で付与されたソフトウェアのライセンスに関連して使用するために、合理的な数のドキュメントのコピーを作成することができます。
- c. この第1条（ライセンスの付与）に明示的に定められた権利の付与は、ソフトウェア製品に関するあなたへの完全な権利の付与であり、放棄、禁反言、暗示、衡平法またはその他の理由によるかどうかを問わず、他のライセンスは付与されません。Stability AIおよびそのライセンサーは、このライセンスによって明示的に付与されないすべての権利を留保します。
制限事項 あなたは、第三者に対しても、以下のことを行わないでください。
- a. ソフトウェア製品（またはその派生作品、ソフトウェア製品を組み込んだ作品、またはソフトウェアによって生成されたデータ）を、全体または一部を、（i）商業的または生産目的、（ii）軍事目的または核技術のサービス、（iii）監視目的、監視に関連する研究または開発を含む、（iv）生体認証処理、（v）第三者の権利を侵害、盗用、またはその他の方法で違反する方法、または（vi）適用される法律を違反し、プライバシーまたはセキュリティの法律、規則、規制、指令、または政府の要件（一般データ保護規則（規則（EU）2016/679）、カリフォルニア州消費者プライバシー法、および生体認証情報の処理を管轄するすべての法律を含む）を違反する方法で使用、変更、コピー、複製、派生作品を作成、または配布すること。
- b. ソフトウェア製品に表示される著作権およびその他の所有権表示を変更または削除すること。
- c. ソフトウェアに関連してStability AIが使用するセキュリティまたは保護を回避または削除するために、または使用制限を回避または削除するために、またはStability AIによって無効にされた機能を有効にするために、任意の機器、デバイス、ソフトウェア、またはその他の手段を利用すること。
- d. ソフトウェア製品に対して、このライセンスの条項を変更、制限、または矛盾する条項を提供または課すこと。
- e. 1）適用される米国および非米国の輸出管理および貿易制裁法（「輸出法」）に違反すること；2）直接または間接的に、ソフトウェア製品を、（a）輸出法によって禁止されている個人、団体、または国に、（b）米国または非米国政府の制限対象者リストに載っている人に、または（c）輸出法によって禁止されている目的、核、化学または生物兵器、またはミサイル技術の用途を含む目的のために輸出、再輸出、提供、またはその他の方法で移転すること；3）あなたまたは彼らが、（a）包括的に制裁されている管轄区域に所在する場合、（b）現在米国または非米国の制限対象者リストに載っている場合、または（c）輸出法によって禁止されている目的のために、ソフトウェア製品を使用またはダウンロードすること；および（4）IPプロキシまたは他の方法であなたの位置を隠すこと。
帰属表示 あなたが配布するソフトウェア製品のコピー（およびその派生作品またはソフトウェア製品を組み込んだ作品）とともに、（i）このライセンスのコピーと、（ii）以下の帰属表示を提供する必要があります。「DeepFloydはDeepFloydライセンスの下でライセンスされています。Copyright (c) Stability AI Ltd. All Rights Reserved.」
免責事項 ソフトウェア製品は「現状のまま」および「すべての欠陥を含んだまま」で提供され、明示または黙示を問わず、いかなる種類の保証もありません。Stability AIは、法律、慣習、使用法またはその他の理由によるかどうかを問わず、ソフトウェア製品に関連するすべての表明および保証を明示的に否認します。これには、商品性、特定の目的への適合性、権利、満足のいく品質、または非侵害の黙示的保証が含まれますが、これらに限定されません。Stability AIは、ソフトウェア製品がエラーフリーであるか、ウイルスまたは他の有害なコンポーネントがないこと、または特定の結果を生み出すことを保証または表明しません。
責任の制限 法律によって許される最大限の範囲で、いかなる場合も、Stability AIは、（A）このライセンスに基づく契約、不法行為、過失、無過失責任、保証またはその他の理論に基づく責任のいかなる理論の下でも、または（B）間接的、結果的、懲罰的、偶発的、懲戒的または特別な損害または利益損失に対して、あなたに対して責任を負いません。たとえStability AIがそのような損害の可能性を知らされていたとしても同様です。ソフトウェア製品、その構成要素、およびすべての出力（まとめて「ソフトウェア素材」）は、ソフトウェア素材の故障または欠陥が合理的に予想される場合に、人身の重大な傷害、潜在的な差別または個人のプライバシー権の侵害、または重大な物理的、財産的、または環境的損害（それぞれ「高リスク用途」）につながる可能性のある、いかなるアプリケーションまたは状況での使用を意図または設計していません。あなたがソフトウェア素材のいずれかを高リスク用途で使用することを選択した場合、それはあなた自身の責任で行うものとします。あなたは、高リスク用途に関連して、適切な意思決定およびリスク軽減手順および方針を設計および実施することに同意します。それにより、ソフトウェア素材のいずれかに故障または欠陥があった場合でも、その活動によって影響を受ける人または財産の安全が、高リスク用途の分野にとって合理的、適切、かつ合法的なレベルに維持されます。
補償あなたは、Stability AIおよび当社の子会社および関連会社、ならびに当社それぞれの株主、取締役、役員、従業員、代理人、後継者、および譲受人（まとめて「Stability AI関係者」）を、（a）あなたのソフトウェア製品のアクセスまたは使用（およびそのようなアクセスまたは使用から生成された結果またはデータを含む）、高リスク用途（以下で定義）を含む、（b）このライセンスの違反、または（c）あなたの他者の権利の違反、盗用または侵害（知的財産権またはその他の所有権およびプライバシー権を含む）に起因するまたは関連する、いかなる請求、要求、主張、訴訟、手続き、または調査（まとめて「請求」）に関連して、Stability AI関係者が被ったいかなる損失、債務、損害、罰金、罰則、および費用（合理的な弁護士費用を含む）から保護し、弁護し、免責する責任を負います。あなたは、そのような請求があった場合、すぐにStability AI関係者に通知し、そのような請求の弁護においてStability AI関係者と協力する必要があります。あなたはまた、Stability AIの単独の選択により、請求の弁護または和解の独占的な管理をStability AI関係者に委ねることに同意します。この補償は、あなたとStability AIまたは他のStability AI関係者との間の書面による契約に定められた他の補償または救済に加えて、それらに代わるものではなく適用されます。
終了；存続
- a. あなたがこのライセンスの条項に違反した場合、このライセンスは自動的に終了します。
- b. 当社は、あなたに通知（電子通知を含む）することにより、いつでもこのライセンスの全部または一部を終了することができます。
- c. このライセンスの終了後も、以下の条項は存続します。第2条（制限事項）、第3条（帰属表示）、第4条（免責事項）、第5条（責任の制限）、第6条（補償）、第7条（終了；存続）、第8条（第三者の素材）、第9条（商標）、第10条（適用法律；紛争解決）、および第11条（その他）。
第三者の素材 ソフトウェア製品には、第三者のソフトウェアまたはその他のコンポーネント（無料およびオープンソースソフトウェアを含む）（以上すべて「第三者の素材」）が含まれる場合があり、これらはそれぞれの第三者のライセンサーのライセンス条項の対象となります。あなたと第三者との取引または通信、およびあなたの第三者の素材の使用または相互作用は、あなたと第三者の間でのみ行われます。Stability AIは、第三者の素材を管理または承認せず、第三者の素材に関するいかなる表明または保証も行いません。あなたの第三者の素材へのアクセスおよび使用は、あなた自身の責任で行われます。
商標ライセンシーは、このライセンスの一部として商標ライセンスを付与されておらず、Stability AIの事前の書面による許可なしに、Stability AIに関連するいかなる名称または標章も使用することはできません。ただし、この契約の「帰属表示」セクションで必要とされる参照を行うために必要な範囲を除きます。
適用法律；紛争解決 このライセンスは、カリフォルニア州の法律に基づいて管理され、解釈されます。法律の抵触条項は考慮されません。このライセンスに起因するまたは関連するいかなる訴訟または手続きも、カリフォルニア州サンマテオ郡の連邦または州の裁判所（該当する場合）で提起され、各当事者は、そのような裁判所の管轄権および会場に無条件に服することに同意します。
その他 このライセンスのいずれかの条項または条項の一部が違法、無効または執行不能である場合、その条項または条項の一部はこのライセンスから切り離されたものとみなされ、残りの条項の有効性および執行可能性に影響を与えません。Stability AIがこのライセンスのいずれかの権利または条項を行使または執行しないことは、そのような権利または条項の放棄としては機能しません。このライセンスは、他のいかなる個人または団体にも第三者受益者の権利を付与しません。このライセンスは、ドキュメントとともに、このライセンスの主題に関するあなたとStability AIの間の完全な合意を含み、そのような主題に関するあなたとStability AIの間の他のすべての書面または口頭の契約および合意を取り消します。このライセンスのいずれかの条項の変更または追加は、書面で行われ、あなたとStability AIの両方の権限を有する代表者によって署名されない限り、拘束力を持ちません。