IF-I-M-v1.0オープンソース画像生成モデル - 無料でデプロイして写真級のリアルな画像を生成する

ホーム

IF I M V1.0

DeepFloydによって開発

DeepFloyd IFはピクセルベースの3段階カスケード拡散モデルで、現在最高レベルのフォトリアリスティックな画像と言語理解能力を備えた画像を生成できます。

テキスト生成画像 #カスケード拡散モデル #高解像度テキストから画像生成 #多段階生成

ダウンロード数 3,140

リリース時間 : 3/21/2023

モデル概要

ピクセルベースのテキストから画像生成のカスケード拡散モデルで、モジュール設計を採用し、凍結テキストモデルと3つの解像度が増加するピクセル拡散モジュールを含み、主に高品質な画像生成に使用されます。

モデル特徴

高リアリティ画像生成

3段階カスケード拡散モデルを採用し、フォトリアリスティックな画像を生成できます。

強力な言語理解

T5エンコーダを使用してテキスト埋め込みを抽出し、クロスアテンションとアテンションプーリングで強化されたUNetアーキテクチャで画像を生成し、優れた言語理解能力を備えています。

モジュール設計

凍結テキストモデルと3つの解像度が増加するピクセル拡散モジュールを含み、段階的な画像生成をサポートします。

モデル能力

テキストから画像生成

高品質画像生成

多解像度画像処理

使用事例

アート創作とデザイン支援

クリエイティブ画像生成

テキスト記述に基づいてクリエイティブな画像を生成します。例えば、'エッフェル塔の前でディープラーニングの看板を持っているオレンジのフーディを着たカンガルー'など。

フォトリアリスティックな画像を生成

教育/クリエイティブツール開発

教育ツール

テキストから画像生成に基づく教育ツールを開発し、教育とクリエイティブ表現を支援します。

🚀 IF-I-M-v1.0

DeepFloyd-IFは、画素ベースのテキストから画像への3段カスケード拡散モデルで、写実性と言語理解能力において画期的な画像生成が可能です。このモデルは非常に効率的で、現在の最先端モデルを上回り、COCOデータセットでゼロショットFID-30Kスコア6.66を達成しています。

参考論文 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

📚 ドキュメント

モデルの詳細

属性	詳情
開発元	DeepFloyd, StabilityAI
モデルタイプ	画素ベースのテキストから画像へのカスケード拡散モデル
カスケード段階	I
パラメータ数	400M
言語	主に英語、一部ロマンス語族の言語
ライセンス	DeepFloyd IF License Agreement
モデルの説明	DeepFloyd-IFは、凍結されたテキストモードと3つの画素カスケード拡散モジュールで構成されており、それぞれ解像度の高い画像を生成するように設計されています。解像度は64x64、256x256、1024x1024です。モデルのすべての段階で、T5トランスフォーマーに基づく凍結されたテキストエンコーダーを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングで強化されたUNetアーキテクチャに入力します。
詳細情報のリソース	GitHub, Website, All Links

`diffusers`での使用方法

IFは🤗 Hugging Faceの🧨 diffusersライブラリと統合されており、VRAMが14GBのGPUでも効率的に実行できます。

IFを使用する前に、使用条件に同意する必要があります。そのためには以下の手順を実行してください。

Hugging Faceアカウントを持っていることを確認し、ログインします。
DeepFloyd/IF-I-M-v1.0のモデルカードでライセンスに同意します。
ローカルでログインすることを確認します。huggingface_hubをインストールします。

pip install huggingface_hub --upgrade

Pythonシェルでログイン関数を実行します。

from huggingface_hub import login

login()

そして、Hugging Face Hubアクセストークンを入力します。

次に、diffusersと依存関係をインストールします。

pip install diffusers accelerate transformers safetensors sentencepiece

これで、モデルをローカルで実行できます。

デフォルトでは、diffusersはモデルのCPUオフロードを利用して、VRAMが14GBでもIFパイプライン全体を実行できます。

torch>=2.0.0を使用している場合は、すべての enable_xformers_memory_efficient_attention()関数を削除することを確認してください。

すべての段階をロードしてCPUにオフロードする

from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch

# stage 1
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-M-v1.0", variant="fp16", torc

📄 ライセンス

DeepFloyd LICENSE AGREEMENT

このライセンス契約（本ライセンス契約に従って改正される場合を含め、「ライセンス」）は、あなた、またはあなたの雇用主もしくは他の団体（あなたが雇用主または他の団体を代表して本契約に署名する場合）（「ライセンシー」または「あなた」）とStability AI Ltd.（「Stability AI」または「当社」）との間で、Stability AIが本ライセンスの下で提供するコンピュータプログラム、アルゴリズム、ソースコード、オブジェクトコード、またはソフトウェア（「ソフトウェア」）およびソフトウェアに関連してStability AIが提供する仕様、マニュアル、ドキュメント、およびその他の書面情報（「ドキュメント」）の使用に適用されます。

以下の「同意する」をクリックするか、ソフトウェアを使用することにより、あなたは本ライセンスの条項に同意するものとします。本ライセンスに同意しない場合、あなたはソフトウェアまたはドキュメント（まとめて「ソフトウェア製品」）を使用する権利を一切有さず、直ちにソフトウェア製品の使用を中止しなければなりません。あなたが雇用主または他の団体を代表して本ライセンスの条項に拘束されることに同意する場合、あなたはStability AIに対して、雇用主または当該団体を本ライセンスに拘束する完全な法的権限を有することを表明および保証します。必要な権限がない場合、あなたは雇用主または他の団体を代表して本ライセンスを受け入れたり、ソフトウェア製品にアクセスしたりすることはできません。

ライセンスの付与 a. あなたがドキュメントおよび第2条、第3条、および第5条の規定に従うことを条件として、Stability AIは、あなたに対して、Stability AIの著作権に基づく非排他的、世界規模、非譲渡、非サブライセンス、取消可能、無料で制限付きのライセンスを付与し、ソフトウェアを複製、配布、および派生作品を作成することができますが、これはあなたの非商用研究目的のみを対象とします。前述のライセンスはあなた個人に付与されるものであり、Stability AIの事前の書面による同意なしに、本ライセンスまたは本ライセンスに基づく他の権利または義務を譲渡またはサブライセンスすることはできません。そのような譲渡またはサブライセンスは無効となり、本ライセンスは自動的かつ直ちに終了します。 b. あなたは、上記で付与されたソフトウェアのライセンスに関連して使用するために、合理的な数のドキュメントのコピーを作成することができます。 c. 本条第1項（ライセンスの付与）に明示的に定められた権利の付与は、ソフトウェア製品に関するあなたへの完全な権利の付与であり、放棄、禁反言、暗示、衡平法またはその他の理由によるかどうかを問わず、他のライセンスは付与されません。Stability AIおよびそのライセンサーは、本ライセンスによって明示的に付与されないすべての権利を留保します。
制限事項 あなたは、また、第三者に対しても、以下のことを行ってはなりません。 a. ソフトウェア製品（またはその派生作品、ソフトウェア製品を組み込んだ作品、またはソフトウェアによって生成されたデータ）の全部または一部を、(i) 商業的または生産目的、(ii) 軍事目的または核技術のサービス、(iii) 監視目的（監視に関連する研究または開発を含む）、(iv) 生体認証処理、(v) 第三者の権利を侵害、盗用、またはその他の方法で違反する方法、または(vi) 適用される法律およびプライバシーまたはセキュリティに関する法律、規則、規制、指令、または政府の要件（一般データ保護規則（規則 (EU) 2016/679）、カリフォルニア州消費者プライバシー法、および生体認証情報の処理を管理するすべての法律を含む）に違反する方法で使用、変更、コピー、複製、派生作品を作成、または配布すること。 b. ソフトウェア製品に表示される著作権およびその他の所有権表示を変更または削除すること。 c. 機器、デバイス、ソフトウェア、またはその他の手段を利用して、Stability AIがソフトウェアに関連して使用するセキュリティまたは保護を回避または削除したり、使用制限を回避または削除したり、Stability AIによって無効化された機能を有効にしたりすること。 d. ソフトウェア製品に対して、本ライセンスの条項を変更、制限、または矛盾する条項を提供または課すこと。 e. 1) 適用される米国および非米国の輸出管理および貿易制裁法（「輸出法」）に違反すること；2) ソフトウェア製品を、(a) 輸出法によって禁止されている個人、団体、または国に、(b) 米国または非米国の政府の制限対象者リストに載っている者に、または(c) 輸出法によって禁止されている目的（核、化学、または生物兵器、またはミサイル技術の用途を含む）のために、直接または間接的に輸出、再輸出、提供、またはその他の方法で移転すること；3) あなたまたはそれらが、(a) 包括的に制裁されている管轄区域に所在する場合、(b) 現在米国または非米国の制限対象者リストに載っている場合、または(c) 輸出法によって禁止されている目的のために、ソフトウェア製品を使用またはダウンロードすること；および(4) IPプロキシまたは他の方法によってあなたの位置を隠すこと。
帰属表示 あなたが配布するソフトウェア製品（およびその派生作品またはソフトウェア製品を組み込んだ作品）のすべてのコピーとともに、(i) 本ライセンスのコピーと、(ii) 以下の帰属表示を提供しなければなりません。「DeepFloydはDeepFloyd Licenseの下でライセンスされており、Copyright (c) Stability AI Ltd. All Rights Reserved.」
免責事項 ソフトウェア製品は「現状のまま」および「あらゆる欠陥を含んだまま」で提供され、明示または黙示を問わず、いかなる種類の保証もありません。Stability AIは、法令、慣習、慣用またはその他の理由によるかどうかを問わず、ソフトウェア製品に関連するすべての事項について、明示または黙示のすべての表明および保証を明示的に否認します。これには、商品性、特定の目的への適合性、所有権、満足できる品質、または非侵害の黙示の保証が含まれますが、これらに限定されません。Stability AIは、ソフトウェア製品がエラーフリーまたはウイルスや他の有害なコンポーネントを含まず、特定の結果を生み出すことを保証または表明しません。
責任の制限 法律によって許される最大限の範囲で、いかなる場合も、Stability AIは、(A) 本ライセンスに基づく契約、不法行為、過失、無過失責任、保証、またはその他の理論に基づく責任のいずれにおいても、あなたに対して責任を負わないものとし、(B) 間接的、結果的、懲罰的、偶発的、懲戒的または特別な損害または利益損失についても、Stability AIがそのような損害の可能性を知っていた場合でも、責任を負わないものとします。ソフトウェア製品、その構成要素、およびすべての出力（まとめて「ソフトウェア素材」）は、ソフトウェア素材の故障または欠陥が合理的に予測される場合に、人身の重大な傷害（潜在的な差別または個人のプライバシー権の侵害を含む）、または重大な身体的、財産的、または環境的損害につながる可能性のある、いかなるアプリケーションまたは状況での使用を目的として設計または意図されていません（それぞれ「高リスク使用」）。あなたがソフトウェア素材のいずれかを高リスク使用のために選択して使用する場合、それはあなた自身の責任で行うものとします。あなたは、高リスク使用に関連して、適切な意思決定およびリスク軽減の手順および方針を設計および実施することに同意します。それにより、ソフトウェア素材のいずれかに故障または欠陥があった場合でも、当該活動によって影響を受ける人または財産の安全が、高リスク使用の分野にとって合理的、適切、かつ合法的なレベルに維持されるようにします。
補償あなたは、Stability AIおよび当社の子会社および関連会社、ならびに当社のそれぞれの株主、取締役、役員、従業員、代理人、後継者、および譲受人（まとめて「Stability AI関係者」）を、あなたのソフトウェア製品のアクセスまたは使用（およびそのようなアクセスまたは使用から生成された結果またはデータを含む）、(b) 本ライセンスの違反、または(c) 他人の権利（知的財産権またはその他の所有権およびプライバシー権を含む）の違反、盗用、または侵害に起因するまたは関連するいかなる請求、要求、主張、訴訟、手続き、または調査（まとめて「請求」）に関連して、Stability AI関係者が被った損失、債務、損害、罰金、罰則、および費用（合理的な弁護士費用を含む）から補償し、弁護し、免責するものとします。あなたは、そのような請求があった場合、直ちにStability AI関係者に通知し、Stability AI関係者がそのような請求を弁護するのに協力します。あなたはまた、Stability AIの単独の選択により、請求の弁護または和解の独占的な管理をStability AI関係者に委ねるものとします。この補償は、あなたとStability AIまたは他のStability AI関係者との間の書面による契約に定められた他の補償または救済に加えて、それらに代わるものではなく適用されます。
終了；存続 a. あなたが本ライセンスの条項に違反した場合、本ライセンスは自動的に終了します。 b. 当社は、あなたに通知（電子通知を含む）することにより、いつでも本ライセンスの全部または一部を終了することができます。 c. 本ライセンスの終了後も、以下の条項は存続します。第2条（制限事項）、第3条（帰属表示）、第4条（免責事項）、第5条（責任の制限）、第6条（補償）、第7条（終了；存続）、第8条（第三者の素材）、第9条（商標）、第10条（適用法律；紛争解決）、および第11条（その他）。
第三者の素材 ソフトウェア製品は、第三者のソフトウェアまたはその他のコンポーネント（無料およびオープンソースソフトウェアを含む）（前述のすべてを「第三者の素材」という）を含む場合があり、これらはそれぞれの第三者のライセンサーのライセンス条項の対象となります。あなたと第三者との取引または通信、およびあなたの第三者の素材の使用または相互作用は、あなたと第三者の間でのみ行われます。Stability AIは、第三者の素材を管理または承認せず、第三者の素材に関するいかなる表明または保証も行いません。あなたが第三者の素材にアクセスして使用することは、あなた自身の責任で行うものとします。
商標ライセンシーは、本ライセンスの一部として商標ライセンスを付与されておらず、Stability AIの事前の書面による許可なしに、Stability AIに関連するいかなる名称またはマークも使用することはできません。ただし、本契約の「帰属表示」の項で必要とされる参照を行うために必要な範囲を除きます。
適用法律；紛争解決 本ライセンスは、カリフォルニア州の法律に基づいて管理および解釈され、法律の抵触規定は考慮されません。本ライセンスに起因するまたは関連するいかなる訴訟または手続きも、カリフォルニア州サンマテオ郡の連邦または州の裁判所（該当する場合）に提起されるものとし、各当事者は、当該裁判所の管轄権および会場に無条件に服するものとします。
その他 本ライセンスのいかなる条項または条項の一部が違法、無効、または執行不能である場合、当該条項または条項の一部は本ライセンスから切り離されるものとし、残りの条項の有効性および執行可能性に影響を与えません。Stability AIが本ライセンスのいかなる権利または条項を行使または執行しないことは、当該権利または条項の放棄として解釈されることはありません。本ライセンスは、他の何人かまたは団体に対して第三者受益者権を付与するものではありません。本ライセンスは、ドキュメントとともに、本ライセンスの主題に関するあなたとStability AIとの間の完全な合意を含み、当該主題に関するあなたとStability AIとの間の他のすべての書面または口頭の合意および了解に優先するものとします。本ライセンスのいかなる条項の変更または追加も、書面により、あなたとStability AIの両方の権限を有する代表者が署名した場合にのみ拘束力を有するものとします。