IF-II-L-v1.0オープンソース画像生成モデル - 無料でデプロイでき、高い写実性と言語理解能力で作画

IF II L V1.0

DeepFloydによって開発

DeepFloyd-IFはピクセルベースの3段階カスケード拡散モデルで、卓越した写実性と言語理解により画像を生成でき、ゼロショットFID-30Kスコアは6.66を達成。

テキスト生成画像 #ピクセルレベルの拡散モデル #マルチレゾリューション生成 #英語テキスト理解

ダウンロード数 33.76k

リリース時間 : 3/21/2023

モデル概要

ピクセルレベルのテキストから画像へのカスケード拡散モデルで、凍結テキストモジュールと3段階のピクセル拡散モジュールで構成され、解像度が段階的に向上（64x64→256x256→1024x1024）。T5エンコーダーでテキスト埋め込みを抽出しUNetアーキテクチャに入力。

モデル特徴

高写実性画像生成

ゼロショットFID-30Kスコア6.66（COCOデータセット）、卓越したディテール表現力

3段階カスケード構造

64x64→256x256→1024x1024の3段階で解像度を段階的に向上させ、生成品質を最適化

深い言語理解

T5テキストエンコーダーを採用し、正確なテキスト-画像意味整合を実現

メモリ最適化設計

CPUオフロード技術をサポートし、最小14GBのVRAMで動作可能

モデル能力

テキストから画像生成

高解像度画像アップサンプリング

多言語プロンプト理解

アートスタイル創作

使用事例

アート創作

コンセプトデザイン

衣装やシーンなどのクリエイティブなコンセプト画像を迅速生成

例：'オレンジのフーディーを着て青いサングラスをかけたカンガルーがエッフェル塔の前に立つ'の正確な生成

教育研究

生成モデルの安全性研究

拡散モデルのバイアスと安全制限を分析

軍事/監視などの禁止シーン制限を内蔵

🚀 IF-II-L-v1.0

DeepFloyd-IFは、画素ベースのテキストから画像への3段階カスケード拡散モデルです。このモデルは、写実性と言語理解能力において新たな最先端レベルの画像を生成することができます。結果として、現在の最先端モデルを上回る高効率なモデルが実現され、COCOデータセットでゼロショットFID-30Kスコア6.66を達成しています。

参考論文 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

📚 ドキュメント

モデルの詳細

開発者: DeepFloyd, StabilityAI
モデルの種類: 画素ベースのテキストから画像へのカスケード拡散モデル
カスケード段階: II
パラメータ数: 12億
使用言語: 主に英語、一部ロマンス語派の言語
ライセンス: DeepFloyd IF License Agreement
モデルの説明: DeepFloyd-IFは、凍結されたテキストモードと3つの画素カスケード拡散モジュールで構成されています。それぞれのモジュールは、解像度を段階的に向上させた画像を生成するように設計されており、64x64、256x256、1024x1024の画像を生成します。モデルのすべての段階で、T5トランスフォーマーに基づく凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングで強化されたUNetアーキテクチャに入力します。
詳細情報のリソース: GitHub, Website, All Links

`diffusers`を使用した方法

IFは🤗 Hugging Faceの🧨 diffusersライブラリと統合されており、VRAMが14GBのGPUでも効率的に実行できるように最適化されています。

IFを使用する前に、使用条件に同意する必要があります。そのためには以下の手順を行ってください。

Hugging Faceアカウントを持っていることを確認し、ログインしてください。
DeepFloyd/IF-I-XL-v1.0のモデルカードでライセンスに同意してください。
ローカルでログインすることを確認してください。huggingface_hubをインストールします。

pip install huggingface_hub --upgrade

Pythonシェルでログイン関数を実行します。

from huggingface_hub import login

login()

そして、Hugging Face Hubアクセストークンを入力してください。

次に、diffusersと依存関係をインストールします。

pip install diffusers accelerate transformers safetensors sentencepiece

これで、モデルをローカルで実行することができます。

デフォルトでは、diffusersはモデルのCPUオフロードを利用して、14GBのVRAMでもIFパイプライン全体を実行できるようになっています。

torch>=2.0.0を使用している場合は、すべての enable_xformers_memory_efficient_attention()関数を削除するようにしてください。

すべての段階をロードしてCPUにオフロードする

from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch

# stage 1
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-XL-v1.0", variant="fp16"

📄 ライセンス

DeepFloyd LICENSE AGREEMENT

このライセンス契約書（本ライセンス契約書に従って改正される場合を含め、「ライセンス」）は、あなた、またはあなたの雇用主もしくは他の団体（あなたが雇用主または他の団体を代表してこの契約に署名する場合）（「ライセンシー」または「あなた」）とStability AI Ltd.（「Stability AI」または「私たち」）との間で締結され、Stability AIが本ライセンスの下で提供するコンピュータプログラム、アルゴリズム、ソースコード、オブジェクトコード、またはソフトウェア（「ソフトウェア」）およびStability AIがソフトウェアに関連して提供する仕様、マニュアル、ドキュメント、およびその他の書面情報（「ドキュメント」）の使用に適用されます。

以下の「同意する」をクリックするか、ソフトウェアを使用することにより、あなたは本ライセンスの条項に同意することになります。本ライセンスに同意しない場合、あなたはソフトウェアまたはドキュメント（まとめて「ソフトウェア製品」）を使用する権利を一切有しておらず、直ちにソフトウェア製品の使用を中止しなければなりません。あなたが雇用主または他の団体を代表して本ライセンスの条項に拘束されることに同意する場合、あなたはStability AIに対して、雇用主または当該団体を本ライセンスに拘束する完全な法的権限を有することを表明および保証します。必要な権限がない場合、あなたは雇用主または他の団体を代表して本ライセンスに同意したり、ソフトウェア製品にアクセスしたりすることはできません。

ライセンスの付与 a. あなたがドキュメントおよび第2条、第3条、および第5条の規定に従うことを条件として、Stability AIは、あなたに対して、Stability AIの著作権に基づく非独占的、世界規模、非譲渡的、再ライセンス不可、取消可能、無償、かつ制限付きのライセンスを付与します。このライセンスにより、あなたはソフトウェアを非商用の研究目的のみで複製、配布、および派生作品を作成することができます。前述のライセンスはあなた個人に付与されるものであり、Stability AIの事前の書面による同意なしに、本ライセンスまたは本ライセンスに基づく他の権利や義務を譲渡または再ライセンスすることはできません。そのような譲渡または再ライセンスは無効となり、本ライセンスは自動的かつ直ちに終了します。 b. あなたは、上記で付与されたソフトウェアのライセンスに関連して使用するために、ドキュメントを合理的な数だけ複製することができます。 c. 本条（ライセンスの付与）で明示的に規定された権利の付与は、ソフトウェア製品に関するあなたへの完全な権利の付与であり、放棄、禁反言、暗示、衡平法またはその他の理由による他のライセンスは付与されません。Stability AIおよびそのライセンサーは、本ライセンスで明示的に付与されていないすべての権利を留保します。
制限事項 あなたは、また第三者に対しても、以下のことを行ってはなりません。 a. ソフトウェア製品（またはその派生作品、ソフトウェア製品を組み込んだ作品、またはソフトウェアによって生成されたデータ）を、全体または一部について、(i) 商用または生産目的、(ii) 軍事目的または核技術のサービス、(iii) 監視目的、監視に関連する研究または開発を含む、(iv) 生体認証処理、(v) 第三者の権利を侵害、盗用、またはその他の方法で違反する方法、または(vi) 適用される法律およびプライバシーまたはセキュリティに関する法律、規則、規制、指令、または政府の要件（一般データ保護規則（規則 (EU) 2016/679）、カリフォルニア州消費者プライバシー法、および生体認証情報の処理を管轄するすべての法律を含む）に違反する方法で使用、変更、複製、複写、派生作品を作成、または配布すること。 b. ソフトウェア製品に表示される著作権およびその他の所有権表示を変更または削除すること。 c. いかなる機器、デバイス、ソフトウェア、またはその他の手段を利用して、Stability AIがソフトウェアに関連して使用するセキュリティまたは保護を回避または削除したり、使用制限を回避または削除したり、Stability AIによって無効化された機能を有効にしたりすること。 d. ソフトウェア製品に対して、本ライセンスの条項を変更、制限、または矛盾する条項を提示または課すこと。 e. 1) 適用される米国および非米国の輸出管理および貿易制裁法律（「輸出法律」）に違反すること。2) 直接または間接的に、ソフトウェア製品を、(a) 輸出法律によって禁止されている個人、団体、または国に、(b) 米国または非米国政府の制限対象者リストに載っている者に、または(c) 輸出法律によって禁止されている目的、核、化学または生物兵器、またはミサイル技術の用途を含む、に輸出、再輸出、提供、またはその他の方法で移転すること。3) あなたまたはそれらが、(a) 包括的に制裁されている管轄区域に所在する場合、(b) 現在米国または非米国の制限対象者リストに載っている場合、または(c) 輸出法律によって禁止されている目的のために、ソフトウェア製品を使用またはダウンロードすること。そして、(4) IPプロキシまたは他の方法によってあなたの位置を隠すことはできません。
帰属表示 あなたが配布するソフトウェア製品（およびその派生作品またはソフトウェア製品を組み込んだ作品）のすべてのコピーには、(i) 本ライセンスのコピーと、(ii) 以下の帰属表示を提供しなければなりません。「DeepFloydはDeepFloyd Licenseの下でライセンスされており、Copyright (c) Stability AI Ltd. All Rights Reserved.」
免責事項 ソフトウェア製品は「現状のまま」かつ「あらゆる欠陥を含んだまま」提供され、明示または黙示を問わず、いかなる保証も伴いません。Stability AIは、法律、慣習、慣用またはその他の理由による、ソフトウェア製品に関連するすべての表明および保証、明示または黙示を問わず、商品性、特定の目的への適合性、権利、満足のいく品質、または非侵害の黙示的保証を含むがこれらに限定されない、を明示的に否認します。Stability AIは、ソフトウェア製品がエラーフリーまたはウイルスやその他の有害なコンポーネントを含まないこと、または特定の結果を生み出すことについて、いかなる保証または表明も行いません。
責任の制限 法律で許される最大限の範囲で、いかなる場合も、Stability AIは、(A) 本ライセンスに基づく契約、不法行為、過失、無過失責任、保証、またはその他の理論に基づく責任について、または(B) 間接的、結果的、懲罰的、偶発的、懲戒的または特別な損害または利益損失について、あなたに対して責任を負いません。たとえStability AIがそのような損害の可能性を知っていたとしても同様です。ソフトウェア製品、その構成要素、およびすべての出力（まとめて「ソフトウェア素材」）は、ソフトウェア素材の故障または欠陥が合理的に予想される場合に、人の重大な怪我、個人のプライバシー権の潜在的な差別または侵害、または重大な身体的、財産的、または環境的損害（それぞれ「高リスク使用」）につながる可能性のある、いかなるアプリケーションまたは状況での使用を目的として設計または意図されていません。あなたがソフトウェア素材を高リスク使用のために選択して使用する場合、それはあなた自身の責任で行うものとします。あなたは、高リスク使用に関連して、適切な意思決定およびリスク軽減手順と方針を設計および実施することに同意します。その結果、ソフトウェア素材に故障または欠陥があったとしても、その活動によって影響を受ける人または財産の安全が、高リスク使用の分野において合理的、適切、かつ合法的なレベルに維持されるようにします。
補償あなたは、Stability AIおよびその子会社および関連会社、ならびにそれぞれの株主、取締役、役員、従業員、代理人、後継者、および譲受人（まとめて「Stability AI関係者」）を、あなたのソフトウェア製品のアクセスまたは使用（およびそのようなアクセスまたは使用から生成される結果またはデータを含む）、本ライセンスの違反、または他者の権利（知的財産権またはその他の所有権およびプライバシー権を含む）の侵害、盗用または侵害に起因する、または関連する、いかなる請求、要求、主張、訴訟、手続き、または調査（まとめて「請求事項」）に関連して生じる、損失、債務、損害、罰金、罰則、および費用（合理的な弁護士費用を含む）から免責し、弁護し、損害を与えないようにする責任を負います。あなたは、そのような請求事項が発生した場合、直ちにStability AI関係者に通知し、そのような請求事項の弁護においてStability AI関係者と協力するものとします。あなたはまた、Stability AIの単独の選択により、請求事項の弁護または和解の独占的な管理をStability AI関係者に委ねるものとします。この補償は、あなたとStability AIまたは他のStability AI関係者との間の書面による契約に規定された他の補償または救済策に加えて適用され、それらに代わるものではありません。
終了；存続 a. あなたが本ライセンスの条項に違反した場合、本ライセンスは自動的に終了します。 b. 私たちは、あなたに通知（電子通知を含む）することにより、いつでも本ライセンスの全部または一部を終了することができます。 c. 本ライセンスの終了後も、以下の条項は存続します。第2条（制限事項）、第3条（帰属表示）、第4条（免責事項）、第5条（責任の制限）、第6条（補償）、第7条（終了；存続）、第8条（第三者の素材）、第9条（商標）、第10条（適用法律；紛争解決）、および第11条（その他）。
第三者の素材 ソフトウェア製品は、第三者のソフトウェアまたはその他のコンポーネント（無料およびオープンソースソフトウェアを含む）（以上すべて「第三者の素材」）を含む場合があり、これらはそれぞれの第三者のライセンサーのライセンス条項の対象となります。あなたと第三者との取引や通信、およびあなたの第三者の素材の使用または相互作用は、あなたと第三者の間でのみ行われます。Stability AIは、第三者の素材を管理または承認せず、また第三者の素材に関するいかなる表明または保証も行いません。あなたが第三者の素材にアクセスして使用することは、あなた自身の責任で行うものとします。
商標本ライセンスの一部として、ライセンシーには商標ライセンスは付与されておらず、Stability AIの事前の書面による許可なしに、Stability AIに関連するいかなる名称またはマークも使用することはできません。ただし、本契約の「帰属表示」の項で必要とされる参照を行うために必要な範囲を除きます。
適用法律；紛争解決 本ライセンスは、カリフォルニア州の法律に基づいて管轄され、解釈されます。法律の抵触規定は考慮されません。本ライセンスに起因するまたは関連するいかなる訴訟または手続きも、カリフォルニア州サンマテオ郡の連邦または州の裁判所（該当する場合）に提起され、各当事者はそのような裁判所の管轄権および裁判管轄区域に無条件に服するものとします。
その他 本ライセンスのいかなる条項または条項の一部が違法、無効または執行不能である場合、その条項または条項の一部は本ライセンスから切り離されたものとみなされ、残りの条項の有効性および執行可能性に影響を与えません。Stability AIが本ライセンスのいかなる権利または条項を行使または執行しないことは、その権利または条項の放棄として解釈されることはありません。本ライセンスは、他のいかなる者または団体に対しても第三者受益者権利を付与するものではありません。本ライセンスは、ドキュメントとともに、本ライセンスの主題に関するあなたとStability AIとの間のすべての了解を含み、当該主題に関するあなたとStability AIとの間の他のすべての書面または口頭の契約および了解を取り消します。本ライセンスのいかなる条項の変更または追加も、書面で行われ、あなたとStability AIの両方の権限を有する代表者によって署名されない限り、拘束力を持たないものとします。