モデル概要
モデル特徴
モデル能力
使用事例
🚀 IF-II-M-v1.0
DeepFloyd-IFは、画素ベースのテキストから画像への3段カスケード拡散モデルです。このモデルは、写実性と言語理解能力において新たな最先端レベルの画像を生成することができます。結果として、非常に効率的なモデルが実現され、COCOデータセットでゼロショットのFID-30Kスコア6.66
を達成し、現在の最先端モデルを上回っています。
参考論文 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
📚 ドキュメント
モデルの詳細
属性 | 详情 |
---|---|
開発者 | DeepFloyd, StabilityAI |
モデルタイプ | 画素ベースのテキストから画像へのカスケード拡散モデル |
カスケードステージ | II |
パラメータ数 | 450M |
言語 | 主に英語、一部ロマンス語族の言語 |
ライセンス | DeepFloyd IF License Agreement |
モデルの説明 | DeepFloyd-IFは、凍結されたテキストモードと3つの画素カスケード拡散モジュールで構成されています。各モジュールは、解像度の高い画像を生成するように設計されており、それぞれ64x64、256x256、1024x1024の画像を生成します。モデルのすべての段階で、T5トランスフォーマーに基づく凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングで強化されたUNetアーキテクチャに入力します。 |
詳細情報のリソース | GitHub, Website, All Links |
📦 インストール
IFは🤗 Hugging Faceの🧨 diffusersライブラリと統合されており、VRAMが14GBのGPUでも実行できるように最適化されています。
IFを使用する前に、使用条件に同意する必要があります。そのためには:
- Hugging Faceアカウントを持っていることを確認し、ログインしてください。
- DeepFloyd/IF-I-M-v1.0のモデルカードでライセンスに同意してください。
- ローカルでログインすることを確認してください。
huggingface_hub
をインストールします。
pip install huggingface_hub --upgrade
Pythonシェルでログイン関数を実行します。
from huggingface_hub import login
login()
そして、Hugging Face Hubアクセストークンを入力してください。
次に、diffusers
と依存関係をインストールします。
pip install diffusers accelerate transformers safetensors sentencepiece
これで、モデルをローカルで実行することができます。
デフォルトでは、diffusers
はモデルのCPUオフロードを使用して、VRAMが14GBの環境でもIFパイプライン全体を実行できます。
torch>=2.0.0
を使用している場合は、すべての enable_xformers_memory_efficient_attention()
関数を削除することを確認してください。
💻 使用例
基本的な使用法
from diffusers import DiffusionPipeline
from diffusers.utils import pt_to_pil
import torch
# stage 1
stage_1 = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-M-v1.0", variant="fp16", torch_dtype=torch.float16)
stage_1.enable_model_cpu_offload()
# stage 2
stage_2 = DiffusionPipeline.from_pretrained(
"DeepFloyd/IF-II-M-v1.0", text_encoder=None, variant="fp16", torch_dtype=torch.float16
)
stage_2.enable_model_cpu_offload()
# stage 3
safety_modules = {
"feature_extractor": stage_1.feature_extractor,
"safety_checker": stage_1.safety_checker,
"watermarker": stage_1.watermarker,
}
stage_3 = DiffusionPipeline.from_pretrained(
"stabilityai/stable-diffusion-x4-upscaler", **safety_modules, torch_dtype=torch.float16
)
stage_3.enable_model_cpu_offload()
prompt = "a photo of a cat"
# generate image
image_1 = stage_1(prompt, guidance_scale=7.0).images[0]
image_2 = stage_2(
prompt=prompt, image=pt_to_pil(image_1), guidance_scale=4.0
).images[0]
image_3 = stage_3(prompt=prompt, image=pt_to_pil(image_2)).images[0]
image_3.show()
📄 ライセンス
DeepFloyd LICENSE AGREEMENT
このライセンス契約(このライセンス契約に従って改正される場合も含め、「ライセンス」)は、あなたまたはあなたの雇用主もしくは他の団体(あなたがあなたの雇用主または他の団体を代表してこの契約に入る場合)(「ライセンシー」または「あなた」)とStability AI Ltd.(「Stability AI」または「私たち」)の間で締結され、Stability AIがこのライセンスの下で提供するコンピュータプログラム、アルゴリズム、ソースコード、オブジェクトコード、またはソフトウェア(「ソフトウェア」)およびStability AIがソフトウェアに関連して提供する仕様、マニュアル、ドキュメント、およびその他の書面情報(「ドキュメント」)の使用に適用されます。
以下の「同意する」をクリックするか、ソフトウェアを使用することにより、あなたはこのライセンスの条項に同意することになります。このライセンスに同意しない場合、あなたはソフトウェアまたはドキュメント(まとめて「ソフトウェア製品」)を使用する権利を持たず、直ちにソフトウェア製品の使用を中止する必要があります。あなたがあなたの雇用主または他の団体を代表してこのライセンスの条項に拘束されることに同意する場合、あなたはStability AIに対して、あなたの雇用主またはそのような団体をこのライセンスに拘束する完全な法的権限を持っていることを表明および保証します。必要な権限がない場合、あなたはあなたの雇用主または他の団体を代表してこのライセンスを受け入れたり、ソフトウェア製品にアクセスしたりすることはできません。
- ライセンスの付与
- a. あなたがドキュメントおよび第2条、第3条、および第5条に準拠することを条件として、Stability AIは、あなたに対して、Stability AIの著作権に基づく非排他的、世界規模、非譲渡、非サブライセンス、取消可能、無償、かつ限定的なライセンスを付与し、ソフトウェアをあなたの非商用研究目的のみで複製、配布、および派生物を作成することができます。前述のライセンスはあなた個人に帰属するものであり、Stability AIの事前の書面による同意なしに、このライセンスまたはこのライセンスに基づく他の権利や義務を譲渡またはサブライセンスすることはできません。そのような譲渡またはサブライセンスは無効となり、このライセンスは自動的かつ直ちに終了します。
- b. あなたは、上記で付与されたソフトウェアのライセンスに関連して使用するために、合理的な数のドキュメントのコピーを作成することができます。
- c. 本条第1項(ライセンスの付与)に明示的に定められた権利の付与は、ソフトウェア製品に関するあなたへの完全な権利の付与であり、放棄、禁反言、暗示、衡平法またはその他の理由によるかどうかを問わず、他のライセンスは付与されません。Stability AIおよびそのライセンサーは、このライセンスによって明示的に付与されていないすべての権利を留保します。
- 制限事項
- あなたは、第三者に対しても、以下のことを行わないようにし、援助または引き起こさないようにします。
- a. ソフトウェア製品(またはその派生物、ソフトウェア製品を組み込んだ作品、またはソフトウェアによって生成されたデータ)の全部または一部を、(i) 商業目的または生産目的、(ii) 軍事目的または核技術のサービス、(iii) 監視目的、監視に関連する研究または開発を含む、(iv) 生体認証処理、(v) 第三者の権利を侵害、盗用、またはその他の方法で違反する方法、または(vi) 適用される法律およびプライバシーまたはセキュリティに関する法律、規則、規制、指令、または政府の要件(一般データ保護規則(規則 (EU) 2016/679)、カリフォルニア州消費者プライバシー法、および生体認証情報の処理を規制するすべての法律を含む)を違反する方法で使用、変更、コピー、複製、派生物を作成、または配布すること。
- b. ソフトウェア製品に表示または含まれる著作権およびその他の所有権表示を変更または削除すること。
- c. いかなる機器、デバイス、ソフトウェア、またはその他の手段を利用して、Stability AIがソフトウェアに関連して使用するセキュリティまたは保護を回避または削除したり、使用制限を回避または削除したり、Stability AIによって無効化された機能を有効にしたりすること。
- d. ソフトウェア製品に対して、このライセンスの条項を変更、制限、または矛盾する条項を提供または課すこと。
- e. 1) 適用される米国および非米国の輸出管理および貿易制裁法律(「輸出法律」)を違反すること;2) 直接または間接的に、ソフトウェア製品を、(a) 輸出法律によって禁止されている個人、団体、または国に、(b) 米国または非米国政府の制限対象者リストに載っている者に、または(c) 輸出法律によって禁止されている目的、核、化学、または生物兵器、またはミサイル技術の応用を含む目的のために輸出、再輸出、提供、またはその他の方法で移転すること;3) あなたまたは彼らが、(a) 包括的に制裁されている管轄区域に所在する場合、(b) 現在米国または非米国の制限対象者リストに載っている場合、または(c) 輸出法律によって禁止されている目的のために、ソフトウェア製品を使用またはダウンロードすること;および(4) IPプロキシまたはその他の方法によってあなたの位置を隠すこと。
- あなたは、第三者に対しても、以下のことを行わないようにし、援助または引き起こさないようにします。
- 帰属表示
- あなたが配布するソフトウェア製品(およびその派生物またはソフトウェア製品を組み込んだ作品)のすべてのコピーとともに、(i) このライセンスのコピーと、(ii) 以下の帰属表示を提供する必要があります。「DeepFloydはDeepFloyd Licenseの下でライセンスされており、Copyright (c) Stability AI Ltd. All Rights Reserved.」
- 免責事項
- ソフトウェア製品は「現状のまま」および「ありのまま」で提供され、いかなる種類の保証も明示的または暗示的に一切ありません。Stability AIは、法律、慣習、慣用、またはその他の理由によるかどうかを問わず、ソフトウェア製品に関連するすべての事項について、明示的または暗示的なすべての表明および保証を明確に否認します。これには、商品性、特定の目的への適合性、所有権、満足のいく品質、または非侵害の暗示的保証が含まれますが、これらに限定されません。Stability AIは、ソフトウェア製品がエラーフリーまたはウイルスやその他の有害なコンポーネントを含まず、特定の結果を生み出すことについて、いかなる保証または表明も行いません。
- 責任の制限
- 法律によって許容される最大の範囲で、いかなる場合も、Stability AIは、(A) このライセンスに基づく契約、不法行為、過失、無過失責任、保証、またはその他の理論に基づく責任について、または(B) 間接的、結果的、懲罰的、偶発的、懲戒的または特別な損害または利益損失について、あなたに対して責任を負わないものとします。たとえStability AIがそのような損害の可能性を知っていたとしても同様です。ソフトウェア製品、その構成要素、およびすべての出力(まとめて「ソフトウェア素材」)は、ソフトウェア素材の故障または欠陥が合理的に予想される場合に、人身の重傷、個人のプライバシー権の潜在的な差別または侵害、または重大な身体的、財産的、または環境的損害(それぞれ「高リスク使用」)につながる可能性のある、いかなるアプリケーションまたは状況での使用を目的として設計または意図されていません。あなたがソフトウェア素材のいずれかを高リスク使用のために選択した場合、それはあなた自身の責任で行うものとします。あなたは、高リスク使用に関連して、適切な意思決定およびリスク軽減手順と方針を設計および実装することに同意します。それにより、ソフトウェア素材のいずれかに故障または欠陥があった場合でも、その活動によって影響を受ける人または財産の安全が、高リスク使用の分野において合理的、適切、かつ合法的なレベルに維持されます。
- 補償
- あなたは、Stability AIおよび当社の子会社および関連会社、ならびに当社それぞれの株主、取締役、役員、従業員、代理人、後継者、および譲受人(まとめて「Stability AI関係者」)を、あなたのソフトウェア製品のアクセスまたは使用(およびそのようなアクセスまたは使用から生成された結果またはデータ)、このライセンスの違反、または他者の権利(知的財産権またはその他の所有権およびプライバシー権を含む)の違反、盗用、または侵害に起因するまたは関連するいかなる請求、要求、主張、訴訟、手続き、または調査(まとめて「請求」)に関連して、Stability AI関係者が被ったいかなる損失、債務、損害、罰金、罰則、および費用(合理的な弁護士費用を含む)から保護し、弁護し、免責する責任を負います。あなたは、そのような請求があった場合、直ちにStability AI関係者に通知し、そのような請求の弁護においてStability AI関係者と協力するものとします。あなたはまた、Stability AIの単独の選択により、請求の弁護または和解の独占的な管理権をStability AI関係者に付与するものとします。この補償は、あなたとStability AIまたは他のStability AI関係者との間の書面による契約に定められた他の補償または救済に加えて、それらに代わるものではなく適用されます。
- 終了;存続
- a. あなたがこのライセンスの条項を違反した場合、このライセンスは自動的に終了します。
- b. 当社は、あなたに通知(電子通知を含む)することにより、いつでもこのライセンスの全部または一部を終了することができます。
- c. このライセンスの終了後も、以下の条項は存続します。第2条(制限事項)、第3条(帰属表示)、第4条(免責事項)、第5条(責任の制限)、第6条(補償)、第7条(終了;存続)、第8条(第三者素材)、第9条(商標)、第10条(適用法律;紛争解決)、および第11条(その他)。
- 第三者素材
- ソフトウェア製品には、第三者のソフトウェアまたはその他のコンポーネント(無料およびオープンソースソフトウェアを含む)(以上すべて「第三者素材」)が含まれる場合があり、これらはそれぞれの第三者のライセンサーのライセンス条項の対象となります。あなたと第三者との取引または通信、およびあなたの第三者素材の使用または相互作用は、あなたと第三者の間でのみ行われます。Stability AIは、第三者素材を管理または承認せず、第三者素材に関するいかなる表明または保証も行いません。あなたが第三者素材にアクセスし、使用することは、あなた自身の責任で行うものとします。
- 商標
- ライセンシーは、このライセンスの一部として商標ライセンスを付与されておらず、Stability AIの事前の書面による許可なしに、Stability AIに関連するいかなる名称またはマークも使用することはできません。ただし、この契約の「帰属表示」の項で必要とされる参照を行うために必要な範囲を除きます。
- 適用法律;紛争解決
- このライセンスは、カリフォルニア州の法律に基づいて管理および解釈されます。法律の抵触規定は考慮されません。このライセンスに起因するまたは関連するいかなる訴訟または手続きも、カリフォルニア州サンマテオ郡の連邦または州の裁判所に提起されるものとし、各当事者は、そのような裁判所の管轄権および会場に無条件に服するものとします。
- その他
- このライセンスのいかなる条項または条項の一部が違法、無効、または執行不能である場合、その条項または条項の一部はこのライセンスから切り離されたものとみなされ、残りの条項の有効性および執行可能性に影響を与えません。Stability AIがこのライセンスのいかなる権利または条項を行使または執行しないことは、その権利または条項の放棄として解釈されるものではありません。このライセンスは、いかなる第三者に対しても第三者受益者権利を付与するものではありません。このライセンスとドキュメントは、このライセンスの主題に関するあなたとStability AIの間のすべての了解を含み、この主題に関するあなたとStability AIの間の他のすべての書面または口頭の契約および了解に取って代わります。このライセンスのいかなる条項の変更または追加も、書面であり、あなたとStability AIの双方の権限を有する代表者が署名した場合にのみ拘束力を有するものとします。









