Stable Diffusion XL Base 0.9オープンソースのテキストから画像生成するモデル

ホーム

Stable Diffusion Xl Base 0.9

stabilityaiによって開発

Stability AIが開発した拡散ベースのテキストから画像生成モデルで、二段階潜在空間拡散プロセスを採用し、高解像度画像生成をサポート

画像生成オープンソースライセンス:その他 #二段階テキストから画像生成 #高解像度最適化 #芸術創作専用

ダウンロード数 527

リリース時間 : 6/19/2023

モデル概要

テキストプロンプトに基づいて画像を生成・修正できる潜在拡散モデルで、二つの固定事前学習テキストエンコーダ（OpenCLIP-ViT/GとCLIP-ViT/L）をベースにしている

モデル特徴

二段階潜在空間拡散

最初に基本潜在変数を生成し、その後高解像度モデルで最適化することで、より高品質な画像生成を実現

SDEdit技術統合

画像から画像生成技術を用いて初期潜在変数を最適化し、プロンプトの一貫性を保ちながら詳細表現を向上

複数テキストエンコーダサポート

OpenCLIP-ViT/GとCLIP-ViT/Lの二つのテキストエンコーダを組み合わせ、テキスト理解能力を強化

モデル能力

テキストから画像生成

画像修正・最適化

芸術創作生成

教育ツール開発

使用事例

芸術創作

コンセプトアート生成

文章記述に基づいて自動的にコンセプトアート画像を生成

多様なデザインスケッチを迅速に生成可能

教育研究

生成モデル研究

拡散モデルのアーキテクチャと訓練方法の研究に使用

🚀 SD-XL 0.9-baseモデルカード

このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。潜在拡散モデルを利用し、2段階のパイプラインで画像生成を行います。

row01

🚀 クイックスタート

まずは、必要なライブラリをインストールしましょう。その後、モデルをロードして画像生成を行うことができます。

ライブラリのインストール

diffusersをバージョン0.18.0以上にアップグレードします。

pip install diffusers --upgrade

また、transformers、safetensors、accelerate、およびinvisible watermarkもインストールします。

pip install invisible_watermark transformers accelerate safetensors

モデルの使用

以下のコードでモデルを使用することができます。

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-0.9", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

✨ 主な機能

SDXLは、潜在拡散のための2段階パイプラインを備えています。

まず、ベースモデルを使用して、目的の出力サイズの潜在変数を生成します。
次に、特殊な高解像度モデルを使用し、SDEdit（https://arxiv.org/abs/2108.01073、「img2img」とも呼ばれる）という手法を、1段階で生成された潜在変数に適用し、同じプロンプトを使用します。

📦 インストール

依存ライブラリのインストール

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors

💻 使用例

基本的な使用法

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-0.9", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

高度な使用法

# 高度なシナリオでは、プロンプトの調整やパラメータの変更が可能です。
# 例えば、異なるガイダンススケールやステップ数を設定することができます。
prompt = "A beautiful landscape with a lake and mountains"
image = pipe(prompt, guidance_scale=7.5, num_inference_steps=50).images[0]
image.save("generated_image.png")

📚 ドキュメント

モデルの説明

属性	详情
開発元	Stability AI
モデルタイプ	拡散ベースのテキストから画像への生成モデル
ライセンス	SDXL 0.9 Research License
モデル説明	このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。潜在拡散モデルであり、2つの固定された事前学習済みテキストエンコーダ（OpenCLIP-ViT/GとCLIP-ViT/L）を使用します。

モデルのソース

リポジトリ: https://github.com/Stability-AI/generative-models
デモ [オプション]: https://clipdrop.co/stable-diffusion

📄 ライセンス

このモデルは、SDXL 0.9 Research Licenseの下で提供されています。以下はライセンスの要約です。

ライセンスの付与

あなたがドキュメントおよびセクション2、3、および5の条件を遵守することを条件として、Stability AIは、あなたに非独占的、世界規模、非譲渡的、非サブライセンス可能、取消可能、無料で制限付きのライセンスを付与します。このライセンスは、Stability AIの著作権に基づき、ソフトウェアを非商用の研究目的のみで使用、複製、および派生作品を作成することができます。

制限事項

あなたは、ソフトウェア製品を商用または生産目的、軍事目的、監視目的、生体認証処理、第三者の権利を侵害する目的、または適用される法律に違反する目的で使用することはできません。また、ソフトウェア製品の著作権およびその他の所有権表示を変更または削除することもできません。

帰属表示

免責事項

ソフトウェア製品は「現状のまま」で提供され、いかなる種類の保証もありません。Stability AIは、ソフトウェア製品に関するすべての表明および保証を明示的に否認します。

責任の制限

法律で許される最大限の範囲で、Stability AIは、契約、不法行為、過失、厳格責任、保証、またはその他の理論に基づくいかなる責任も負いません。

補償

あなたは、Stability AIおよびその子会社、関連会社、株主、取締役、役員、従業員、代理人、後継者、および譲受人を、あなたのソフトウェア製品のアクセスまたは使用、このライセンスの違反、または他人の権利の侵害に関連するすべての損失、責任、損害、罰金、および費用から補償し、防御し、免責する責任があります。

終了; 存続

このライセンスは、あなたがこのライセンスの条項に違反した場合に自動的に終了します。Stability AIは、いつでもあなたに通知（電子通知を含む）することで、このライセンスを全体または一部を終了することができます。

第三者の素材

ソフトウェア製品は、第三者のソフトウェアまたはその他のコンポーネント（フリーおよびオープンソースソフトウェアを含む）を含む場合があります。これらの第三者の素材は、それぞれの第三者のライセンサーのライセンス条項の対象となります。

商標

あなたは、このライセンスの一部として商標ライセンスを付与されていません。Stability AIの事前の書面による許可なしに、Stability AIに関連するいかなる名前またはマークも使用することはできません。

適用法律; 紛争解決

このライセンスは、カリフォルニア州の法律に基づいて管理および解釈されます。このライセンスに関連するすべての訴訟または手続きは、カリフォルニア州サンマテオ郡の連邦または州の裁判所で提起されます。

その他

このライセンスのいずれかの条項または条項の一部が違法、無効、または執行不能である場合、その条項または条項の一部はこのライセンスから切り離され、残りの条項の有効性および執行可能性に影響を与えません。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご