Stable Diffusion XLオープンソース画像生成モデル - 無料でデプロイし、高品質画像を生成・細化する

ホーム

Stable Diffusion Xl Refiner 1.0 With Endpoint Handler

karimbenharrakによって開発

SDXLは専門家集合に基づく潜在拡散モデルで、基本モデルと最適化モデルの二段階プロセスを含み、高品質な画像を生成・精細化処理できる

画像生成 #二段階画像生成 #高解像度最適化 #潜在拡散モデル

ダウンロード数 46

リリース時間 : 3/14/2024

モデル概要

このモデルは二重テキストエンコーダーに基づく潜在拡散モデルで、テキストプロンプトに従って画像を生成・修正でき、特に最適化段階を通じて画質を向上させることに優れている

モデル特徴

二段階生成プロセス

基本モデルで初期画像を生成後、専用最適化モデルで精細化処理を行い、画質を大幅に向上させる

SDEdit技術統合

高解像度段階でSDEdit技術を適用し、元のプロンプトを保持しながら画像ディテールを最適化する

複数テキストエンコーダー対応

OpenCLIP-ViT/GとCLIP-ViT/Lの二重テキストエンコーダーを統合し、テキスト理解能力を強化

モデル能力

テキストから画像生成

画像から画像変換

画質最適化

アート創作

デザイン支援

使用事例

クリエイティブデザイン

アート作品生成

テキスト記述に基づき様々なスタイルのアート作品を自動生成

多様な芸術スタイルの画像を生成可能

コンセプトデザイン

製品・シーン・キャラクターのコンセプトデザインを迅速生成

デザインプロセスを加速し、創造的インスピレーションを提供

教育研究

教材生成

教育シーン向けの視覚的教材を作成

教育リソースを豊富にし、教育効果を向上

生成モデル研究

拡散モデル関連技術の研究開発に利用

生成モデル技術の進歩を推進

🚀 SD - XL 1.0 - リファイナーモデルカード

このモデルは、テキストプロンプトに基づいて画像を生成および修正するためのモデルです。潜在拡散モデルを利用し、2つの事前学習済みテキストエンコーダを使用しています。

row01

🚀 クイックスタート

モデルについて

pipeline

SDXL は、潜在拡散のためのエキスパートのアンサンブルパイプラインで構成されています。最初のステップでは、ベースモデル（https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 で入手可能）を使用して（ノイズのある）潜在変数を生成し、それを最終的なノイズ除去ステップに特化したリファインモデルでさらに処理します。なお、ベースモデルは単独でも使用できます。

あるいは、以下のような2段階のパイプラインを使用することもできます。まず、ベースモデルを使用して目的の出力サイズの潜在変数を生成します。2番目のステップでは、特殊な高解像度モデルを使用し、SDEdit（https://arxiv.org/abs/2108.01073、「img2img」としても知られる）と呼ばれる手法を、同じプロンプトを使用して最初のステップで生成された潜在変数に適用します。この手法は、最初の方法よりも少し遅いですが、より多くの関数評価が必要です。

ソースコードは https://github.com/Stability - AI/generative - models で入手できます。

モデルの詳細

属性	详情
開発元	Stability AI
モデルタイプ	拡散ベースのテキストから画像への生成モデル
ライセンス	CreativeML Open RAIL++ - M License
モデル説明	これは、テキストプロンプトに基づいて画像を生成および修正するためのモデルです。2つの固定された事前学習済みテキストエンコーダ (OpenCLIP - ViT/G と CLIP - ViT/L) を使用する潜在拡散モデルです。
詳細情報リソース	GitHubリポジトリと arXivのSDXLレポートをご確認ください。

モデルのソース

研究目的では、最も人気のある拡散フレームワーク（トレーニングと推論の両方）を実装し、蒸留などの新機能が随時追加される generative - models のGitHubリポジトリ (https://github.com/Stability-AI/generative-models) をお勧めします。 Clipdrop は、無料のSDXL推論を提供しています。

リポジトリ: https://github.com/Stability-AI/generative-models
デモ: https://clipdrop.co/stable-diffusion

📚 ドキュメント

評価

comparison

上のグラフは、SDXL（リファイン有りおよび無し）に対するユーザーの好みを、SDXL 0.9 および Stable Diffusion 1.5 と 2.1 と比較して評価しています。SDXLベースモデルは以前のバリアントよりも大幅に優れており、リファインモジュールと組み合わせたモデルは全体的に最良の性能を達成しています。

🧨 Diffusersの使用方法

まず、diffusersを >= 0.18.0 にアップグレードしてください。

pip install diffusers --upgrade

さらに、transformers、safetensors、accelerate および不可視ウォーターマークをインストールしてください。

pip install invisible_watermark transformers accelerate safetensors

その後、リファイナーを使用して画像を改善することができます。

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

torch >= 2.0 を使用する場合、torch.compile を使用することで推論速度を20 - 30％向上させることができます。パイプラインを実行する前に、unetをtorch compileでラップしてください。

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU VRAMに制限がある場合、.to("cuda") の代わりに pipe.enable_model_cpu_offload を呼び出すことで CPUオフロード を有効にすることができます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

より高度な使用例については、ドキュメントを参照してください。

💻 使用例

基本的な使用法

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高度な使用法

# torch >= 2.0 を使用する場合、推論速度を向上させる
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

🔧 技術詳細

用途

直接的な使用

このモデルは研究目的のみを意図しています。可能な研究分野およびタスクには以下が含まれます。

アートワークの生成およびデザインやその他の芸術的プロセスでの使用。
教育または創造的ツールでの応用。
生成モデルに関する研究。
有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの制限とバイアスの調査と理解。

以下に除外される使用法を説明します。

想定外の使用

このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

制限とバイアス

制限

このモデルは完全な写実性を達成しません。
このモデルは読み取り可能なテキストをレンダリングできません。
このモデルは、「青い球の上に赤い立方体がある」などの構成性を伴う難しいタスクに苦労します。
顔や人物全体が適切に生成されない場合があります。
モデルの自動符号化部分は損失があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。

📄 ライセンス

このモデルは CreativeML Open RAIL++ - M License の下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご