SDXLオープンソースAIモデル - 無料でデプロイしてリアルな猫の写真を簡単に生成

ホーム

Sdxl

ControlNetLoRAによって開発

stabilityai/stable-diffusion-xl-base-1.0をベースとしたControlNet PEFT LoHaモデルで、主にリアルな猫の写真を生成するために使用されます。

画像生成オープンソースライセンス:Openrail #ControlNet微調整 #LoHaアダプター #高解像度画像生成

ダウンロード数 314

リリース時間 : 4/15/2025

モデル概要

これはControlNet PEFT LoHa技術に基づく画像生成モデルで、テキストプロンプトに基づいて高品質のリアルな画像を生成でき、特に猫の写真の生成に長けています。

モデル特徴

ControlNet PEFT LoHa技術

ControlNet PEFT LoHa技術を採用し、stable-diffusion-xl-base-1.0モデルから派生しており、より効率的な画像生成能力を提供します。

リアルな画像生成

高品質のリアルな画像を生成でき、特に猫の写真の生成に長けています。

詳細な訓練パラメータ設定

訓練過程では詳細なパラメータ設定を使用し、モデルの安定性と正確性を保証します。

モデル能力

テキストから画像への生成

リアルな画像生成

画像スタイル変換

使用事例

画像生成

リアルな猫の写真を生成する

テキストプロンプトに基づいて高品質のリアルな猫の写真を生成します。

生成された画像は高解像度でリアルな効果を持ちます。

🚀 simpletuner-controlnet-sdxl-lora-test

これは stabilityai/stable-diffusion-xl-base-1.0 をベースにした ControlNet PEFT LoHa です。

学習中に使用される主な検証プロンプトは以下の通りです。

リアルな猫の写真

🚀 クイックスタート

このプロジェクトは特定のベースモデルと検証プロンプトを使用して学習されており、以下の手順で推論操作を行うことができます。

✨ 主な機能

ControlNet PEFT LoHa 技術に基づき、stabilityai/stable-diffusion-xl-base-1.0 モデルから派生しています。
テキストから画像への変換を実現し、リアルな画像を生成することができます。
学習と検証の過程では詳細なパラメータ設定が行われ、モデルの安定性と精度が保証されています。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。diffusers、torch などの関連依存ライブラリの公式ドキュメントを参照してインストールしてください。

💻 使用例

基本的な使用法

import torch
from diffusers import DiffusionPipeline

model_id = 'stabilityai/stable-diffusion-xl-base-1.0'
adapter_id = 'bghira/simpletuner-controlnet-sdxl-lora-test'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16) # loading directly in bf16
pipeline.load_lora_weights(adapter_id)

prompt = "A photo-realistic image of a cat"
negative_prompt = 'blurry, cropped, ugly'

## Optional: quantise the model to save on vram.
## Note: The model was not quantised during training, so it is not necessary to quantise it during inference time.
#from optimum.quanto import quantize, freeze, qint8
#quantize(pipeline.unet, weights=qint8)
#freeze(pipeline.unet)
    
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu') # the pipeline is already in its target precision level
model_output = pipeline(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=20,
    generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
    width=1024,
    height=1024,
    guidance_scale=4.2,
    guidance_rescale=0.0,
).images[0]

model_output.save("output.png", format="PNG")

高度な使用法

ドキュメントに高度な使用法に関するコード例は記載されていません。prompt、negative_prompt、num_inference_steps などの推論パラメータを実際のニーズに合わせて調整することができます。

📚 ドキュメント

検証設定

CFG：4.2
CFG リスケーリング：0.0
ステップ数：20
サンプラー：ddim
シード：42
解像度：1024x1024

注意：検証設定は学習設定と必ずしも一致しない場合があります。

以下のギャラリーでいくつかのサンプル画像を見ることができます。

テキストエンコーダは 学習されていません。ベースモデルのテキストエンコーダを再利用して推論を行うことができます。

学習設定

学習エポック数：4
学習ステップ数：100
学習率：0.0001
- 学習率スケジューリング：一定
- ウォームアップステップ数：0
最大勾配値：2.0
有効バッチサイズ：1
- マイクロバッチサイズ：1
- 勾配累積ステップ数：1
- GPU 数：1
勾配チェックポイント：有効
予測タイプ：epsilon（追加パラメータ=['training_scheduler_timestep_spacing=trailing', 'inference_scheduler_timestep_spacing=trailing']）
オプティマイザ：bnb-lion8bit
学習可能パラメータ精度：純粋な BF16
ベースモデル精度：no_change
字幕ドロップアウト確率：0.1%
LoRA ランク：128
LoRA アルファ：128.0
LoRA ドロップアウト率：0.1
LoRA 初期化スタイル：デフォルト

データセット

antelope-data

繰り返し回数：0
画像総数：24
アスペクト比バケット総数：1
解像度：1.048576 メガピクセル
クロップ：あり
クロップスタイル：中央
クロップアスペクト比：正方形
正則化データに使用：いいえ

🔧 技術詳細

このプロジェクトは ControlNet PEFT LoHa 技術に基づき、stabilityai/stable-diffusion-xl-base-1.0 モデルから派生しています。学習過程では特定の検証プロンプトと詳細な学習パラメータ設定を使用して、モデルの性能と精度を保証しています。また、推論過程ではベースモデルとアダプタの重みをロードすることで画像生成を行うことができます。