Stable Diffusion 3.5大規模モデルのぼやけ制御ネットワーク - オープンソースで無料、ぼやけた画像で内容生成を制御

Home

Stable Diffusion 3.5 Large Controlnet Blur

Developed by stabilityai

Stable Diffusion 3.5大規模モデルを基にしたぼかし制御ネットワークで、ぼかし画像を通じて生成内容を制御

画像生成 EnglishOpen Source License:Other #ぼかし制御生成 #クリエイティブデザイン支援 #マルチモーダル制御

Downloads 603

Release Time : 11/25/2024

Model Overview

このモデルはStable Diffusion 3.5のControlNet拡張で、ぼかし制御画像を通じて生成プロセスを誘導するために特別に設計されており、クリエイティブデザインやアート制作に適しています。

Model Features

ぼかし制御生成

ぼかし制御画像を通じて生成内容を精密に誘導し、より制御可能な画像制作を実現

商用フレンドリーライセンス

年間収入100万ドル未満の組織は無料で商用利用可能、出力コンテンツの所有権は使用者に帰属

高品質生成

Stable Diffusion 3.5大規模モデルを基に、高品質なアート画像を生成

Model Capabilities

画像生成

ぼかし制御誘導

クリエイティブアート制作

スタイル変換

Use Cases

クリエイティブデザイン

カートゥーンアート制作

3Dカートゥーンスタイルのアートワークを生成、例えばサーフィンするアヒル

高品質なカートゥーンスタイル画像

商業応用

広告デザイン

中小企業向けの広告素材を作成

カスタマイズされた商業用画像

🚀 Stable Diffusion 3.5 Large Controlnet - Blur

このモデルは、Stable Diffusion 3.5 Large 用の Blur ControlNet を提供します。画像生成において、ぼかし効果を制御するために使用できます。

🚀 クイックスタート

このセクションでは、モデルの使用方法やインストール手順などを説明します。

✨ 主な機能

このリポジトリは、Stable Diffusion 3.5 Large 用の Blur ControlNet を提供します。
非商用利用は無料で、年間収益が 100 万ドル未満の商用利用も無料です。
生成されたメディアの所有権を保持できます。

📦 インストール

SD3.5 スタンドアロンリポジトリでの Controlnets の使用

リポジトリをインストールします:

git clone git@github.com:Stability-AI/sd3.5.git
pip install -r requirements.txt

次に、モデルとサンプル画像を以下のようにダウンロードします:

input/sample_cond.png
models/clip_g.safetensors
models/clip_l.safetensors
models/t5xxl.safetensors
models/sd3.5_large.safetensors
models/canny_8b.safetensors

そして、以下のコマンドを実行できます:

python sd3_infer.py --controlnet_ckpt models/blur_8b.safetensors --controlnet_cond_image input/sample_cond.png --prompt "A duck riding a tidal wave, 3D graphic art style"

これにより、以下のような画像が生成されます:

A duck riding a tidal wave

Diffusers での Controlnets の使用

Diffusers を最新バージョンにアップグレードします: pip install -U diffusers。そして、以下のコードを実行できます:

import torch
from diffusers import StableDiffusion3ControlNetPipeline,SD3ControlNetModel
from diffusers.utils import load_image

controlnet = SD3ControlNetModel.from_pretrained("stabilityai/stable-diffusion-3.5-large-controlnet-blur", torch_dtype=torch.float16)
pipe = StableDiffusion3ControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    controlnet=controlnet,
    torch_dtype=torch.float16
).to("cuda")

control_image = load_image("https://huggingface.co/datasets/diffusers/diffusers-images-docs/resolve/main/blur.png")
prompt = "generated ai art, a tiny, lost rubber ducky in an action shot close-up, surfing the humongous waves, inside the tube, in the style of Kelly Slater"

generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(
    prompt, 
    control_image=control_image, 
    guidance_scale=3.5,
    num_inference_steps=60,
    generator=generator,
    max_sequence_length=77,
).images[0]
image.save('blur-8b.jpg')

💻 使用例

基本的な使用法

# SD3.5 スタンドアロンリポジトリでの Controlnets の使用
git clone git@github.com:Stability-AI/sd3.5.git
pip install -r requirements.txt

高度な使用法

# Diffusers での Controlnets の使用
import torch
from diffusers import StableDiffusion3ControlNetPipeline,SD3ControlNetModel
from diffusers.utils import load_image

controlnet = SD3ControlNetModel.from_pretrained("stabilityai/stable-diffusion-3.5-large-controlnet-blur", torch_dtype=torch.float16)
pipe = StableDiffusion3ControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    controlnet=controlnet,
    torch_dtype=torch.float16
).to("cuda")

control_image = load_image("https://huggingface.co/datasets/diffusers/diffusers-images-docs/resolve/main/blur.png")
prompt = "generated ai art, a tiny, lost rubber ducky in an action shot close-up, surfing the humongous waves, inside the tube, in the style of Kelly Slater"

generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(
    prompt, 
    control_image=control_image, 
    guidance_scale=3.5,
    num_inference_steps=60,
    generator=generator,
    max_sequence_length=77,
).images[0]
image.save('blur-8b.jpg')

📚 ドキュメント

前処理

入力画像を制御に使用するために、以下のコードスニペットに従って前処理することができます。SD3.5 はこの動作を実装していないため、事前に外部スクリプトで行うことをお勧めします。

import torchvision.transforms as transforms
# assuming img is a PIL image
gaussian_blur = transforms.GaussianBlur(kernel_size=50)
blurred_image = gaussian_blur(image)

ヒント

ControlNet の強度を 0.9 から始め、必要に応じて調整することをお勧めします。
Euler サンプラーとやや多いステップ数 (50 - 60) を使用すると、特に Canny で最適な結果が得られます。
--text_encoder_device <device_name> を渡すことで、テキストエンコーダを直接 VRAM にロードでき、追加の VRAM 使用量を犠牲にして、完全な推論ループを高速化できます。

使用範囲

モデルのすべての使用は、Acceptable Use Policy に準拠する必要があります。

範囲外の使用

このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていません。したがって、そのようなコンテンツを生成するためにこのモデルを使用することは、このモデルの能力範囲外です。

訓練データと戦略

これらのモデルは、合成データやフィルタリングされた公開データなど、幅広いデータで訓練されています。

🔧 技術詳細

整合性評価

整合性評価方法には、構造化された評価と特定の害に対するレッドチーミングテストが含まれます。テストは主に英語で行われ、すべての可能性のある害をカバーしているとは限りません。

特定されたリスクと緩和策:

有害なコンテンツ: モデルを訓練する際にフィルタリングされたデータセットを使用し、有用性と害の防止のバランスを取ろうとするセーフガードを実装しています。ただし、すべての可能性のある有害なコンテンツが削除されていることを保証するものではありません。すべての開発者とデプロイヤーは、注意を払い、特定の製品ポリシーとアプリケーションのユースケースに基づいてコンテンツセーフティガードを実装する必要があります。
誤用: 技術的な制限と開発者およびエンドユーザーの教育は、モデルの悪意のあるアプリケーションに対する緩和策となります。すべてのユーザーは、Acceptable Use Policy に準拠する必要があり、ファインチューニングやプロンプトエンジニアリングメカニズムを適用する際も同様です。製品の違反使用に関する情報は、Stability AI Acceptable Use Policy を参照してください。
プライバシー侵害: 開発者とデプロイヤーは、データプライバシーを尊重する技術を使用して、プライバシー規制に準拠することが推奨されます。

📄 ライセンス

このモデルは Stability Community License の下でリリースされています。商用ライセンスの詳細については、Stability AI を訪問するか、お問い合わせください。

ライセンスの主要な要素:

非商用利用は無料です: 個人や組織は、科学研究を含む非商用利用のために、このモデルを無料で使用できます。
商用利用は年間収益 100 万ドルまで無料です: スタートアップ、中小企業、クリエイターは、年間総収益が 100 万ドル未満である限り、商用目的でこのモデルを無料で使用できます。
出力の所有権: 制限的なライセンスの影響を受けずに、生成されたメディアの所有権を保持できます。

年間収益が 100 万ドルを超える組織は、こちらからエンタープライズライセンスについてお問い合わせください。