🚀 Stable Diffusion 3.5 Large Controlnet - Blur
このモデルは、Stable Diffusion 3.5 Large 用の Blur ControlNet を提供します。画像生成において、ぼかし効果を制御するために使用できます。
🚀 クイックスタート
このセクションでは、モデルの使用方法やインストール手順などを説明します。
✨ 主な機能
📦 インストール
SD3.5 スタンドアロンリポジトリでの Controlnets の使用
リポジトリをインストールします:
git clone git@github.com:Stability-AI/sd3.5.git
pip install -r requirements.txt
次に、モデルとサンプル画像を以下のようにダウンロードします:
input/sample_cond.png
models/clip_g.safetensors
models/clip_l.safetensors
models/t5xxl.safetensors
models/sd3.5_large.safetensors
models/canny_8b.safetensors
そして、以下のコマンドを実行できます:
python sd3_infer.py --controlnet_ckpt models/blur_8b.safetensors --controlnet_cond_image input/sample_cond.png --prompt "A duck riding a tidal wave, 3D graphic art style"
これにより、以下のような画像が生成されます:

Diffusers での Controlnets の使用
Diffusers を最新バージョンにアップグレードします: pip install -U diffusers
。そして、以下のコードを実行できます:
import torch
from diffusers import StableDiffusion3ControlNetPipeline,SD3ControlNetModel
from diffusers.utils import load_image
controlnet = SD3ControlNetModel.from_pretrained("stabilityai/stable-diffusion-3.5-large-controlnet-blur", torch_dtype=torch.float16)
pipe = StableDiffusion3ControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-large",
controlnet=controlnet,
torch_dtype=torch.float16
).to("cuda")
control_image = load_image("https://huggingface.co/datasets/diffusers/diffusers-images-docs/resolve/main/blur.png")
prompt = "generated ai art, a tiny, lost rubber ducky in an action shot close-up, surfing the humongous waves, inside the tube, in the style of Kelly Slater"
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(
prompt,
control_image=control_image,
guidance_scale=3.5,
num_inference_steps=60,
generator=generator,
max_sequence_length=77,
).images[0]
image.save('blur-8b.jpg')
💻 使用例
基本的な使用法
git clone git@github.com:Stability-AI/sd3.5.git
pip install -r requirements.txt
高度な使用法
import torch
from diffusers import StableDiffusion3ControlNetPipeline,SD3ControlNetModel
from diffusers.utils import load_image
controlnet = SD3ControlNetModel.from_pretrained("stabilityai/stable-diffusion-3.5-large-controlnet-blur", torch_dtype=torch.float16)
pipe = StableDiffusion3ControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-large",
controlnet=controlnet,
torch_dtype=torch.float16
).to("cuda")
control_image = load_image("https://huggingface.co/datasets/diffusers/diffusers-images-docs/resolve/main/blur.png")
prompt = "generated ai art, a tiny, lost rubber ducky in an action shot close-up, surfing the humongous waves, inside the tube, in the style of Kelly Slater"
generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(
prompt,
control_image=control_image,
guidance_scale=3.5,
num_inference_steps=60,
generator=generator,
max_sequence_length=77,
).images[0]
image.save('blur-8b.jpg')
📚 ドキュメント
前処理
入力画像を制御に使用するために、以下のコードスニペットに従って前処理することができます。SD3.5 はこの動作を実装していないため、事前に外部スクリプトで行うことをお勧めします。
import torchvision.transforms as transforms
gaussian_blur = transforms.GaussianBlur(kernel_size=50)
blurred_image = gaussian_blur(image)
ヒント
- ControlNet の強度を 0.9 から始め、必要に応じて調整することをお勧めします。
- Euler サンプラーとやや多いステップ数 (50 - 60) を使用すると、特に Canny で最適な結果が得られます。
--text_encoder_device <device_name>
を渡すことで、テキストエンコーダを直接 VRAM にロードでき、追加の VRAM 使用量を犠牲にして、完全な推論ループを高速化できます。
使用範囲
モデルのすべての使用は、Acceptable Use Policy に準拠する必要があります。
範囲外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていません。したがって、そのようなコンテンツを生成するためにこのモデルを使用することは、このモデルの能力範囲外です。
訓練データと戦略
これらのモデルは、合成データやフィルタリングされた公開データなど、幅広いデータで訓練されています。
🔧 技術詳細
整合性評価
整合性評価方法には、構造化された評価と特定の害に対するレッドチーミングテストが含まれます。テストは主に英語で行われ、すべての可能性のある害をカバーしているとは限りません。
特定されたリスクと緩和策:
- 有害なコンテンツ: モデルを訓練する際にフィルタリングされたデータセットを使用し、有用性と害の防止のバランスを取ろうとするセーフガードを実装しています。ただし、すべての可能性のある有害なコンテンツが削除されていることを保証するものではありません。すべての開発者とデプロイヤーは、注意を払い、特定の製品ポリシーとアプリケーションのユースケースに基づいてコンテンツセーフティガードを実装する必要があります。
- 誤用: 技術的な制限と開発者およびエンドユーザーの教育は、モデルの悪意のあるアプリケーションに対する緩和策となります。すべてのユーザーは、Acceptable Use Policy に準拠する必要があり、ファインチューニングやプロンプトエンジニアリングメカニズムを適用する際も同様です。製品の違反使用に関する情報は、Stability AI Acceptable Use Policy を参照してください。
- プライバシー侵害: 開発者とデプロイヤーは、データプライバシーを尊重する技術を使用して、プライバシー規制に準拠することが推奨されます。
📄 ライセンス
このモデルは Stability Community License の下でリリースされています。商用ライセンスの詳細については、Stability AI を訪問するか、お問い合わせ ください。
ライセンスの主要な要素:
- 非商用利用は無料です: 個人や組織は、科学研究を含む非商用利用のために、このモデルを無料で使用できます。
- 商用利用は年間収益 100 万ドルまで無料です: スタートアップ、中小企業、クリエイターは、年間総収益が 100 万ドル未満である限り、商用目的でこのモデルを無料で使用できます。
- 出力の所有権: 制限的なライセンスの影響を受けずに、生成されたメディアの所有権を保持できます。
年間収益が 100 万ドルを超える組織は、こちら からエンタープライズライセンスについてお問い合わせください。
謝辞
- ControlNet 論文 の原作者である Lvmin Zhang、Anyi Rao、および Maneesh Agrawala。
- Tile ControlNet を開発し、Blur ControlNet にインスピレーションを与えた Lvmin Zhang。
- 開発中にコードが参照された Diffusers ライブラリの作者。
- 訓練中に Flux と SD3 ControlNets が参照された InstantX チーム。
- モデルの初期テスターと評価者、および Stability AI チームの皆様。
お問い合わせ
モデルに関する問題を報告するか、お問い合わせは以下の通りです:
- セーフティ問題: safety@stability.ai
- セキュリティ問題: security@stability.ai
- プライバシー問題: privacy@stability.ai
- ライセンスと一般的なお問い合わせ: https://stability.ai/license
- エンタープライズライセンス: https://stability.ai/enterprise