Stable Diffusion 3.5大模型模糊控制网络 - 开源免费通过模糊图控内容生成

Home

Stable Diffusion 3.5 Large Controlnet Blur

Developed by stabilityai

基于Stable Diffusion 3.5大模型的模糊控制网络，用于通过模糊图像控制生成内容

图像生成 EnglishOpen Source License:Other #模糊控制生成 #创意设计辅助 #多模态控制

Downloads 603

Release Time : 11/25/2024

Model Overview

该模型是Stable Diffusion 3.5的ControlNet扩展，专门用于通过模糊控制图像来引导生成过程，适用于创意设计和艺术创作。

Model Features

模糊控制生成

通过模糊控制图像精确引导生成内容，实现更可控的图像创作

商业友好许可

年收入低于100万美元的组织可免费商用，输出内容所有权归使用者所有

高质量生成

基于Stable Diffusion 3.5大模型，生成高质量艺术图像

Model Capabilities

图像生成

模糊控制引导

创意艺术创作

风格转换

Use Cases

创意设计

卡通艺术创作

生成3D卡通风格的艺术作品，如冲浪的鸭子

高质量卡通风格图像

商业应用

广告设计

为中小型企业创建广告素材

定制化商业图像

🚀 Stable Diffusion 3.5 Large Controlnet - Blur

本项目提供了用于图像生成的Stable Diffusion 3.5 Large的模糊控制网络（Blur ControlNet），能依据文本描述生成高质量的图像，适用于科研、个人创作等多种场景。

🚀 快速开始

本仓库提供了适用于 Stable Diffusion 3.5 Large 的模糊控制网络（Blur ControlNet）。

请注意：此模型遵循 Stability社区许可协议发布。访问 Stability AI 了解详情，或联系我们获取商业许可细节。

📄 许可证

许可证的关键内容如下：

非商业使用免费：个人和组织可免费将该模型用于非商业用途，包括科学研究。
年收入低于100万美元的商业使用免费：初创企业、中小型企业和创作者，只要其年总收入低于100万美元，即可免费将该模型用于商业目的。
输出内容所有权：保留生成媒体的所有权，且无限制性许可影响。

对于年收入超过100万美元的组织，请点击此处联系我们咨询企业许可。

📦 安装指南

在SD3.5独立仓库中使用Controlnets

克隆仓库并安装依赖：

git clone git@github.com:Stability-AI/sd3.5.git
pip install -r requirements.txt

然后，下载模型和示例图像：

input/sample_cond.png
models/clip_g.safetensors
models/clip_l.safetensors
models/t5xxl.safetensors
models/sd3.5_large.safetensors
models/canny_8b.safetensors

接着，你可以运行以下命令：

python sd3_infer.py --controlnet_ckpt models/blur_8b.safetensors --controlnet_cond_image input/sample_cond.png --prompt "A duck riding a tidal wave, 3D graphic art style"

运行上述命令后，你将得到类似下图的图像：

A duck riding a tidal wave

在Diffusers中使用Controlnets

确保你已将Diffusers升级到最新版本：pip install -U diffusers。然后，你可以运行以下代码：

import torch
from diffusers import StableDiffusion3ControlNetPipeline,SD3ControlNetModel
from diffusers.utils import load_image

controlnet = SD3ControlNetModel.from_pretrained("stabilityai/stable-diffusion-3.5-large-controlnet-blur", torch_dtype=torch.float16)
pipe = StableDiffusion3ControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    controlnet=controlnet,
    torch_dtype=torch.float16
).to("cuda")

control_image = load_image("https://huggingface.co/datasets/diffusers/diffusers-images-docs/resolve/main/blur.png")
prompt = "generated ai art, a tiny, lost rubber ducky in an action shot close-up, surfing the humongous waves, inside the tube, in the style of Kelly Slater"

generator = torch.Generator(device="cpu").manual_seed(0)
image = pipe(
    prompt, 
    control_image=control_image, 
    guidance_scale=3.5,
    num_inference_steps=60,
    generator=generator,
    max_sequence_length=77,
).images[0]
image.save('blur-8b.jpg')

💻 使用示例

基础用法

输入图像可按以下代码片段进行预处理以用于控制。SD3.5未实现此功能，因此我们建议事先在外部脚本中完成此操作。

import torchvision.transforms as transforms
# assuming img is a PIL image
gaussian_blur = transforms.GaussianBlur(kernel_size=50)
blurred_image = gaussian_blur(image)

高级用法

以下是一些使用提示：

建议从ControlNet强度0.9开始，根据需要进行调整。
Euler采样器和稍高的步数（50 - 60）会产生最佳效果，尤其是在使用Canny时。
传递 --text_encoder_device <device_name> 可将文本编码器直接加载到VRAM，这可以加快整个推理循环，但会增加VRAM的使用量。

📚 详细文档

使用范围

模型的所有使用必须符合我们的可接受使用政策。

超出适用范围的使用

该模型并非用于生成真实人物或事件的事实性内容。因此，使用该模型生成此类内容超出了此模型的能力范围。

训练数据和策略

这些模型在多种数据上进行训练，包括合成数据和经过筛选的公开可用数据。

🔧 技术细节

安全性

我们秉持安全、负责任的人工智能实践理念，并采取了深思熟虑的措施，确保在开发的早期阶段就注重模型的完整性。这意味着我们已经并将继续采取合理的步骤，防止不良行为者滥用Stable Diffusion 3.5。有关我们的安全方法的更多信息，请访问我们的安全页面。

完整性评估

我们的完整性评估方法包括结构化评估和针对特定危害的红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。

已识别的风险及缓解措施：

有害内容：我们在训练模型时使用了经过筛选的数据集，并实施了保障措施，试图在实用性和防止危害之间找到恰当的平衡。然而，这并不能保证所有可能的有害内容都已被移除。所有开发者和部署者都应谨慎行事，并根据其特定的产品政策和应用用例实施内容安全防护措施。
滥用：技术限制以及对开发者和最终用户的教育有助于减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调机制和提示工程时。有关我们产品违规使用的信息，请参考Stability AI可接受使用政策。
隐私侵犯：鼓励开发者和部署者采用尊重数据隐私的技术，遵守隐私法规。