🚀 Stable Diffusion 3 Medium
Stable Diffusion 3 Medium 是一款文本到图像的生成模型,它在图像质量、排版、复杂提示理解和资源效率方面都有显著提升。该模型可根据文本提示生成图像,适用于艺术创作、教育工具和生成模型研究等领域。
🚀 快速开始
若要使用 Stable Diffusion 3 Medium 模型进行推理,我们推荐使用 ComfyUI 进行本地或自托管使用。同时,该模型也可在 Stability API 平台 上使用。
使用 Diffusers 库的示例代码
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
更多优化和图像到图像支持的详细信息,请参考 文档。
✨ 主要特性
- 性能提升:在图像质量、排版、复杂提示理解和资源效率方面表现出色。
- 多模态融合:采用 Multimodal Diffusion Transformer (MMDiT) 架构,结合三个预训练的文本编码器。
- 丰富的应用场景:可用于艺术创作、教育工具和生成模型研究等领域。
📦 安装指南
使用 Diffusers 库时,请确保将其升级到最新版本:
pip install -U diffusers
📚 详细文档
模型描述
- 开发者:Stability AI
- 模型类型:MMDiT 文本到图像生成模型
- 模型说明:该模型可根据文本提示生成图像,是一个 Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206),使用了三个固定的预训练文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl)。
许可证
- 社区许可证:对于年收入低于 100 万美元的组织或个人,可免费用于研究、非商业和商业用途。如果您的年收入超过 100 万美元,并在商业产品或服务中使用 Stability AI 模型,则需要购买企业许可证。详情请见:https://stability.ai/license
- 年收入超过阈值的公司:请联系我们:https://stability.ai/enterprise
模型来源
- ComfyUI:https://github.com/comfyanonymous/ComfyUI
- StableSwarmUI:https://github.com/Stability-AI/StableSwarmUI
- 技术报告:https://stability.ai/news/stable-diffusion-3-research-paper
- 演示:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
- Diffusers 支持:https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers
训练数据集
我们使用合成数据和经过筛选的公开可用数据来训练模型。该模型在 10 亿张图像上进行了预训练,微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像,以及 300 万张偏好数据图像。
文件结构
├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors
我们为 SD3 Medium 模型准备了三种打包变体,每种都配备了相同的 MMDiT 和 VAE 权重,以方便用户使用。
sd3_medium.safetensors
:包含 MMDiT 和 VAE 权重,但不包含任何文本编码器。
sd3_medium_incl_clips_t5xxlfp16.safetensors
:包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本。
sd3_medium_incl_clips_t5xxlfp8.safetensors
:包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源需求之间取得了平衡。
sd3_medium_incl_clips.safetensors
:包含所有必要的权重,但不包括 T5XXL 文本编码器。该模型所需资源最少,但在没有 T5XXL 文本编码器的情况下,模型性能会有所不同。
text_encoders
文件夹包含三个文本编码器及其原始模型卡链接,方便用户使用。text_encoders 文件夹中的所有组件(以及嵌入在其他包中的等效组件)均受其各自的原始许可证约束。
example_workfows
文件夹包含示例工作流程。
预期用途
- 生成艺术作品,并用于设计和其他艺术创作过程。
- 应用于教育或创意工具。
- 研究生成模型,包括了解生成模型的局限性。
所有对模型的使用都应符合我们的 可接受使用政策。
非预期用途
该模型并非用于对人物或事件进行事实性或真实性的呈现。因此,使用该模型生成此类内容超出了该模型的能力范围。
🔧 技术细节
安全措施
作为我们以安全为设计理念和负责任的人工智能部署方法的一部分,我们在模型开发的整个过程中实施了安全措施,从开始预训练模型到每个模型的持续开发、微调与部署。我们实施了一系列安全缓解措施,旨在降低严重危害的风险,但我们建议开发人员根据其特定用例进行自己的测试并应用额外的缓解措施。
更多关于我们的安全方法,请访问我们的 安全页面。
评估方法
我们的评估方法包括结构化评估以及针对特定严重危害(如儿童性虐待和剥削、极端暴力和血腥、色情内容和非自愿裸露)的内部和外部红队测试。测试主要以英语进行,可能无法涵盖所有可能的危害。与任何模型一样,该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。
已识别的风险和缓解措施
- 有害内容:我们在训练模型时使用了经过筛选的数据集,并实施了保障措施,试图在实用性和防止危害之间取得平衡。然而,这并不能保证所有可能的有害内容都已被去除。该模型有时可能会生成有毒或有偏见的内容。所有开发人员和部署人员都应谨慎行事,并根据其特定的产品政策和应用用例实施内容安全防护措施。
- 滥用:技术限制以及对开发人员和最终用户的教育有助于减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策,包括在应用微调与提示工程机制时。请参考 Stability AI 可接受使用政策,了解我们产品的违规使用信息。
- 隐私侵犯:鼓励开发人员和部署人员采用尊重数据隐私的技术,遵守隐私法规。
联系信息
请报告模型的任何问题或联系我们:
- 安全问题:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可证和一般问题:https://stability.ai/license
- 企业许可证:https://stability.ai/enterprise
📄 许可证
本模型采用 Stability Community License 发布。如需企业许可证,请访问 Stability.ai 或 联系我们 了解商业许可详情。