🚀 Stable Diffusion v1模型卡片
Stable Diffusion是一种潜在文本到图像的扩散模型,能够根据任何文本输入生成逼真的图像。该模型为图像生成领域带来了革新,让用户仅通过文本描述就能创造出高质量的图像。
🚀 快速开始
下载权重
这些权重旨在与原始的 CompVis Stable Diffusion代码库 一起使用。如果您正在寻找与D🧨iffusers库一起使用的模型,请 点击此处。
✨ 主要特性
Stable Diffusion是一种潜在文本到图像的扩散模型,能够根据任何文本输入生成逼真的图像。
📚 详细文档
模型详情
属性 |
详情 |
开发者 |
Robin Rombach, Patrick Esser |
模型类型 |
基于扩散的文本到图像生成模型 |
语言 |
英语 |
许可证 |
CreativeML OpenRAIL M许可证 是一种 Open RAIL M许可证,改编自 BigScience 和 RAIL Initiative 在负责任的AI许可领域的联合工作。另见 关于BLOOM Open RAIL许可证的文章,我们的许可证基于此。 |
模型描述 |
这是一个可用于根据文本提示生成和修改图像的模型。它是一个 潜在扩散模型,使用固定的预训练文本编码器(CLIP ViT-L/14),如 Imagen论文 中所建议的。 |
更多信息资源 |
GitHub仓库,论文 |
引用方式 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
使用说明
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 安全部署有可能生成有害内容的模型。
- 探索和理解生成模型的局限性和偏差。
- 生成艺术作品并用于设计和其他艺术过程。
- 在教育或创意工具中的应用。
- 对生成模型的研究。
排除的使用情况如下所述。
滥用、恶意使用和超出范围的使用
注意:本节内容摘自 DALLE-MINI模型卡片,但同样适用于Stable Diffusion v1。
该模型不应被用于故意创建或传播对人造成敌对或疏离环境的图像。这包括生成人们可预见会觉得不安、痛苦或冒犯的图像;或传播历史或当前刻板印象的内容。
- 超出范围的使用:该模型未经过训练以真实或准确地表示人或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
- 滥用和恶意使用:使用该模型生成对个人残酷的内容是对该模型的滥用。这包括但不限于:
- 生成贬低、非人化或以其他方式伤害人或其环境、文化、宗教等的表现形式。
- 故意推广或传播歧视性内容或有害的刻板印象。
- 在未经个人同意的情况下冒充个人。
- 在可能看到的人未同意的情况下生成性内容。
- 错误信息和虚假信息。
- 令人发指的暴力和血腥的表现形式。
- 违反版权或许可材料的使用条款共享此类材料。
- 违反版权或许可材料的使用条款共享对其进行修改的内容。
局限性和偏差
局限性
- 该模型无法实现完美的照片级真实感。
- 该模型无法渲染清晰可读的文本。
- 该模型在涉及组合性的更困难任务上表现不佳,例如渲染与“一个红色立方体放在蓝色球体上”对应的图像。
- 面部和一般人物可能无法正确生成。
- 该模型主要使用英语字幕进行训练,在其他语言中的效果不佳。
- 该模型的自动编码部分是有损的。
- 该模型在大规模数据集 LAION-5B 上进行训练,该数据集包含成人内容,在没有额外安全机制和考虑的情况下不适合产品使用。
- 未使用额外措施对数据集进行去重。因此,我们观察到对于训练数据中重复的图像存在一定程度的记忆现象。可以在 https://rom1504.github.io/clip-retrieval/ 上搜索训练数据,以可能有助于检测记忆的图像。
偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。Stable Diffusion v1在 LAION-2B(en) 的子集上进行训练,该子集主要由限于英语描述的图像组成。来自使用其他语言的社区和文化的文本和图像可能没有得到充分考虑。这影响了模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,该模型使用非英语提示生成内容的能力明显低于使用英语提示的能力。
训练
训练数据
模型开发者使用以下数据集对模型进行训练:
训练过程
Stable Diffusion v1是一种潜在扩散模型,它将自动编码器与在自动编码器的潜在空间中训练的扩散模型相结合。在训练期间:
- 图像通过编码器进行编码,将图像转换为潜在表示。自动编码器使用相对下采样因子8,将形状为H x W x 3的图像映射到形状为H/f x W/f x 4的潜在表示。
- 文本提示通过ViT-L/14文本编码器进行编码。
- 文本编码器的非池化输出通过交叉注意力输入到潜在扩散模型的UNet主干中。
- 损失是添加到潜在表示的噪声与UNet的预测之间的重建目标。
我们目前提供三个检查点,sd-v1-1.ckpt
、sd-v1-2.ckpt
和 sd-v1-3.ckpt
,它们的训练方式如下:
-
sd-v1-1.ckpt
:在 laion2B-en 上以 256x256
分辨率训练237k步。在 laion-high-resolution(来自LAION-5B的170M个分辨率 >= 1024x1024
的示例)上以 512x512
分辨率训练194k步。
-
sd-v1-2.ckpt
:从 sd-v1-1.ckpt
恢复训练。在 "laion-improved-aesthetics"(laion2B-en的一个子集,过滤为原始大小 >= 512x512
、估计美学分数 > 5.0
且估计水印概率 < 0.5
的图像。水印估计来自LAION-5B元数据,美学分数使用 改进的美学估计器 进行估计)上以 512x512
分辨率训练515k步。
-
sd-v1-3.ckpt
:从 sd-v1-2.ckpt
恢复训练。在 "laion-improved-aesthetics" 上以 512x512
分辨率训练195k步,并以10%的概率丢弃文本条件以改进 无分类器引导采样。
-
硬件:32 x 8 x A100 GPU
-
优化器:AdamW
-
梯度累积:2
-
批次大小:32 x 8 x 2 x 4 = 2048
-
学习率:在10,000步内预热到0.0001,然后保持不变
评估结果
使用不同的无分类器引导尺度(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和50个PLMS采样步骤进行评估,显示了检查点的相对改进:

使用50个PLMS步骤和来自COCO2017验证集的10000个随机提示进行评估,在 512x512
分辨率下进行评估。未针对FID分数进行优化。
环境影响
Stable Diffusion v1估计排放量
基于这些信息,我们使用 Lacoste等人(2019) 中提出的 机器学习影响计算器 估计了以下CO2排放量。利用硬件、运行时间、云提供商和计算区域来估计碳影响。
- 硬件类型:A100 PCIe 40GB
- 使用时间:150000小时
- 云提供商:AWS
- 计算区域:美国东部
- 碳排放(功耗 x 时间 x 基于电网位置产生的碳):11250 kg CO2当量
📄 许可证
本模型采用 CreativeML OpenRAIL M许可证。该许可证是一种 Open RAIL M许可证,改编自 BigScience 和 RAIL Initiative 在负责任的AI许可领域的联合工作。
该模型是开放访问的,所有人都可以使用,CreativeML OpenRAIL-M许可证进一步规定了权利和使用方式。CreativeML OpenRAIL许可证规定:
- 您不能使用该模型故意产生或分享非法或有害的输出或内容。
- 作者对您生成的输出不主张任何权利,您可以自由使用它们,并对其使用负责,其使用不得违反许可证中规定的条款。
- 您可以重新分发权重,并将模型用于商业用途和/或作为服务。如果您这样做,请注意您必须包含与许可证中相同的使用限制,并向所有用户分享一份CreativeML OpenRAIL-M许可证(请完整仔细阅读许可证)。
请在此处仔细阅读完整的许可证:https://huggingface.co/spaces/CompVis/stable-diffusion-license