Stable Diffusion 3.5 Medium
模型简介
可根据文本提示生成高质量图像,采用改进型多模态扩散变换器架构,集成三项关键技术:三个固定预训练文本编码器、提升训练稳定性的QK归一化技术,以及前12层变换器中的双重注意力模块
模型特点
改进型多模态扩散变换器
采用MMDiT-X架构,在变换器前13层引入自注意力模块,显著提升多分辨率生成能力和图像整体协调性
QK归一化技术
采用QK归一化技术确保训练过程稳定
混合分辨率训练
渐进式训练阶段从256到1440分辨率,增强多分辨率生成能力
多文本编码器集成
集成CLIP和T5三种文本编码器,支持77/256个token的上下文长度
模型能力
文本到图像生成
复杂提示词理解
高质量图像生成
多分辨率支持
文字排版
使用案例
艺术创作
概念艺术设计
为游戏、电影等创作概念艺术图像
生成具有创意和艺术性的图像
插画创作
为书籍、杂志等创作插画
快速生成符合主题的插画作品
商业设计
广告创意
为广告活动生成创意视觉内容
快速迭代广告创意视觉方案
产品设计
为产品设计提供概念可视化
加速产品设计流程
教育研究
生成模型研究
研究文本到图像生成模型的性能和局限性
为AI研究提供实验平台
🚀 稳定扩散3.5中等模型
稳定扩散3.5中等模型是一款文本到图像的生成模型,在图像质量、排版、复杂提示理解和资源效率方面表现出色,能根据文本提示生成高质量图像。
🚀 快速开始
若要使用此模型,可按以下步骤操作:
- 升级到最新版本的 🧨 diffusers库:
pip install -U diffusers
- 运行以下代码:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
✨ 主要特性
- 性能提升:稳定扩散3.5中等模型 是一款改进的多模态扩散变换器(MMDiT-X)文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面表现出色。
- 多文本编码器:使用三个固定的预训练文本编码器,结合QK归一化提高训练稳定性,并在Transformer的前12层采用双注意力块。
- 多分辨率训练:通过渐进式训练阶段(256 → 512 → 768 → 1024 → 1440分辨率)和混合分辨率训练,提升多分辨率图像生成性能。
📦 安装指南
环境准备
确保已安装Python环境,并安装最新版本的 🧨 diffusers库:
pip install -U diffusers
量化模型(可选)
若要减少VRAM使用,可对模型进行量化:
pip install bitsandbytes
💻 使用示例
基础用法
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
高级用法
量化模型
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-medium"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"
image = pipeline(
prompt=prompt,
num_inference_steps=40,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
微调模型
请参考 微调指南。
📚 详细文档
模型描述
属性 | 详情 |
---|---|
开发方 | Stability AI |
模型类型 | MMDiT-X文本到图像生成模型 |
模型描述 | 该模型根据文本提示生成图像,是一种改进的多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的预训练文本编码器,结合QK归一化提高训练稳定性,并在Transformer的前12层采用双注意力块。 |
许可证
本模型根据 Stability社区许可证 发布。
- 社区许可证:适用于研究、非商业用途以及年收入低于100万美元的组织或个人。更多详情请访问 Stability AI。
- 商业许可证:对于年收入超过100万美元的个人或组织,请 联系我们 获取企业许可证。
模型来源
文件结构
点击此处访问 文件和版本标签
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
├── SD3.5L_plus_SD3.5M_upscaling_example_workflow.json
└── sd3_medium_demo.jpg
** 以下是diffusers集成的文件结构 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
使用与限制
- 提示长度:虽然该模型可以处理长提示,但当T5令牌超过256时,生成的图像边缘可能会出现伪影。在工作流程中使用此模型时,请注意令牌限制,若伪影过于明显,请缩短提示。
- 训练数据分布:中等模型与大型模型的训练数据分布不同,因此对相同提示的响应可能不同。
- 采样建议:建议使用 跳过层引导 进行采样,以获得更好的结构和解剖学连贯性。
模型性能
有关提示遵循度和美学质量的比较性能研究,请参阅 博客。
预期用途
本模型的预期用途包括:
- 艺术品生成,用于设计和其他艺术创作过程。
- 教育或创意工具中的应用。
- 生成模型的研究,包括了解生成模型的局限性。
所有使用本模型的行为必须符合我们的 可接受使用政策。
非预期用途
本模型并非用于生成事实性或真实的人物或事件表示。因此,使用该模型生成此类内容超出了其能力范围。
安全措施
作为我们安全设计和负责任AI部署方法的一部分,我们在模型开发的早期阶段就采取了措施确保完整性。我们在模型开发的整个过程中实施了安全措施,以降低某些危害的风险。然而,我们建议开发人员根据其特定用例进行自己的测试并应用额外的缓解措施。 有关我们的安全方法的更多信息,请访问我们的 安全页面。
完整性评估
我们的完整性评估方法包括结构化评估和针对某些危害的红队测试。测试主要以英语进行,可能无法涵盖所有可能的危害。
识别的风险和缓解措施
- 有害内容:我们在训练模型时使用了过滤后的数据集,并实施了保障措施,试图在实用性和防止危害之间取得平衡。然而,这并不能保证所有可能的有害内容都已被移除。所有开发人员和部署人员应谨慎行事,并根据其特定产品政策和应用用例实施内容安全护栏。
- 滥用:技术限制以及开发人员和最终用户的教育可以帮助减轻模型的恶意应用。所有用户都必须遵守我们的 可接受使用政策,包括在应用微调和平提示工程机制时。请参考Stability AI可接受使用政策了解我们产品的违规使用信息。
- 隐私侵犯:鼓励开发人员和部署人员采用尊重数据隐私的技术,遵守隐私法规。
联系我们
如果您发现模型存在任何问题,请通过以下方式联系我们:
- 安全问题:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隐私问题:privacy@stability.ai
- 许可证和一般问题:https://stability.ai/license
- 企业许可证:https://stability.ai/enterprise
🔧 技术细节
模型改进
- MMDiT-X:在Transformer的前13层引入自注意力模块,增强多分辨率生成和整体图像连贯性。
- QK归一化:实施QK归一化技术,提高训练稳定性。
- 混合分辨率训练:
- 渐进式训练阶段:256 → 512 → 768 → 1024 → 1440分辨率。
- 最终阶段包括混合尺度图像训练,以提升多分辨率生成性能。
- 在较低分辨率阶段将位置嵌入空间扩展到384x384(潜在)。
- 对位置嵌入应用随机裁剪增强,以提高Transformer层在整个混合分辨率和宽高比范围内的鲁棒性。
文本编码器
- CLIPs:OpenCLIP-ViT/G,CLIP-ViT/L,上下文长度77个令牌。
- T5:T5-xxl,训练不同阶段的上下文长度为77/256个令牌。
训练数据和策略
本模型在多种数据上进行训练,包括合成数据和过滤后的公开可用数据。
有关原始MMDiT架构的更多技术细节,请参考 研究论文。
📄 许可证
本模型根据 Stability社区许可证 发布。请访问 Stability AI 了解更多信息,或 联系我们 获取商业许可证详情。
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像
Transformers 英语

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。该模型是多模态模型,能够处理文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
文本生成图像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
文本生成图像
Transformers 支持多种语言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像
Transformers

O
google
764.95k
129
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98