S

Stable Diffusion 3.5 Medium

由ckpt開發
採用改進型多模態擴散變換器(MMDiT-X)的文本生成圖像模型,在圖像質量、排版效果、複雜提示理解及資源效率方面均有顯著提升
下載量 371
發布時間 : 10/29/2024

模型概述

基於文本提示生成高質量圖像的擴散模型,支持複雜場景理解和多分辨率生成

模型特點

MMDiT-X架構
在變換器前13層引入自注意力模塊,顯著提升多分辨率生成能力與圖像整體協調性
QK歸一化
採用QK歸一化技術增強訓練穩定性
混合分辨率訓練
漸進式訓練策略支持256→1440像素的多分辨率生成,採用隨機裁剪增強技術提升魯棒性
多文本編碼器集成
整合CLIP系列和T5-xxl三種文本編碼器,支持77-256個token的上下文長度

模型能力

文本生成圖像
複雜場景理解
多分辨率圖像生成
藝術創作輔助
排版效果優化

使用案例

創意設計
概念藝術創作
為遊戲/影視行業快速生成概念藝術圖
生成具有統一藝術風格的場景/角色設計
平面設計輔助
生成廣告/海報的視覺元素
快速產出符合文案主題的視覺方案
教育研究
生成模型研究
探索擴散模型的侷限性與改進方向
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase