S

Stable Diffusion 3.5 Medium

由stabilityai開發
基於改進型多模態擴散變換器(MMDiT-X)的文生圖模型,在圖像質量、文字排版、複雜提示詞理解和資源效率方面均有顯著提升
下載量 426.00k
發布時間 : 10/29/2024

模型概述

可根據文本提示生成高質量圖像,採用改進型多模態擴散變換器架構,集成三項關鍵技術:三個固定預訓練文本編碼器、提升訓練穩定性的QK歸一化技術,以及前12層變換器中的雙重注意力模塊

模型特點

改進型多模態擴散變換器
採用MMDiT-X架構,在變換器前13層引入自注意力模塊,顯著提升多分辨率生成能力和圖像整體協調性
QK歸一化技術
採用QK歸一化技術確保訓練過程穩定
混合分辨率訓練
漸進式訓練階段從256到1440分辨率,增強多分辨率生成能力
多文本編碼器集成
集成CLIP和T5三種文本編碼器,支持77/256個token的上下文長度

模型能力

文本到圖像生成
複雜提示詞理解
高質量圖像生成
多分辨率支持
文字排版

使用案例

藝術創作
概念藝術設計
為遊戲、電影等創作概念藝術圖像
生成具有創意和藝術性的圖像
插畫創作
為書籍、雜誌等創作插畫
快速生成符合主題的插畫作品
商業設計
廣告創意
為廣告活動生成創意視覺內容
快速迭代廣告創意視覺方案
產品設計
為產品設計提供概念可視化
加速產品設計流程
教育研究
生成模型研究
研究文本到圖像生成模型的性能和侷限性
為AI研究提供實驗平臺
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase