S

Stable Diffusion 3.5 Medium

Developed by stabilityai
改良型マルチモーダル拡散トランスフォーマー(MMDiT-X)を基にしたテキストから画像生成モデルで、画像品質、テキストレイアウト、複雑なプロンプト理解、リソース効率の全てにおいて大幅な改善が見られる
Downloads 426.00k
Release Time : 10/29/2024

Model Overview

テキストプロンプトから高品質な画像を生成可能。改良型マルチモーダル拡散トランスフォーマーアーキテクチャを採用し、3つの固定事前学習テキストエンコーダー、トレーニング安定性を向上させるQK正規化技術、そして最初の12層トランスフォーマーにおけるデュアルアテンションモジュールという3つの主要技術を統合

Model Features

改良型マルチモーダル拡散トランスフォーマー
MMDiT-Xアーキテクチャを採用し、トランスフォーマーの最初の13層にセルフアテンションモジュールを導入することで、マルチ解像度生成能力と画像全体の調和性を大幅に向上
QK正規化技術
QK正規化技術を採用してトレーニングプロセスの安定性を確保
混合解像度トレーニング
256から1440解像度までの段階的トレーニングにより、マルチ解像度生成能力を強化
マルチテキストエンコーダー統合
CLIPとT5の3種類のテキストエンコーダーを統合し、77/256トークンのコンテキスト長をサポート

Model Capabilities

テキストから画像生成
複雑なプロンプト理解
高品質画像生成
マルチ解像度サポート
テキストレイアウト

Use Cases

アート創作
コンセプトアートデザイン
ゲームや映画などのためのコンセプトアート画像を創作
創造性と芸術性に富んだ画像を生成
イラスト創作
書籍や雑誌などのためのイラストを創作
テーマに合ったイラスト作品を迅速に生成
商業デザイン
広告クリエイティブ
広告キャンペーンのためのクリエイティブなビジュアルコンテンツを生成
広告クリエイティブのビジュアル案を迅速に反復
製品デザイン
製品デザインのためのコンセプトビジュアライゼーションを提供
製品デザインプロセスを加速
教育研究
生成モデル研究
テキストから画像生成モデルの性能と限界を研究
AI研究のための実験プラットフォームを提供
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase