S

Stable Diffusion 3.5 Medium

stabilityaiによって開発
改良型マルチモーダル拡散トランスフォーマー(MMDiT-X)を基にしたテキストから画像生成モデルで、画像品質、テキストレイアウト、複雑なプロンプト理解、リソース効率の全てにおいて大幅な改善が見られる
ダウンロード数 426.00k
リリース時間 : 10/29/2024

モデル概要

テキストプロンプトから高品質な画像を生成可能。改良型マルチモーダル拡散トランスフォーマーアーキテクチャを採用し、3つの固定事前学習テキストエンコーダー、トレーニング安定性を向上させるQK正規化技術、そして最初の12層トランスフォーマーにおけるデュアルアテンションモジュールという3つの主要技術を統合

モデル特徴

改良型マルチモーダル拡散トランスフォーマー
MMDiT-Xアーキテクチャを採用し、トランスフォーマーの最初の13層にセルフアテンションモジュールを導入することで、マルチ解像度生成能力と画像全体の調和性を大幅に向上
QK正規化技術
QK正規化技術を採用してトレーニングプロセスの安定性を確保
混合解像度トレーニング
256から1440解像度までの段階的トレーニングにより、マルチ解像度生成能力を強化
マルチテキストエンコーダー統合
CLIPとT5の3種類のテキストエンコーダーを統合し、77/256トークンのコンテキスト長をサポート

モデル能力

テキストから画像生成
複雑なプロンプト理解
高品質画像生成
マルチ解像度サポート
テキストレイアウト

使用事例

アート創作
コンセプトアートデザイン
ゲームや映画などのためのコンセプトアート画像を創作
創造性と芸術性に富んだ画像を生成
イラスト創作
書籍や雑誌などのためのイラストを創作
テーマに合ったイラスト作品を迅速に生成
商業デザイン
広告クリエイティブ
広告キャンペーンのためのクリエイティブなビジュアルコンテンツを生成
広告クリエイティブのビジュアル案を迅速に反復
製品デザイン
製品デザインのためのコンセプトビジュアライゼーションを提供
製品デザインプロセスを加速
教育研究
生成モデル研究
テキストから画像生成モデルの性能と限界を研究
AI研究のための実験プラットフォームを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase