Stable Diffusion 3.5大規模モデルオープンソース - 高品質の文章から画像生成とレイアウト最適化を無料で体験

ホーム

Stable Diffusion 3.5 Large Ungated

adamo1139によって開発

マルチモーダル拡散トランスフォーマー(MMDiT)を基盤とした高度なテキストから画像生成モデルで、画像品質、文字レイアウト、プロンプト理解において顕著な向上を実現

テキスト生成画像英語オープンソースライセンス:その他 #マルチモーダル拡散トランスフォーマー #高精度テキストから画像生成 #複雑なプロンプト理解

ダウンロード数 169

リリース時間 : 10/22/2024

モデル概要

アクセス制限を解除したStable Diffusion 3.5 Largeバージョンで、テキストプロンプトに基づく高品質画像生成をサポート

モデル特徴

マルチモーダル拡散トランスフォーマーアーキテクチャ

革新的なMMDiTアーキテクチャを採用し、3つの事前学習済みテキストエンコーダを統合、画像生成品質を向上

QK正規化技術

QK正規化技術を適用してトレーニング安定性を確保し、モデル性能を向上

複雑なプロンプト理解

複数のオブジェクトや複雑な関係を含むテキストプロンプトを正確に理解して実現

文字レイアウト能力

生成画像内でテキスト内容を正確に表現し、複数のフォントやレイアウトスタイルをサポート

モデル能力

テキストから画像生成

複雑なシーン理解

高品質画像合成

テキスト埋め込み画像

使用事例

クリエイティブデザイン

コンセプトアート創作

ゲーム、映画などのエンターテインメント産業向けに迅速にコンセプトアートを生成

高品質なコンセプトデザイン図で、手作業による描画時間を節約

広告素材生成

製品説明に基づいてマーケティング用画像素材を自動生成

多様な広告クリエイティブ案

教育ツール

教育補助

教育コンテンツ向けの補助イラストを生成

生き生きとした直観的な教材

🚀 Stable Diffusion 3.5 Large ゲートアクセス制限なし版！

元のモデルと同じ機能を持ち、ゲート機構を削除して再アップロードされています。

3.5 Large Demo Image

🚀 クイックスタート

このセクションでは、Stable Diffusion 3.5 Large モデルの基本的な使い方を説明します。

インストール

🧨 diffusers ライブラリを最新バージョンにアップグレードします。

pip install -U diffusers

基本的な使用法

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("capybara.png")

高度な使用法

モデルの量子化

VRAM の使用量を削減し、少ない VRAM の GPU でもモデルを使用できるようにします。

pip install bitsandbytes

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-large"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id, 
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree.  As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=28,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

ファインチューニング

ファインチューニングのガイドはこちらを参照してください。

✨ 主な機能

Stable Diffusion 3.5 Large は、Multimodal Diffusion Transformer (MMDiT) のテキストから画像を生成するモデルで、画像品質、排版、複雑なプロンプト理解、およびリソース効率の向上が特徴です。

📦 インストール

依存ライブラリのインストール

pip install -U diffusers
pip install bitsandbytes

📚 ドキュメント

モデルの説明

開発者: Stability AI
モデルタイプ: MMDiT テキストから画像を生成するモデル
モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成します。Multimodal Diffusion Transformer を使用し、3 つの固定された事前学習済みのテキストエンコーダーを使用し、QK 正規化を行ってトレーニングの安定性を向上させています。

ライセンス

コミュニティライセンス: 年間総収入が 100 万ドル未満の組織または個人による研究、非商用、および商用利用に無料です。詳細はコミュニティライセンス契約を参照してください。https://stability.ai/license で詳細を読むことができます。
年間収入が 100 万ドル以上の個人および組織: こちらからエンタープライズライセンスを取得してください。

モデルのソース

ローカルまたはセルフホストでの使用の場合、ノードベースの UI 推論には ComfyUI を、プログラム的な使用には diffusers または GitHub をお勧めします。

ComfyUI: Github, Example Workflow
Huggingface Space: Space
Diffusers: 下記参照
GitHub: GitHub
API エンドポイント:

実装の詳細

QK 正規化: トレーニングの安定性を向上させるために、QK 正規化技術を実装しています。
テキストエンコーダー:
- CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, コンテキスト長 77 トークン
- T5: T5-xxl, トレーニングの異なる段階でコンテキスト長 77/256 トークン
トレーニングデータと戦略: このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。

元の MMDiT アーキテクチャの詳細な技術情報については、研究論文を参照してください。

モデルの性能

プロンプトの遵守と美学的品質に関する比較性能の研究については、ブログを参照してください。

ファイル構造

ファイルとバージョンタブをクリックしてアクセスできます。

│
├── text_encoders/  
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3_large.safetensors
├── SD3.5L_example_workflow.json
└── sd3_large_demo.png

** 以下のファイル構造は diffusers 統合用です **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json

🔧 技術詳細

モデルのアーキテクチャ

このモデルは、Multimodal Diffusion Transformer (MMDiT) を使用しており、3 つの固定された事前学習済みのテキストエンコーダーを使用しています。また、QK 正規化を行ってトレーニングの安定性を向上させています。

トレーニングデータ

このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。

📄 ライセンス

このモデルは Stability Community License の下でリリースされています。詳細については、Stability AI を訪問してください。

使用方法

想定される使用法

想定される使用法は以下の通りです。

アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
教育または創造的なツールでのアプリケーション。
生成モデルの研究、生成モデルの制限の理解を含む。

モデルのすべての使用は、私たちの Acceptable Use Policy に準拠する必要があります。

想定外の使用法

このモデルは、人やイベントの事実的または真実の表現を生成するようにトレーニングされていません。したがって、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

安全性

私たちは、設計段階から安全性を考慮し、責任ある AI の展開を目指しています。モデルの開発全体を通じて安全対策を実施しています。特定の害のリスクを軽減するための安全対策を実装していますが、開発者は自身の具体的な使用ケースに基づいて独自のテストを実施し、追加の対策を適用することをお勧めします。

整合性評価

私たちの整合性評価方法には、構造化された評価と特定の害に対するレッドチーミングテストが含まれています。テストは主に英語で実施されており、すべての可能性のある害をカバーしているとは限りません。

特定されたリスクと対策

有害なコンテンツ: モデルをトレーニングする際にフィルタリングされたデータセットを使用し、有用性と害の防止のバランスを取るようにセーフガードを実装しています。ただし、すべての可能性のある有害なコンテンツが削除されていることは保証されていません。すべての開発者とデプロイヤーは、注意を払い、特定の製品ポリシーとアプリケーションの使用ケースに基づいてコンテンツの安全ガードレールを実装する必要があります。
誤用: 技術的な制限と開発者およびエンドユーザーの教育により、モデルの悪意のあるアプリケーションを軽減することができます。すべてのユーザーは、Acceptable Use Policy に準拠する必要があります。ファインチューニングやプロンプトエンジニアリングのメカニズムを適用する場合も同様です。私たちの製品の違反使用に関する情報については、Stability AI Acceptable Use Policy を参照してください。
プライバシー侵害: 開発者とデプロイヤーは、データプライバシーを尊重する技術を使用して、プライバシー規制に準拠することが推奨されます。