🚀 Stable Diffusion 3.5 Large ゲートアクセス制限なし版!
元のモデルと同じ機能を持ち、ゲート機構を削除して再アップロードされています。

🚀 クイックスタート
このセクションでは、Stable Diffusion 3.5 Large モデルの基本的な使い方を説明します。
インストール
🧨 diffusers ライブラリ を最新バージョンにアップグレードします。
pip install -U diffusers
基本的な使用法
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("capybara.png")
高度な使用法
モデルの量子化
VRAM の使用量を削減し、少ない VRAM の GPU でもモデルを使用できるようにします。
pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-large"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"
image = pipeline(
prompt=prompt,
num_inference_steps=28,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
ファインチューニング
ファインチューニングのガイドは こちら を参照してください。
✨ 主な機能
Stable Diffusion 3.5 Large は、Multimodal Diffusion Transformer (MMDiT) のテキストから画像を生成するモデルで、画像品質、排版、複雑なプロンプト理解、およびリソース効率の向上が特徴です。
📦 インストール
依存ライブラリのインストール
pip install -U diffusers
pip install bitsandbytes
📚 ドキュメント
モデルの説明
- 開発者: Stability AI
- モデルタイプ: MMDiT テキストから画像を生成するモデル
- モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成します。Multimodal Diffusion Transformer を使用し、3 つの固定された事前学習済みのテキストエンコーダーを使用し、QK 正規化を行ってトレーニングの安定性を向上させています。
ライセンス
- コミュニティライセンス: 年間総収入が 100 万ドル未満の組織または個人による研究、非商用、および商用利用に無料です。詳細は コミュニティライセンス契約 を参照してください。https://stability.ai/license で詳細を読むことができます。
- 年間収入が 100 万ドル以上の個人および組織: こちら からエンタープライズライセンスを取得してください。
モデルのソース
ローカルまたはセルフホストでの使用の場合、ノードベースの UI 推論には ComfyUI を、プログラム的な使用には diffusers または GitHub をお勧めします。
実装の詳細
- QK 正規化: トレーニングの安定性を向上させるために、QK 正規化技術を実装しています。
- テキストエンコーダー:
- トレーニングデータと戦略:
このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。
元の MMDiT アーキテクチャの詳細な技術情報については、研究論文 を参照してください。
モデルの性能
プロンプトの遵守と美学的品質に関する比較性能の研究については、ブログ を参照してください。
ファイル構造
ファイルとバージョンタブ をクリックしてアクセスできます。
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3_large.safetensors
├── SD3.5L_example_workflow.json
└── sd3_large_demo.png
** 以下のファイル構造は diffusers 統合用です **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
🔧 技術詳細
モデルのアーキテクチャ
このモデルは、Multimodal Diffusion Transformer (MMDiT) を使用しており、3 つの固定された事前学習済みのテキストエンコーダーを使用しています。また、QK 正規化を行ってトレーニングの安定性を向上させています。
トレーニングデータ
このモデルは、合成データやフィルタリングされた公開データなど、さまざまなデータでトレーニングされています。
📄 ライセンス
このモデルは Stability Community License の下でリリースされています。詳細については、Stability AI を訪問してください。
使用方法
想定される使用法
想定される使用法は以下の通りです。
- アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
- 教育または創造的なツールでのアプリケーション。
- 生成モデルの研究、生成モデルの制限の理解を含む。
モデルのすべての使用は、私たちの Acceptable Use Policy に準拠する必要があります。
想定外の使用法
このモデルは、人やイベントの事実的または真実の表現を生成するようにトレーニングされていません。したがって、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
安全性
私たちは、設計段階から安全性を考慮し、責任ある AI の展開を目指しています。モデルの開発全体を通じて安全対策を実施しています。特定の害のリスクを軽減するための安全対策を実装していますが、開発者は自身の具体的な使用ケースに基づいて独自のテストを実施し、追加の対策を適用することをお勧めします。
整合性評価
私たちの整合性評価方法には、構造化された評価と特定の害に対するレッドチーミングテストが含まれています。テストは主に英語で実施されており、すべての可能性のある害をカバーしているとは限りません。
特定されたリスクと対策
- 有害なコンテンツ: モデルをトレーニングする際にフィルタリングされたデータセットを使用し、有用性と害の防止のバランスを取るようにセーフガードを実装しています。ただし、すべての可能性のある有害なコンテンツが削除されていることは保証されていません。すべての開発者とデプロイヤーは、注意を払い、特定の製品ポリシーとアプリケーションの使用ケースに基づいてコンテンツの安全ガードレールを実装する必要があります。
- 誤用: 技術的な制限と開発者およびエンドユーザーの教育により、モデルの悪意のあるアプリケーションを軽減することができます。すべてのユーザーは、Acceptable Use Policy に準拠する必要があります。ファインチューニングやプロンプトエンジニアリングのメカニズムを適用する場合も同様です。私たちの製品の違反使用に関する情報については、Stability AI Acceptable Use Policy を参照してください。
- プライバシー侵害: 開発者とデプロイヤーは、データプライバシーを尊重する技術を使用して、プライバシー規制に準拠することが推奨されます。
連絡先
モデルに関する問題を報告するか、お問い合わせする場合は、以下の連絡先にご連絡ください。
- 安全上の問題: safety@stability.ai
- セキュリティ上の問題: security@stability.ai
- プライバシー上の問題: privacy@stability.ai
- ライセンスと一般的な質問: https://stability.ai/license
- エンタープライズライセンス: https://stability.ai/enterprise