🚀 Stable Diffusion 3 Medium
Stable Diffusion 3 Mediumは、Multimodal Diffusion Transformer (MMDiT) を用いたテキストから画像を生成するモデルです。画像品質、文字表現、複雑なプロンプト理解、リソース効率の面で性能が大幅に向上しています。
🚀 クイックスタート
Stable Diffusion 3 Mediumを使用するには、まずdiffusers
を最新バージョンにアップグレードします。
pip install -U diffusers
その後、以下のコードを実行して画像を生成できます。
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
最適化や画像生成の詳細については、ドキュメントを参照してください。
✨ 主な機能
- 画像品質、文字表現、複雑なプロンプト理解、リソース効率の面で性能が大幅に向上。
- 10億枚の画像で事前学習され、3000万枚の高品質な審美的画像と300万枚の嗜好データ画像でファインチューニング。
- 様々な用途に適用可能で、アート作品の生成や教育、創造的なツールへの応用、生成モデルの研究などに役立ちます。
📦 インストール
diffusers
を最新バージョンにアップグレードします。
pip install -U diffusers
💻 使用例
基本的な使用法
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
📚 ドキュメント
モデルの説明
属性 |
详情 |
開発者 |
Stability AI |
モデルタイプ |
MMDiTテキスト-to-画像生成モデル |
モデル説明 |
このモデルは、テキストプロンプトに基づいて画像を生成するために使用できます。Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206) を使用し、3つの固定された事前学習済みテキストエンコーダー (OpenCLIP-ViT/G, CLIP-ViT/L および T5-xxl) を使用します。 |
ライセンス
- 非商用利用:Stable Diffusion 3 Mediumは、Stability AI Non-Commercial Research Community License の下でリリースされています。学術研究などの非商用目的で無料で使用できます。
- 商用利用:このモデルは、Stabilityから個別の商用ライセンスを取得しない限り、商用利用できません。プロのアーティスト、デザイナー、クリエイターには、Creator Licenseの利用をお勧めします。詳細は、https://stability.ai/license をご覧ください。
モデルのソース
- ComfyUI:https://github.com/comfyanonymous/ComfyUI
- StableSwarmUI:https://github.com/Stability-AI/StableSwarmUI
- 技術レポート:https://stability.ai/news/stable-diffusion-3-research-paper
- デモ:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
学習データセット
合成データと公開されているフィルタリング済みデータを使用してモデルを学習させました。モデルは10億枚の画像で事前学習され、ファインチューニングデータには、特定の視覚コンテンツとスタイルに焦点を当てた3000万枚の高品質な審美的画像と、300万枚の嗜好データ画像が含まれています。
使用用途
想定される用途
- アート作品の生成やデザイン、その他の芸術的なプロセスでの使用。
- 教育や創造的なツールへの応用。
- 生成モデルの研究、生成モデルの限界の理解など。
モデルのすべての使用は、Acceptable Use Policy に準拠する必要があります。
想定外の用途
このモデルは、人物やイベントの事実的または真実の表現を生成するように訓練されていません。したがって、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
安全性
モデルの開発全体を通じて、安全性対策を実施しています。ただし、開発者は独自のテストを実施し、特定のユースケースに基づいて追加の緩和策を適用することを推奨します。詳細については、Safety page を参照してください。
評価アプローチ
評価方法には、構造化された評価と、特定の深刻な危害(子供の性的虐待や搾取、極度の暴力、グロテスクな内容、性的な露骨なコンテンツ、非同意のヌードなど)に対する内部および外部のレッドチーミングテストが含まれています。テストは主に英語で行われており、すべての可能性のある危害を網羅しているとは限りません。他のモデルと同様に、このモデルも時々、不正確、偏った、または不快な応答を生成する可能性があります。
特定されたリスクと緩和策
- 有害なコンテンツ:モデルの学習時にフィルタリングされたデータセットを使用し、有用性と危害防止のバランスを取ろうとするセーフガードを実装しています。ただし、すべての有害なコンテンツが削除されていることは保証されていません。モデルは時々、有毒または偏ったコンテンツを生成する可能性があります。すべての開発者とデプロイヤーは、特定の製品ポリシーとアプリケーションのユースケースに基づいて、コンテンツセーフティガードを実装する必要があります。
- 誤用:技術的な制限と開発者およびエンドユーザーの教育は、モデルの悪意のあるアプリケーションに対する緩和策に役立ちます。すべてのユーザーは、Acceptable Use Policyに準拠する必要があります。
- プライバシー侵害:開発者とデプロイヤーは、データプライバシーを尊重する技術を使用して、プライバシー規制に準拠することが推奨されます。
連絡先
モデルに関する問題やお問い合わせは、以下の連絡先までお願いします。
- 安全性の問題:safety@stability.ai
- セキュリティの問題:security@stability.ai
- プライバシーの問題:privacy@stability.ai
- ライセンスと一般的な問い合わせ:https://stability.ai/license
- エンタープライズライセンス:https://stability.ai/enterprise
📄 ライセンス
このモデルは、Stability AI Non-Commercial Research Community License の下でリリースされています。商用利用については、上記のライセンス情報を参照してください。