Stable Diffusion 3オープンソースの文章から画像生成モデル - 高品質でレイアウトが良い画像を無料で生成

ホーム

Stable Diffusion 3 Medium Diffusers

stabilityaiによって開発

Stability AIが開発したマルチモーダル拡散トランスフォーマーのテキストから画像生成モデルで、画像品質、テキストレイアウト、複雑なプロンプト理解において顕著な向上を実現

テキスト生成画像英語オープンソースライセンス:その他 #マルチモーダル拡散トランスフォーマー #高精度テキストから画像生成 #非商用研究ライセンス

ダウンロード数 118.68k

リリース時間 : 6/12/2024

モデル概要

MMDiTアーキテクチャを採用したテキストから画像生成モデルで、高品質な画像生成と複雑なテキスト理解をサポート

モデル特徴

マルチモーダルアーキテクチャ

3つの固定事前学習テキストエンコーダ(OpenCLIP-ViT/G、CLIP-ViT/L、T5-xxl)を統合

高品質生成

画像品質、テキストレイアウト、複雑なプロンプト理解において顕著な向上

リソース効率

最適化されたアーキテクチャにより、リソース利用効率が向上

モデル能力

テキストから画像生成

複雑なプロンプト理解

高品質画像生成

テキストレイアウト生成

使用事例

アート創作

コンセプトアート創作

ゲーム、映画などのためのコンセプトアート作成

高品質なコンセプトアート作品

教育

教育補助

教育コンテンツのための視覚的補助材料作成

直感的な教育用画像

デザイン

デザインプロセス支援

デザイナーが迅速にデザインコンセプトを生成するのを支援

デザインプロセスの加速

🚀 Stable Diffusion 3 Medium

Stable Diffusion 3 Mediumは、Multimodal Diffusion Transformer (MMDiT) を用いたテキストから画像を生成するモデルです。画像品質、文字表現、複雑なプロンプト理解、リソース効率の面で性能が大幅に向上しています。

🚀 クイックスタート

Stable Diffusion 3 Mediumを使用するには、まずdiffusersを最新バージョンにアップグレードします。

pip install -U diffusers

その後、以下のコードを実行して画像を生成できます。

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

最適化や画像生成の詳細については、ドキュメントを参照してください。

✨ 主な機能

画像品質、文字表現、複雑なプロンプト理解、リソース効率の面で性能が大幅に向上。
10億枚の画像で事前学習され、3000万枚の高品質な審美的画像と300万枚の嗜好データ画像でファインチューニング。
様々な用途に適用可能で、アート作品の生成や教育、創造的なツールへの応用、生成モデルの研究などに役立ちます。

📦 インストール

diffusersを最新バージョンにアップグレードします。

pip install -U diffusers

💻 使用例

基本的な使用法

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

📚 ドキュメント

モデルの説明

属性	详情
開発者	Stability AI
モデルタイプ	MMDiTテキスト-to-画像生成モデル
モデル説明	このモデルは、テキストプロンプトに基づいて画像を生成するために使用できます。Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206) を使用し、3つの固定された事前学習済みテキストエンコーダー (OpenCLIP-ViT/G, CLIP-ViT/L および T5-xxl) を使用します。

ライセンス

非商用利用：Stable Diffusion 3 Mediumは、Stability AI Non-Commercial Research Community License の下でリリースされています。学術研究などの非商用目的で無料で使用できます。
商用利用：このモデルは、Stabilityから個別の商用ライセンスを取得しない限り、商用利用できません。プロのアーティスト、デザイナー、クリエイターには、Creator Licenseの利用をお勧めします。詳細は、https://stability.ai/license をご覧ください。

モデルのソース

ComfyUI：https://github.com/comfyanonymous/ComfyUI
StableSwarmUI：https://github.com/Stability-AI/StableSwarmUI
技術レポート：https://stability.ai/news/stable-diffusion-3-research-paper
デモ：https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

学習データセット

合成データと公開されているフィルタリング済みデータを使用してモデルを学習させました。モデルは10億枚の画像で事前学習され、ファインチューニングデータには、特定の視覚コンテンツとスタイルに焦点を当てた3000万枚の高品質な審美的画像と、300万枚の嗜好データ画像が含まれています。

使用用途

想定される用途

アート作品の生成やデザイン、その他の芸術的なプロセスでの使用。
教育や創造的なツールへの応用。
生成モデルの研究、生成モデルの限界の理解など。

モデルのすべての使用は、Acceptable Use Policy に準拠する必要があります。

想定外の用途

このモデルは、人物やイベントの事実的または真実の表現を生成するように訓練されていません。したがって、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

安全性

モデルの開発全体を通じて、安全性対策を実施しています。ただし、開発者は独自のテストを実施し、特定のユースケースに基づいて追加の緩和策を適用することを推奨します。詳細については、Safety page を参照してください。

評価アプローチ

評価方法には、構造化された評価と、特定の深刻な危害（子供の性的虐待や搾取、極度の暴力、グロテスクな内容、性的な露骨なコンテンツ、非同意のヌードなど）に対する内部および外部のレッドチーミングテストが含まれています。テストは主に英語で行われており、すべての可能性のある危害を網羅しているとは限りません。他のモデルと同様に、このモデルも時々、不正確、偏った、または不快な応答を生成する可能性があります。

特定されたリスクと緩和策

有害なコンテンツ：モデルの学習時にフィルタリングされたデータセットを使用し、有用性と危害防止のバランスを取ろうとするセーフガードを実装しています。ただし、すべての有害なコンテンツが削除されていることは保証されていません。モデルは時々、有毒または偏ったコンテンツを生成する可能性があります。すべての開発者とデプロイヤーは、特定の製品ポリシーとアプリケーションのユースケースに基づいて、コンテンツセーフティガードを実装する必要があります。
誤用：技術的な制限と開発者およびエンドユーザーの教育は、モデルの悪意のあるアプリケーションに対する緩和策に役立ちます。すべてのユーザーは、Acceptable Use Policyに準拠する必要があります。
プライバシー侵害：開発者とデプロイヤーは、データプライバシーを尊重する技術を使用して、プライバシー規制に準拠することが推奨されます。