🚀 quilt-1m-finetuned-sd3.5
このモデルは、sd3/unknown-model をベースにした完全ランクのファインチューニングモデルです。主に、以下の検証用プロンプトを使用して訓練されています。
A photo-realistic pathology image
🚀 クイックスタート
このモデルは、テキストから画像を生成するタスクに特化しています。以下のセクションでは、検証設定、訓練設定、データセット、推論方法について詳しく説明します。
✨ 主な機能
- 高解像度(1024x1024)の画像生成が可能です。
- 多様なデータセットを用いて訓練されており、様々な画像スタイルに対応しています。
- 特定の検証設定を用いて評価されており、品質が保証されています。
📦 インストール
このモデルはHugging FaceのDiffusersライブラリを使用しています。インストールには、以下のコマンドを実行してください。
pip install diffusers
💻 使用例
基本的な使用法
import torch
from diffusers import DiffusionPipeline
model_id = 'Minh-Ha/quilt-1m-finetuned-sd3.5'
pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16)
prompt = "A photo-realistic pathology image"
negative_prompt = 'blurry, cropped, ugly'
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
model_output = pipeline(
prompt=prompt,
negative_prompt=negative_prompt,
num_inference_steps=20,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(42),
width=1024,
height=1024,
guidance_scale=3.0,
).images[0]
model_output.save("output.png", format="PNG")
高度な使用法
高度な使用法については、Diffusersライブラリのドキュメントを参照してください。
📚 ドキュメント
検証設定
- CFG:
3.0
- CFG Rescale:
0.0
- ステップ数:
20
- サンプラー:
FlowMatchEulerDiscreteScheduler
- シード:
42
- 解像度:
1024x1024
- スキップレイヤーガイダンス:
注意: 検証設定は、訓練設定 と必ずしも同じではありません。
訓練設定
- 訓練エポック数: 0
- 訓練ステップ数: 10000
- 学習率: 5e-06
- 学習率スケジュール: 多項式
- ウォームアップステップ: 100
- 最大勾配値: 2.0
- 有効バッチサイズ: 16
- マイクロバッチサイズ: 1
- 勾配累積ステップ: 4
- GPU数: 4
- 勾配チェックポイント: True
- 予測タイプ: flow_matching (追加パラメータ=['shift=3'])
- オプティマイザー: adamw_bf16
- 学習可能パラメータ精度: Pure BF16
- ベースモデル精度:
no_change
- キャプションドロップアウト確率: 0.1%
データセット
images-512
- 繰り返し数: 1
- 総画像数: ~417748
- アスペクトバケット数: 1
- 解像度: 0.262144メガピクセル
- クロップ: True
- クロップスタイル: ランダム
- クロップアスペクト: 正方形
- 正則化データとしての使用: No
images-768
- 繰り返し数: 1
- 総画像数: ~266740
- アスペクトバケット数: 1
- 解像度: 0.589824メガピクセル
- クロップ: True
- クロップスタイル: ランダム
- クロップアスペクト: 正方形
- 正則化データとしての使用: No
images-1024
- 繰り返し数: 1
- 総画像数: ~246816
- アスペクトバケット数: 1
- 解像度: 1.048576メガピクセル
- クロップ: True
- クロップスタイル: ランダム
- クロップアスペクト: 正方形
- 正則化データとしての使用: No
推論
テキストエンコーダは訓練されていません。推論には、ベースモデルのテキストエンコーダを再利用することができます。
🔧 技術詳細
このモデルは、Diffusersライブラリを用いて構築されています。Flow Matchingという手法を用いて訓練されており、高品質な画像生成が可能です。
📄 ライセンス
このモデルは、otherライセンスの下で提供されています。
属性 |
详情 |
モデルタイプ |
ファインチューニングされたテキスト-to-画像モデル |
訓練データ |
images-512、images-768、images-1024 データセット |