SD15-768オープンソース画像生成モデル - 無料でデプロイ可能、高解像度で安定した出力、複数の比率で自由に画像を生成

SD15 768

Developed by panopstor

Stable Diffusion 1.5フレームワークを基にファインチューニングした画像生成モデルで、高解像度出力の安定性を最適化し、複数のアスペクト比での画像生成をサポート

Downloads 43

Release Time : 11/6/2023

Model Overview

このモデルは標準サイズ768x768または同じ総ピクセル数の複数のアスペクト比の画像生成に最適化されており、美術、写真、ビデオゲームなどの分野のコンテンツ制作に適しています

高解像度最適化

多段階トレーニング戦略により768x768などの高解像度出力を最適化し、被写体の重複問題を軽減

縦横比バッチ対応

EveryDream2トレーナーの縦横比バッチ対応技術を採用し、クロップアーティファクトを大幅に削減

多分野トレーニングデータ

3万枚の厳選画像に基づくトレーニングで、美術、写真、ビデオゲームなど多様なテーマをカバー

トレーニング最適化戦略

段階的トレーニング計画(40エポック)とコサインアニーリング学習率戦略を採用し、8bitオプティマイザーでトレーニング効率を向上

テキストから画像生成

高解像度画像生成

複数アスペクト比画像生成

アートスタイル変換

デジタルアート制作

コンセプトアート生成

テキスト記述に基づきゲーム/映画用コンセプトアートを生成

高品質768x768解像度のコンセプトアート

商業デザイン

広告素材生成

マーケティングニーズに合致したビジュアル素材を迅速生成

複数アスペクト比の商業グレード画像

Stable Diffusion 1.5を微調整したモデルで、768x768または同等の総画素数のさまざまなアスペクト比で画像生成が可能です。

このモデルは、RunwayMLのMSE VAEを使用してStable Diffusion 1.5を微調整したもので、標準サイズ768x768または同等の総画素数のさまざまなアスペクト比で画像を生成するように調整されています。

30,000枚の厳選された画像を使用して、美術、写真、ゲームなどの多様な画像を学習しています。
EveryDream2 (https://github.com/victorchall/EveryDream2trainer) を使用して40エポックにわたって微調整されています。
アスペクト比バッチフィッティングが実装されており、切り取りアーティファクトが大幅に削減されています。
高解像度の出力が安定しており、元のSD1.5チェックポイントと比較して、学習した512x512解像度を超えた場合の被写体の重複が減少しています。

学習にはEveryDream2 (https://github.com/victorchall/EveryDream2trainer) を使用し、4セッション（各セッション10エポック）で合計40エポックの学習を行いました。
学習データは30,000枚の手選びされた画像で、美術、写真、ゲームなどの多様な画像が含まれています。
RTX 6000 Ada 48GBでの学習時間は約60時間です。最初は標準サイズ512でバッチサイズ12、次に640でバッチサイズ12、最後に768でバッチサイズ8、勾配累積ステップ4で学習しました。
Unetの重みはbitsandbytesのAdamW8bitオプティマイザを使用し、学習率1e-6で調整しました。最初の30エポックは一定の学習率、最後の10エポックはコサインスケジューラを使用しました。
テキストエンコーダはUnetを通じて逆伝播により調整され、同じAdamW8bitオプティマイザを使用し、学習率2e-7のコサインスケジューラと重み減衰0.040を適用しました。