ドゥーヒキー - メガ - V1.01 オープンソース画像合成モデル - 768x768の高解像度画像生成を無料でサポート

ホーム

Doohickey Mega V1.01

doohickeyによって開発

高解像度画像合成に最適化された安定拡散モデルで、Stable Diffusion v1.5をファインチューニングし、768x768解像度の画像生成をサポート

画像生成 #高解像度画像合成 #768x768最適化 #CLIP-ViT-L-14強化

ダウンロード数 37

リリース時間 : 11/14/2022

モデル概要

このモデルはrunwayml/stable-diffusion-v1-5をファインチューニングした高解像度画像生成モデルで、改良されたCLIPテキストエンコーダーを採用し、クリエイティブな画像生成タスクに適しています

モデル特徴

高解像度最適化

768x768解像度に特化してファインチューニングされており、高品質な画像生成に適しています

改良されたCLIPエンコーダー

オリジナルのOpenAI CLIPモデルをlaion/CLIP-ViT-L-14-laion2B-s32B-b82Kに置き換えています

軽量ファインチューニング

わずか6000ステップのトレーニングで、モデルの安定性を保ちながら性能を最適化

モデル能力

テキストから画像生成

高解像度画像合成

クリエイティブコンテンツ生成

使用事例

クリエイティブデザイン

コンセプトアート制作

テキスト記述に基づいて高品質なコンセプトアート作品を生成

768x768解像度のコンセプトアート画像

デジタルイラスト生成

テキストプロンプトに基づいて自動的にデジタルイラストを生成

高忠実度のイラスト作品

コンテンツ制作

ソーシャルメディアコンテンツ生成

ソーシャルメディアに必要なビジュアルコンテンツを迅速に生成

ソーシャルプラットフォーム共有に適した高品質画像

🚀 高解像度画像合成に適したモデル

このモデルは、高解像度画像合成に適したモデルです。メインモデル (doohickey/doohickey-mega) は、runwayml/stable-diffusion-v1-5 を 768x768 解像度付近でファインチューニングしたものです (モデルから生成する際の推奨方法は、Doohickey を使用することです)。

このモデルは、Stable Diffusion のバージョンであり、標準の OpenAI CLIP モデルの代わりに laion/CLIP-ViT-L-14-laion2B-s32B-b82K を使用するようにファインチューニングされています。doohickey-mega は CLIP モデルもファインチューニングしていますが、この ckpt は CLIP モデルを学習させずにファインチューニングされています。合計 6000 ステップです。

Stable Diffusion の制限事項とバイアスは、このモデルにも適用されます。

📄 ライセンス

このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL - M ライセンスによって、権利と使用方法がさらに規定されています。

CreativeML OpenRAIL ライセンスでは以下が規定されています。

モデルを使用して、意図的に違法または有害な出力やコンテンツを生成したり共有したりすることはできません。
著者は、ユーザーが生成した出力に対して何らの権利も主張しません。ユーザーは自由にそれらを使用できますが、ライセンスに定められた規定に違反しないように使用する責任があります。
ユーザーは、重みを再配布し、モデルを商用および/またはサービスとして使用することができます。その場合、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL - M のコピーをすべてのユーザーに共有する必要があります (ライセンス全体を注意深く読んでください)。完全なライセンスについては、こちらを注意深くお読みください: https://huggingface.co/spaces/CompVis/stable-diffusion-license