doohickey-mega開源圖像合成模型 - 支持多分辨率比例高分辨率圖像合成

首頁

Doohickey Mega

由doohickey開發

專為高分辨率圖像合成優化的穩定擴散模型系列，基於Stable Diffusion v1-5微調，支持多種分辨率比例

圖像生成 #高分辨率圖像合成 #多比例支持 #手部細節優化

下載量 186

發布時間 : 11/12/2022

模型概述

基於runwayml/stable-diffusion-v1-5微調的文本到圖像生成模型，特別優化了768x768分辨率附近的圖像合成質量，支持多種比例輸出

模型特點

高分辨率優化

專門針對768x768分辨率附近進行微調，生成高質量圖像

多種比例支持

支持640x640至768x768多種輸出比例（如768x640/704x768）

手部細節優化

v3-6000及後續版本特別優化了手部細節表現

改進的CLIP模型

v3版本採用laion/CLIP-ViT-L-14-laion2B-s32B-b82K模型並同步微調

模型能力

文本到圖像生成

高分辨率圖像合成

多種比例圖像生成

使用案例

創意設計

概念藝術創作

根據文本描述生成高分辨率概念藝術圖像

768x768分辨率的高質量藝術作品

數字插畫生成

快速生成各種風格的插畫作品

支持多種比例的專業級插畫

商業應用

廣告素材生成

為營銷活動快速生成高質量視覺素材

可直接用於商業用途的高清圖像

🚀 高分辨率圖像合成模型

本項目的模型更適合用於高分辨率圖像合成。主模型（doohickey/doohickey-mega）是基於 runwayml/stable-diffusion-v1-5 在接近 768x768 的分辨率下微調得到的（建議使用 Doohickey 從該模型生成圖像）。

✨ 主要特性

專為高分辨率圖像合成而設計。
基於 Stable Diffusion v1-5 進行微調。

📚 詳細文檔

當前模型

名稱	描述	使用的數據集
doohickey/doohickey-mega/v1-3000steps.ckpt	首次嘗試，高清效果非常好，但在非 1:1 寬高比下效果不佳，在 704x704 分辨率下訓練	A-1k
doohickey/doohickey-mega/v2-3000steps.ckpt	與上一個模型類似，但效果稍差	A-1k + 約 1k 來自 LAION-2b-En-Aesthetic 且分辨率 >=768x768 的樣本
doohickey/doohickey-mega/v3-3000.ckpt	使用了新的 CLIP 模型 (laion/CLIP-ViT-L-14-laion2B-s32B-b82K)（該 CLIP 模型也進行了 3000 步的微調），此後的模型在 640x640 到 768x768 的不同寬高比下進行訓練（例如 768x640 或 704x768）	A-1k + E-10k
doohickey/doohickey-mega/v3-6000.ckpt	在 v3-3000.ckpt 的基礎上再訓練 3000 步，對手部的生成效果更好！（僅對 UNet 進行微調，以 50% 的概率添加了隨機水平翻轉操作）	A-1k
doohickey/doohickey-mega/v3-7000.ckpt	上一個模型的延續，原以為在 3000 步後 Colab 會崩潰，但它繼續運行了一段時間，每 1000 步保存一次檢查點	A-1k
doohickey/doohickey-mega/v3-8000.ckpt	基於 v3-6000 再訓練 2000 步	A-1k

當前 diffusers 加載的模型是 doohickey/doohickey-mega/v3-8000.ckpt。

數據集

名稱	描述
A-1K	1000 張抓取的圖像，使用 BLIP 進行字幕標註（美學效果更精細）
E-10k	10000 張抓取的圖像，使用 BLIP 進行字幕標註（美學效果較粗糙）

📄 許可證

本模型開放訪問，所有人均可使用，遵循 CreativeML OpenRAIL-M 許可證，該許可證進一步規定了權利和使用方式。

CreativeML OpenRAIL 許可證規定：

不得使用該模型故意生成或分享非法或有害的輸出或內容。
作者對您生成的輸出不主張任何權利，您可以自由使用這些輸出，並對其使用負責，且使用不得違反許可證中的規定。
您可以重新分發模型權重，並將模型用於商業用途和/或作為服務使用。如果這樣做，請務必包含與許可證中相同的使用限制，並向所有用戶分享 CreativeML OpenRAIL-M 許可證的副本（請完整、仔細地閱讀許可證）。

請仔細閱讀完整的許可證：https://huggingface.co/spaces/CompVis/stable-diffusion-license