Neopian-Diffusion開源文本生成圖像模型 - 免費生成尼奧寵物風格圖像

首頁

Neopian Diffusion

由doohickey開發

基於穩定擴散v1.5的文本生成圖像模型，專門訓練用於生成尼奧寵物風格的圖像

圖像生成英語開源協議:Openrail #低分辨率圖像生成 #復古遊戲風格 #DreamBooth微調

下載量 146

發布時間 : 11/18/2022

模型概述

該模型通過DreamBooth技術微調，使用尼奧寵物網站的GIF圖像數據進行訓練，能夠根據文本提示生成具有尼奧寵物風格的圖像作品

模型特點

尼奧寵物風格適配

專門針對尼奧寵物網站圖像風格進行訓練，能生成符合該風格的圖像

低分辨率優化

訓練時採用特殊策略減輕低分辨率輸入導致的偽影問題

兩階段訓練

採用分階段訓練策略，先同時訓練文本編碼器和UNet，後專注於UNet訓練

模型能力

文本生成圖像

風格化圖像生成

低分辨率圖像優化

使用案例

創意藝術

尼奧寵物角色設計

根據文字描述生成尼奧寵物風格的角色圖像

生成符合尼奧寵物風格的100x100像素圖像

懷舊遊戲藝術創作

為懷舊遊戲開發者提供快速原型設計

生成具有早期網絡遊戲風格的圖像素材

🚀 新派亞擴散模型 (開發中，模型仍在訓練，風格尚未成型)

新派亞擴散模型基於穩定擴散模型開發，起始模型採用 runwayml/stable-diffusion-v1-5，並使用從 https://www.neopets.com/funimages.phtml 網站的GIF中提取的圖像進行訓練。在訓練過程中，使用CLIP ViT - B/32（OpenAI）為每一個給定的標題/GIF對篩選出最匹配的GIF幀。選擇球面距離最小的幀並保存用於訓練，總共收集了約1950張尺寸約為100x100像素的圖像。

為了減少最終結果中的偽影，在Colab T4上對DreamBooth模型進行微調時，會以不同權重將“低分辨率”一詞添加到提示詞中（可參考此鏈接，瞭解Discord上有人關於在訓練文本反轉時使用負向詞的假設：https://cdn.discordapp.com/attachments/1008246088148463648/1041538692432527470/image.png）。

CLIP篩選出的GIF示例幀

標題	未處理的GIF	篩選出的幀
"yurble_baby_clap"

✨ 主要特性

基於穩定擴散模型，使用特定來源的GIF圖像進行訓練。
在訓練過程中採用CLIP篩選最佳匹配幀。
嘗試通過添加特定提示詞減少偽影。

📦 安裝指南

安裝必要的庫

⚠️ 重要提示

此模型目前僅可在至少配備一塊支持CUDA的NVIDIA GPU的計算機上運行。

pip install diffusers transformers ftfy scipy accelerate

登錄操作

若要登錄，需使用 huggingface-cli login 命令。

💻 使用示例

導入必要的庫

import torch
from torch import autocast
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionPipeline

創建管道

pipe = StableDiffusionPipeline.from_pretrained("doohickey/neopian-diffusion", use_auth_token=True)
pipe = pipe.to("cuda")

（可選）禁用NSFW過濾器

⚠️ 重要提示

不建議禁用此過濾器，但由於部分用戶在使用一些基礎提示詞時遇到問題，因此提供此選項。請確保保護未成年人和敏感用戶的安全。

def dummy(images, **kwargs): 
	return images, False
			
pipe.safety_checker = dummy

圖像生成

prompt = "my prompt"

with autocast("cuda"):
  image = pipe(prompt=prompt, num_inference_steps=100, width=512, height=512, guidance_scale=15).images[0]
  
image.save("image.png")