hitokomoru-diffusion-v2開源模型 - 基於知名作品生成動漫風圖像，支持特定標籤

首頁

Hitokomoru Diffusion V2

由Linaqruf開發

基於日本藝術家Hitokomoru作品微調的動漫風格文本生成圖像模型，支持Danbooru標籤輸入

圖像生成英語開源協議:Openrail #動漫風格生成 #高美學圖像 #Danbooru標籤支持

下載量 27

發布時間 : 1/16/2023

模型概述

這是一個基於waifu-diffusion-1-4微調的潛在擴散模型，專門用於生成高質量的動漫風格圖像。模型通過257幅Danbooru收集的作品訓練，支持非正方形分辨率輸出。

模型特點

動漫風格優化

基於日本藝術家Hitokomoru作品微調，專精於生成高質量動漫人物圖像

寬高比支持

通過寬高比分桶工具預處理，支持非正方形分辨率輸出

標籤兼容性

兼容Danbooru標籤系統，可使用常見動漫特徵標籤生成圖像

美學優化

通過特定正向/反向提示詞組合可顯著提升生成圖像質量

模型能力

文本生成圖像

動漫風格圖像生成

人物特徵控制

場景細節控制

使用案例

動漫創作

動漫角色設計

通過詳細特徵描述生成定製動漫角色

高質量動漫人物圖像，可精確控制髮色、眼睛顏色等特徵

場景概念圖

生成帶有複雜背景的動漫場景

包含光照、天氣、季節等細節的完整場景圖像

藝術創作

插畫生成

快速生成動漫風格插畫

可直接用於商業或個人的插畫作品

🚀 Hitokomoru Diffusion V2

Hitokomoru Diffusion V2 是一個基於文本生成圖像的模型，它在日本藝術家的作品上進行訓練，能夠根據文本提示生成高質量的動漫風格圖像，支持使用 Danbooru 標籤來生成特定風格的圖像。

🚀 快速開始

Hitokomoru Diffusion V2 是一個潛在擴散模型，它在日本藝術家 „Éí„Éà„Åì„ÇÇ„Çã/Hitokomoru 的作品上進行訓練。當前模型是基於 waifu-diffusion-1-4 (wd-1-4-anime_e2.ckpt) 進行微調的，學習率為 2.0e-6，訓練步數為 15000，批量大小為 4，使用從 Danbooru 收集的 257 幅藝術作品 進行訓練。該模型是 hitokomoru-diffusion 的延續，之前的版本是基於 Anything V3.0 進行微調的。數據集使用 Aspect Ratio Bucketing Tool 進行了預處理，以便可以轉換為潛在空間並在非方形分辨率下進行訓練。和其他動漫風格的 Stable Diffusion 模型一樣，它也支持使用 Danbooru 標籤來生成圖像。

例如：1girl, white hair, golden eyes, beautiful eyes, detail, flower meadow, cumulonimbus clouds, lighting, detailed sky, garden

可以結合 Automatic1111's Stable Diffusion Webui 使用，詳見：使用方法
也可以結合 üß® diffusers 使用

✨ 主要特性

基於特定藝術家作品訓練：在日本藝術家 „Éí„Éà„Åì„ÇÇ„Çã/Hitokomoru 的作品上進行訓練，能生成具有該藝術家風格的圖像。
支持 Danbooru 標籤：和其他動漫風格的 Stable Diffusion 模型一樣，支持使用 Danbooru 標籤來生成特定風格的圖像。
非方形分辨率訓練：數據集使用 Aspect Ratio Bucketing Tool 進行預處理，可在非方形分辨率下進行訓練。

📦 安裝指南

使用 Automatic1111's Stable Diffusion Webui

從這裡下載 hitokomoru-v2.ckpt 文件，或者從這裡下載 safetensors 版本。
該模型是基於 waifu-diffusion-v1-4-epoch-2 微調的，而後者又是基於 stable-diffusion-2-1-base 微調的。因此，要在 Automatic1111's Stable Diffusion Webui 中運行該模型，需要將推理配置 .YAML 文件放在模型旁邊，可以從這裡找到該文件。

使用 Diffusers

需要安裝以下依賴才能運行管道：

pip install diffusers transformers accelerate scipy safetensors

💻 使用示例

基礎用法

import torch
from torch import autocast
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "Linaqruf/hitokomoru-diffusion-v2"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "masterpiece, best quality, high quality, 1girl, solo, sitting, confident expression, long blonde hair, blue eyes, formal dress"
negative_prompt = "worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry"

with autocast("cuda"):
    image = pipe(prompt, 
                 negative_prompt=negative_prompt, 
                 width=512,
                 height=728,
                 guidance_scale=12,
                 num_inference_steps=50).images[0]
    
image.save("anime_girl.png")

高級用法

在使用時，需要根據官方 Waifu Diffusion 1.4 發佈說明調整提示詞，以獲得更高質量的圖像。

理想的負提示詞示例：

worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry

為了獲得高美學效果，提示詞前應添加以下內容：

masterpiece, best quality, high quality, absurdres

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Linaqruf
模型類型	基於擴散的文本到圖像生成模型
功能描述	該模型可根據文本提示生成和修改圖像
許可證	CreativeML Open RAIL++-M License
微調基礎模型	waifu-diffusion-v1-4-epoch-2

示例圖像的提示詞和設置

masterpiece, best quality, high quality, 1girl, solo, sitting, confident expression, long blonde hair, blue eyes, formal dress, jewelry, make-up, luxury, close-up, face, upper body.

Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry

Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 994051800, Size: 512x768, Model hash: ea61e913a0, Model: hitokomoru-v2, Batch size: 2, Batch pos: 0, Denoising strength: 0.6, Clip skip: 2, ENSD: 31337, Hires upscale: 1.5, Hires steps: 20, Hires upscaler: Latent (nearest-exact)

示例圖像

Anime Girl

🔧 技術細節

該模型基於 waifu-diffusion-1-4 (wd-1-4-anime_e2.ckpt) 進行微調，學習率為 2.0e-6，訓練步數為 15000，批量大小為 4，使用從 Danbooru 收集的 257 幅藝術作品 進行訓練。數據集使用 Aspect Ratio Bucketing Tool 進行了預處理，以便可以轉換為潛在空間並在非方形分辨率下進行訓練。

📄 許可證

該模型是開放訪問的，所有人都可以使用，採用 CreativeML OpenRAIL-M 許可證進一步規定了權利和使用方式。

CreativeML OpenRAIL 許可證規定：

不得使用該模型故意生成或分享非法或有害的輸出或內容。
作者對生成的輸出不主張任何權利，用戶可以自由使用這些輸出，並對其使用負責，且使用不得違反許可證中的規定。
可以重新分發模型權重，並將模型用於商業用途和/或作為服務使用。如果這樣做，請務必包含與許可證中相同的使用限制，並向所有用戶分享一份 CreativeML OpenRAIL-M 許可證副本（請完整仔細閱讀許可證）。

請在此處閱讀完整許可證