trinart_stable_diffusion_v2開源模型 - 強化漫畫表現力的動漫風格圖像生成

首頁

Trinart Stable Diffusion V2

由naclbit開發

基於穩定擴散模型的動漫風格微調版本，保留原始美學風格的同時強化漫畫表現力

圖像生成開源協議:Openrail #動漫風格微調 #漫畫圖像生成 #多步長檢查點

下載量 1,097

發布時間 : 9/8/2022

模型概述

該模型是對原始Trin-sama推特機器人模型的改進版本，通過精選動漫/漫畫風格圖像微調，旨在平衡穩定擴散的原始美學與動漫風格輸出

模型特點

動漫風格優化

通過4萬張精選高清動漫/漫畫圖像進行8輪微調，輸出具有鮮明動漫特色的圖像

多版本檢查點

提供6萬步/9.5萬步/11.5萬步三種訓練程度的模型版本，適應不同風格需求

增強標註策略

V2版本改進訓練數據標註方法，配合dropout技術提升輸出質量

模型能力

文本生成動漫風格圖像

圖像到動漫風格轉換

高分辨率圖像生成（示例顯示768x512）

使用案例

創意藝術

漫畫角色設計

通過文本描述生成原創動漫角色形象

示例顯示可生成具有複雜細節的奇幻生物（如飛龍）

照片風格轉換

將現實照片轉換為漫畫風格

示例展示將狗公園照片轉換為布拉德·皮特漫畫肖像

🚀 Stable Diffusion TrinArt/Trin-sama AI finetune v2

這是一個基於Stable Diffusion的模型，通過約40,000張各類高分辨率漫畫/動漫風格圖片進行了8個輪次的微調。它保留了原始Stable Diffusion的美學風格，同時向動漫/漫畫風格微調。

🚀 快速開始

注意事項

本模型並非TrinArt上擁有1920萬張圖像的角色模型，而是原始Trin-sama Twitter機器人模型的改進版本。該模型旨在儘可能保留原始Stable Diffusion的美學風格，同時將模型向動漫/漫畫風格引導。

其他TrinArt模型可在以下鏈接找到：

Diffusers

該模型已由 ayan4m1 移植到 diffusers，可以從以下分支輕鬆運行：

revision="diffusers-60k"：訓練了60,000步的檢查點。
revision="diffusers-95k"：訓練了95,000步的檢查點。
revision="diffusers-115k"：訓練了115,000步的檢查點。

更多信息，請查看 “三種風格” 部分。

Gradio

我們還支持在Colab筆記本中使用 Gradio 網頁界面與diffusers一起運行：

💻 使用示例

基礎用法

文本到圖像示例

# !pip install diffusers==0.3.0
from diffusers import StableDiffusionPipeline

# 使用訓練了60,000步的檢查點
pipe = StableDiffusionPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-60k")
pipe.to("cuda")

image = pipe("A magical dragon flying in front of the Himalaya in manga style").images[0]
image

dragon

如果您想更快地運行管道或在不同的硬件上運行，請查看優化文檔。

圖像到圖像示例

# !pip install diffusers==0.3.0
from diffusers import StableDiffusionImg2ImgPipeline
import requests
from PIL import Image
from io import BytesIO

url = "https://scitechdaily.com/images/Dog-Park.jpg"

response = requests.get(url)
init_image = Image.open(BytesIO(response.content)).convert("RGB")
init_image = init_image.resize((768, 512))

# 使用訓練了115,000步的檢查點
pipe = StableDiffusionImg2ImgPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-115k")
pipe.to("cuda")

images = pipe(prompt="Manga drawing of Brad Pitt", init_image=init_image, strength=0.75, guidance_scale=7.5).images
image

如果您想更快地運行管道或在不同的硬件上運行，請查看優化文檔。

📚 詳細文檔

版本2說明

V2檢查點使用了丟棄法（dropouts），增加了10,000張圖像，並採用了新的標籤策略，經過更長時間的訓練，旨在保留原始美學風格的同時改善結果。

三種風格

訓練到115,000步/95,000步的檢查點經過了進一步訓練，但如果您覺得風格調整過度，可以使用訓練到60,000步的檢查點。

圖像到圖像

如果您想使用此模型運行 latent-diffusion 的庫存ddim圖像到圖像腳本，必須將 use_ema 設置為 False。

硬件要求

8xNVIDIA A100 40GB

訓練信息

自定義數據集加載器，帶有增強操作：水平翻轉、中心裁剪和鎖定寬高比的縮放。
學習率（LR）：1.0e-5
10%的丟棄率

示例

每張圖像均使用K. Crowson的k-lms（來自k-diffusion倉庫）方法進行了50步擴散。

examples

致謝

Sta, AI小說家開發者 (https://ai-novel.com/) @ Bit192, Inc.
Stable Diffusion - Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bjorn