trinart_stable_diffusion_v2开源模型 - 强化漫画表现力的动漫风格图像生成

首页

Trinart Stable Diffusion V2

由 naclbit 开发

基于稳定扩散模型的动漫风格微调版本，保留原始美学风格的同时强化漫画表现力

图像生成开源协议:Openrail #动漫风格微调 #漫画图像生成 #多步长检查点

下载量 1,097

发布时间 : 9/8/2022

模型简介

该模型是对原始Trin-sama推特机器人模型的改进版本，通过精选动漫/漫画风格图像微调，旨在平衡稳定扩散的原始美学与动漫风格输出

模型特点

动漫风格优化

通过4万张精选高清动漫/漫画图像进行8轮微调，输出具有鲜明动漫特色的图像

多版本检查点

提供6万步/9.5万步/11.5万步三种训练程度的模型版本，适应不同风格需求

增强标注策略

V2版本改进训练数据标注方法，配合dropout技术提升输出质量

模型能力

文本生成动漫风格图像

图像到动漫风格转换

高分辨率图像生成（示例显示768x512）

使用案例

创意艺术

漫画角色设计

通过文本描述生成原创动漫角色形象

示例显示可生成具有复杂细节的奇幻生物（如飞龙）

照片风格转换

将现实照片转换为漫画风格

示例展示将狗公园照片转换为布拉德·皮特漫画肖像

🚀 Stable Diffusion TrinArt/Trin-sama AI finetune v2

这是一个基于Stable Diffusion的模型，通过约40,000张各类高分辨率漫画/动漫风格图片进行了8个轮次的微调。它保留了原始Stable Diffusion的美学风格，同时向动漫/漫画风格微调。

🚀 快速开始

注意事项

本模型并非TrinArt上拥有1920万张图像的角色模型，而是原始Trin-sama Twitter机器人模型的改进版本。该模型旨在尽可能保留原始Stable Diffusion的美学风格，同时将模型向动漫/漫画风格引导。

其他TrinArt模型可在以下链接找到：

Diffusers

该模型已由 ayan4m1 移植到 diffusers，可以从以下分支轻松运行：

revision="diffusers-60k"：训练了60,000步的检查点。
revision="diffusers-95k"：训练了95,000步的检查点。
revision="diffusers-115k"：训练了115,000步的检查点。

更多信息，请查看 “三种风格” 部分。

Gradio

我们还支持在Colab笔记本中使用 Gradio 网页界面与diffusers一起运行：

💻 使用示例

基础用法

文本到图像示例

# !pip install diffusers==0.3.0
from diffusers import StableDiffusionPipeline

# 使用训练了60,000步的检查点
pipe = StableDiffusionPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-60k")
pipe.to("cuda")

image = pipe("A magical dragon flying in front of the Himalaya in manga style").images[0]
image

dragon

如果您想更快地运行管道或在不同的硬件上运行，请查看优化文档。

图像到图像示例

# !pip install diffusers==0.3.0
from diffusers import StableDiffusionImg2ImgPipeline
import requests
from PIL import Image
from io import BytesIO

url = "https://scitechdaily.com/images/Dog-Park.jpg"

response = requests.get(url)
init_image = Image.open(BytesIO(response.content)).convert("RGB")
init_image = init_image.resize((768, 512))

# 使用训练了115,000步的检查点
pipe = StableDiffusionImg2ImgPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-115k")
pipe.to("cuda")

images = pipe(prompt="Manga drawing of Brad Pitt", init_image=init_image, strength=0.75, guidance_scale=7.5).images
image

如果您想更快地运行管道或在不同的硬件上运行，请查看优化文档。

📚 详细文档

版本2说明

V2检查点使用了丢弃法（dropouts），增加了10,000张图像，并采用了新的标签策略，经过更长时间的训练，旨在保留原始美学风格的同时改善结果。

三种风格

训练到115,000步/95,000步的检查点经过了进一步训练，但如果您觉得风格调整过度，可以使用训练到60,000步的检查点。

图像到图像

如果您想使用此模型运行 latent-diffusion 的库存ddim图像到图像脚本，必须将 use_ema 设置为 False。

硬件要求

8xNVIDIA A100 40GB

训练信息

自定义数据集加载器，带有增强操作：水平翻转、中心裁剪和锁定宽高比的缩放。
学习率（LR）：1.0e-5
10%的丢弃率

示例

每张图像均使用K. Crowson的k-lms（来自k-diffusion仓库）方法进行了50步扩散。

examples

致谢

Sta, AI小说家开发者 (https://ai-novel.com/) @ Bit192, Inc.
Stable Diffusion - Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bjorn