wan - flat - color - 1.3b - v2开源风格模型 - 免费生成无可见线稿纯色平涂图像

首页

Wan Flat Color 1.3b V2

由 motimalu 开发

专为无可见线稿、纯色平涂且景深表现极简的图像训练的风格模型

图像生成开源协议:Apache-2.0 #平涂无线稿 #动漫风格化 #虚拟主播生成

下载量 49

发布时间 : 3/13/2025

模型简介

该模型基于LoRA技术训练，能够生成无可见线稿、纯色平涂风格的图像，特别适合动漫风格的角色设计。

模型特点

平涂色彩风格

生成无可见线稿、纯色平涂风格的图像

LoRA适配

使用LoRA技术进行微调，保持基础模型能力的同时实现特定风格

高质量输出

能够生成高质量电影级画面，特别适合动漫风格角色设计

模型能力

文本生成图像

风格化图像生成

动漫角色设计

使用案例

数字艺术创作

虚拟主播形象设计

生成虚拟主播的动漫风格形象

如示例中的星街彗星和樱花未来角色形象

动漫场景创作

创作具有特定风格的动漫场景

如星空背景或樱花树下的场景

🚀 扁平色彩风格模型

本项目的扁平色彩风格模型专注于生成无明显线条、色彩扁平且深度感较弱的图像和视频，为图像与视频生成领域带来独特的视觉体验。

🚀 快速开始

触发词使用

使用 flat color 触发图像生成。
使用 no lineart 触发图像生成。

模型下载

本模型的权重以 Safetensors 格式提供，可在 Files & versions 标签页中下载。

✨ 主要特性

独特风格：基于无明显线条、扁平色彩和弱深度感的图像进行训练，生成具有独特风格的图像和视频。
广泛应用：适用于多种场景，如虚拟主播形象、动漫风格视频等。

📦 安装指南

加载 LoRA 时，使用 LoraLoaderModelOnly 节点，并使用 fp16 的 wan2.1_t2v_1.3B_fp16.safetensors。

💻 使用示例

基础用法

可在 ComfyUI_examples/wan/#text-to-video 中查看文本到视频的预览示例。

以下是一些示例输入及对应输出：

示例 1

输入文本：flat color, no lineart, blending, negative space, artist:[john kafka|ponsuke kaikai|hara id 21|yoneyama mai|fuzichoco],  1girl, hoshimachi suisei, virtual youtuber, blue hair, side ponytail, cowboy shot, black shirt, star print, off shoulder, outdoors, starry sky, wariza, looking up, half-closed eyes, black sky,  live2d animation, upper body, high quality cinematic video of a woman sitting under the starry night sky. The Camera is steady, This is a cowboy shot. The animation is smooth and fluid.
负提示词：bad quality video,色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走
输出：[images/ComfyUI_00455_.webp](images/ComfyUI_00455_.webp)

示例 2

输入文本：flat color, no lineart, blending, negative space, artist:[john kafka|ponsuke kaikai|hara id 21|yoneyama mai|fuzichoco],  1girl, sakura miko, pink hair, cowboy shot, white shirt, floral print, off shoulder, outdoors, cherry blossom, tree shade, wariza, looking up, falling petals, half-closed eyes, white sky, clouds,  live2d animation, upper body, high quality cinematic video of a woman sitting under a sakura tree. Dreamy and lonely, the camera close-ups on the face of the woman as she turns towards the viewer. The Camera is steady, This is a cowboy shot. The animation is smooth and fluid.
负提示词：bad quality video,色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走
输出：[images/ComfyUI_00469_.webp](images/ComfyUI_00469_.webp)

📚 详细文档

模型描述

本模型基于 Wan-AI/Wan2.1-T2V-1.3B-Diffusers 基础模型进行训练。相关内容转载自 CivitAI。

训练配置

本模型使用 diffusion-pipe 进行训练，以下是详细的训练配置文件：

dataset.toml

# 分辨率设置
resolutions = [512]

# 宽高比分桶设置
enable_ar_bucket = true
min_ar = 0.5
max_ar = 2.0
num_ar_buckets = 7

# 帧分桶（1 表示图像）
frame_buckets = [1]

[[directory]] # 图像
# 包含图像及其对应字幕文件的目录路径
path = '/mnt/d/huanvideo/training_data/images'
num_repeats = 5
resolutions = [720]
frame_buckets = [1] # 图像使用 1 帧

[[directory]] # 视频
# 包含视频及其对应字幕文件的目录路径
path = '/mnt/d/huanvideo/training_data/videos'
num_repeats = 5
resolutions = [512] # 设置视频分辨率为 512（例如 244p）
frame_buckets = [6, 28, 31, 32, 36, 42, 43, 48, 50, 53]

config.toml

# 数据集配置文件
output_dir = '/mnt/d/wan/training_output'
dataset = 'dataset.toml'

# 训练设置
epochs = 50
micro_batch_size_per_gpu = 1
pipeline_stages = 1
gradient_accumulation_steps = 4
gradient_clipping = 1.0
warmup_steps = 100

# 评估设置
eval_every_n_epochs = 5
eval_before_first_step = true
eval_micro_batch_size_per_gpu = 1
eval_gradient_accumulation_steps = 1

# 其他设置
save_every_n_epochs = 5
checkpoint_every_n_minutes = 30
activation_checkpointing = true
partition_method = 'parameters'
save_dtype = 'bfloat16'
caching_batch_size = 1
steps_per_print = 1
video_clip_mode = 'single_middle'

[model]
type = 'wan'
ckpt_path = '../Wan2.1-T2V-1.3B'
dtype = 'bfloat16'
# 训练 LoRA 时，变压器可使用 fp8
transformer_dtype = 'float8'
timestep_sample_method = 'logit_normal'

[adapter]
type = 'lora'
rank = 32
dtype = 'bfloat16'

[optimizer]
type = 'adamw_optimi'
lr = 5e-5
betas = [0.9, 0.99]
weight_decay = 0.02
eps = 1e-8