wan - flat - color - 1.3b - v2オープンソーススタイルモデル - 目に見える線稿のない純色の平塗り画像を無料で生成

ホーム

Wan Flat Color 1.3b V2

motimaluによって開発

線画が不可視で、フラット塗りかつ奥行き表現が極めてシンプルな画像向けにトレーニングされたスタイルモデル

画像生成オープンソースライセンス:Apache-2.0 #フラット塗り線画なし #アニメスタイライズ #バーチャルYouTuber生成

ダウンロード数 49

リリース時間 : 3/13/2025

モデル概要

このモデルはLoRA技術に基づいてトレーニングされ、線画が不可視でフラット塗りスタイルの画像を生成できます。特にアニメスタイルのキャラクターデザインに適しています。

モデル特徴

フラットカラースタイル

線画が不可視でフラット塗りスタイルの画像を生成

LoRAアダプテーション

LoRA技術を使用して微調整を行い、ベースモデルの能力を維持しながら特定のスタイルを実現

高品質出力

高品質な映画級の画面を生成でき、特にアニメスタイルのキャラクターデザインに適しています

モデル能力

テキストから画像生成

スタイライズ画像生成

アニメキャラクターデザイン

使用事例

デジタルアート創作

バーチャルYouTuberイメージデザイン

バーチャルYouTuberのアニメスタイルイメージを生成

例にある星街すいせいや桜未来のようなキャラクターイメージ

アニメシーン創作

特定のスタイルを持つアニメシーンを創作

星空の背景や桜の木の下のシーンのようなもの

🚀 Flat Color - Style

このプロジェクトは、線画が見えず、フラットな色調で奥行きの少ない画像を生成するモデルです。テキストから高品質な動画や画像を生成することができます。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

モデルの読み込み

LoraLoaderModelOnlyノードを使用してLoRAを読み込み、fp16 1.3B wan2.1_t2v_1.3B_fp16.safetensorsを使用します。

画像生成のトリガーワード

画像生成をトリガーするには、flat color と no lineart を使用してください。

✨ 主な機能

線画のないフラットな色調の画像や動画を生成します。
特定のアーティストのスタイルを指定して生成できます。
負のプロンプトを使用して、低品質な要素を除外できます。

📦 インストール

このモデルのウェイトはSafetensors形式で提供されています。こちらからFiles & versionsタブでダウンロードできます。

💻 使用例

基本的な使用法

以下は、ComfyUIを使用してテキストから画像を生成する例です。

# ここにはコード例が元文書になかったので、このままです。

📚 ドキュメント

モデルの説明

Flat Color - Styleは、線画が見えず、フラットな色調で奥行きの少ない画像を対象にトレーニングされています。

CivitAIからの転載: https://civitai.com/models/1132089?modelVersionId=1525407

テキストから動画へのプレビューは、ComfyUI_examples/wan/#text-to-video で生成されています。

トリガーワード

画像生成をトリガーするには、flat color と no lineart を使用する必要があります。

トレーニング設定

このモデルはdiffusion-pipeを使用してトレーニングされています。

dataset.toml

# Resolution settings.
resolutions = [512]

# Aspect ratio bucketing settings
enable_ar_bucket = true
min_ar = 0.5
max_ar = 2.0
num_ar_buckets = 7

# Frame buckets (1 is for images)
frame_buckets = [1]

[[directory]] # IMAGES
# Path to the directory containing images and their corresponding caption files.
path = '/mnt/d/huanvideo/training_data/images'
num_repeats = 5
resolutions = [720]
frame_buckets = [1] # Use 1 frame for images.

[[directory]] # VIDEOS
# Path to the directory containing videos and their corresponding caption files.
path = '/mnt/d/huanvideo/training_data/videos'
num_repeats = 5
resolutions = [512] # Set video resolution to 256 (e.g., 244p).
frame_buckets = [6, 28, 31, 32, 36, 42, 43, 48, 50, 53]

config.toml

# Dataset config file.
output_dir = '/mnt/d/wan/training_output'
dataset = 'dataset.toml'

# Training settings
epochs = 50
micro_batch_size_per_gpu = 1
pipeline_stages = 1
gradient_accumulation_steps = 4
gradient_clipping = 1.0
warmup_steps = 100

# eval settings
eval_every_n_epochs = 5
eval_before_first_step = true
eval_micro_batch_size_per_gpu = 1
eval_gradient_accumulation_steps = 1

# misc settings
save_every_n_epochs = 5
checkpoint_every_n_minutes = 30
activation_checkpointing = true
partition_method = 'parameters'
save_dtype = 'bfloat16'
caching_batch_size = 1
steps_per_print = 1
video_clip_mode = 'single_middle'

[model]
type = 'wan'
ckpt_path = '../Wan2.1-T2V-1.3B'
dtype = 'bfloat16'
# You can use fp8 for the transformer when training LoRA.
transformer_dtype = 'float8'
timestep_sample_method = 'logit_normal'

[adapter]
type = 'lora'
rank = 32
dtype = 'bfloat16'

[optimizer]
type = 'adamw_optimi'
lr = 5e-5
betas = [0.9, 0.99]
weight_decay = 0.02
eps = 1e-8