🚀 Flat Color - Style
このプロジェクトは、線画が見えず、フラットな色調で奥行きの少ない画像を生成するモデルです。テキストから高品質な動画や画像を生成することができます。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
モデルの読み込み
LoraLoaderModelOnlyノードを使用してLoRAを読み込み、fp16 1.3B wan2.1_t2v_1.3B_fp16.safetensorsを使用します。
画像生成のトリガーワード
画像生成をトリガーするには、flat color
と no lineart
を使用してください。
✨ 主な機能
- 線画のないフラットな色調の画像や動画を生成します。
- 特定のアーティストのスタイルを指定して生成できます。
- 負のプロンプトを使用して、低品質な要素を除外できます。
📦 インストール
このモデルのウェイトはSafetensors形式で提供されています。こちらからFiles & versionsタブでダウンロードできます。
💻 使用例
基本的な使用法
以下は、ComfyUIを使用してテキストから画像を生成する例です。
📚 ドキュメント
モデルの説明
Flat Color - Styleは、線画が見えず、フラットな色調で奥行きの少ない画像を対象にトレーニングされています。
CivitAIからの転載: https://civitai.com/models/1132089?modelVersionId=1525407
テキストから動画へのプレビューは、ComfyUI_examples/wan/#text-to-video で生成されています。
トリガーワード
画像生成をトリガーするには、flat color
と no lineart
を使用する必要があります。
トレーニング設定
このモデルはdiffusion-pipeを使用してトレーニングされています。
dataset.toml
# Resolution settings.
resolutions = [512]
# Aspect ratio bucketing settings
enable_ar_bucket = true
min_ar = 0.5
max_ar = 2.0
num_ar_buckets = 7
# Frame buckets (1 is for images)
frame_buckets = [1]
[[directory]] # IMAGES
# Path to the directory containing images and their corresponding caption files.
path = '/mnt/d/huanvideo/training_data/images'
num_repeats = 5
resolutions = [720]
frame_buckets = [1] # Use 1 frame for images.
[[directory]] # VIDEOS
# Path to the directory containing videos and their corresponding caption files.
path = '/mnt/d/huanvideo/training_data/videos'
num_repeats = 5
resolutions = [512] # Set video resolution to 256 (e.g., 244p).
frame_buckets = [6, 28, 31, 32, 36, 42, 43, 48, 50, 53]
config.toml
# Dataset config file.
output_dir = '/mnt/d/wan/training_output'
dataset = 'dataset.toml'
# Training settings
epochs = 50
micro_batch_size_per_gpu = 1
pipeline_stages = 1
gradient_accumulation_steps = 4
gradient_clipping = 1.0
warmup_steps = 100
# eval settings
eval_every_n_epochs = 5
eval_before_first_step = true
eval_micro_batch_size_per_gpu = 1
eval_gradient_accumulation_steps = 1
# misc settings
save_every_n_epochs = 5
checkpoint_every_n_minutes = 30
activation_checkpointing = true
partition_method = 'parameters'
save_dtype = 'bfloat16'
caching_batch_size = 1
steps_per_print = 1
video_clip_mode = 'single_middle'
[model]
type = 'wan'
ckpt_path = '../Wan2.1-T2V-1.3B'
dtype = 'bfloat16'
# You can use fp8 for the transformer when training LoRA.
transformer_dtype = 'float8'
timestep_sample_method = 'logit_normal'
[adapter]
type = 'lora'
rank = 32
dtype = 'bfloat16'
[optimizer]
type = 'adamw_optimi'
lr = 5e-5
betas = [0.9, 0.99]
weight_decay = 0.02
eps = 1e-8
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。