Wan2.1-T2V-14B-OldBookIllustrations開源模型 - 免費生成古書插畫風格視頻

首頁

Wan2.1 T2V 14B OldBookIllustrations

由AdamLucek開發

基於Wan2.1-T2V-14B文本轉視頻模型的LoRA適配器，專門用於生成古書插畫風格的視頻內容

文本生成視頻開源協議:MIT #古書插畫風格 #文本轉視頻 #LoRA微調

下載量 20

發布時間 : 3/31/2025

模型概述

該LoRA適配器通過微調Wan2.1-T2V-14B模型，使其能夠生成具有古書插畫風格的動態視頻內容，適用於藝術創作和歷史場景再現等應用

模型特點

古書插畫風格轉換

專門針對古書插畫藝術風格進行優化，可生成具有復古質感的視頻內容

LoRA適配器

作為輕量級適配層，可在保持基礎模型能力的同時實現特定風格轉換

負面提示詞優化

提供精心設計的負面提示詞模板，有效避免常見生成缺陷

模型能力

文本到視頻生成

藝術風格轉換

動態場景渲染

使用案例

藝術創作

古書場景動畫化

將古書中的靜態插圖轉換為動態場景

示例1.webp中展示的行走的狗

歷史場景再現

生成具有歷史感的場景動畫

示例2.webp中的驚濤拍岸場景

教育應用

植物生長過程展示

以古書風格展示植物生長過程

示例3.webp中的玫瑰盛開過程

🚀 Wan2.1-T2V-14B 舊書插畫LoRA

本項目是一個基於LoRA（Low-Rank Adaptation）技術的文本到視頻模型適配器，它能讓你生成具有舊書插畫風格的視頻。通過在特定數據集上的訓練，該適配器為Wan2.1-T2V-14B模型賦予了獨特的圖像生成能力。

🚀 快速開始

使用Diffusers庫

首先，你需要安裝diffusers庫：

pip install git+https://github.com/huggingface/diffusers.git

然後，使用以下代碼生成視頻：

import torch
from diffusers.utils import export_to_video
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler

model_id = "Wan-AI/Wan2.1-T2V-14B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained(model_id, vae=vae, torch_dtype=torch.bfloat16)
pipe.scheduler = UniPCMultistepScheduler.from_config(
  pipe.scheduler.config,
  flow_shift=5.0
)
pipe.to("cuda")
pipe.load_lora_weights("AdamLucek/Wan2.1-T2V-14B-OldBookIllustrations")
pipe.enable_model_cpu_offload() # 適用於低顯存環境

prompt = "An old book illustration of a dog walking down a path"
negative_prompt = "色調豔麗，過曝，靜態，細節模糊不清，字幕，風格，作品，畫作，畫面，靜止，整體發灰，最差質量，低質量，JPEG壓縮殘留，醜陋的，殘缺的，多餘的手指，畫得不好的手部，畫得不好的臉部，畸形的，毀容的，形態畸形的肢體，手指融合，靜止不動的畫面，雜亂的背景，三條腿，背景人很多，倒著走"
output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=720,
    width=1280,
    num_frames=81,
    guidance_scale=5.0,
    num_inference_steps=32
).frames[0]
export_to_video(output, "output.mp4", fps=16)

使用ComfyUI

你可以使用提供的ComfyUI工作流文件 oldbookillustration_workflow.json。

為了快速下載推薦的文本編碼器、VAE和Wan2.1文件，請運行以下命令：

wget https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
wget https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors
wget https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/diffusion_models/wan2.1_t2v_14B_bf16.safetensors

✨ 主要特性

特定風格生成：基於Wan-AI/Wan2.1-T2V-14B文本到視頻模型，訓練出能生成舊書插畫風格視頻的LoRA適配器。
觸發詞機制：使用An old book illustration of a作為觸發詞，方便快捷地生成所需風格的圖像。

📦 安裝指南

使用Diffusers庫時，通過以下命令安裝所需庫：

pip install git+https://github.com/huggingface/diffusers.git

💻 使用示例

基礎用法

在使用Diffusers庫時，按照上述“使用Diffusers庫”部分的代碼示例，即可生成具有舊書插畫風格的視頻。

高級用法

你可以根據自己的需求調整代碼中的參數，如height、width、num_frames、guidance_scale和num_inference_steps等，以獲得不同效果的視頻。

📚 詳細文檔

模型描述

本LoRA適配器是為Wan-AI/Wan2.1-T2V-14B文本到視頻模型設計的，它在AdamLucek/oldbookillustrations-small數據集的一個子集圖像上進行了訓練。

觸發詞

你應該使用An old book illustration of a來觸發圖像生成。

下載模型

該模型的權重以Safetensors格式提供。你可以在“Files & versions”標籤頁中下載它們。

📄 許可證

本項目採用MIT許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫