Wan2.1-Fun-1.3B-Control開源模型 - 文本快速生成視頻，支持多分辨率訓練與首尾幀預測

首頁

Wan2.1 Fun 1.3B Control

由alibaba-pai開發

Wan2.1-Fun-1.3B是一個文本生成視頻的模型，支持多分辨率訓練及首尾幀預測。

文本生成視頻支持多種語言開源協議:Apache-2.0 #多分辨率視頻生成 #首尾幀預測 #多語言文本輸入

下載量 22.19k

發布時間 : 3/26/2025

模型概述

該模型專注於從文本生成高質量視頻，支持多種分辨率和首尾幀預測功能，適用於創意視頻生成場景。

模型特點

多分辨率支持

支持512/768/1024等多種分辨率的視頻生成

首尾幀預測

能夠預測視頻的首幀和尾幀，提高生成視頻的連貫性

多語言輸入

支持中英文文本輸入，適應不同語言用戶需求

模型能力

文本生成視頻

多分辨率視頻生成

首尾幀預測

中英文輸入支持

使用案例

創意內容生成

短視頻創作

根據文本描述自動生成創意短視頻

可生成81幀（16fps）的連貫視頻

廣告製作

快速生成產品展示視頻

支持多種分辨率，適應不同平臺需求

教育內容

教學視頻生成

根據教材內容自動生成配套視頻

🚀 萬趣（Wan-Fun）

😊 歡迎！萬趣（Wan-Fun）是一款文本到視頻的生成模型，支持多語言，可實現文圖生視頻等功能，為視頻創作提供了強大的支持。

English | 簡體中文

🚀 快速開始

雲使用: AliyunDSW/Docker

a. 通過阿里雲 DSW

DSW 有免費 GPU 時間，用戶可申請一次，申請後3個月內有效。阿里雲在Freetier提供免費GPU時間，獲取並在阿里雲PAI - DSW中使用，5分鐘內即可啟動CogVideoX - Fun。

b. 通過ComfyUI

我們的ComfyUI界面如下，具體查看ComfyUI README。 workflow graph

c. 通過docker

使用docker的情況下，請保證機器中已經正確安裝顯卡驅動與CUDA環境，然後以此執行以下命令：

# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# enter CogVideoX-Fun's dir
cd CogVideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP

# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP

本地安裝: 環境檢查/下載/安裝

a. 環境檢查

我們已驗證該庫可在以下環境中執行：

Windows 的詳細信息：

操作系統 Windows 10
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU： Nvidia - 3060 12G & Nvidia - 3090 24G

Linux 的詳細信息：

操作系統 Ubuntu 20.04, CentOS
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU：Nvidia - V100 16G & Nvidia - A10 24G & Nvidia - A100 40G & Nvidia - A100 80G

我們需要大約 60GB 的可用磁盤空間，請檢查！

b. 權重放置

我們最好將權重按照指定路徑進行放置：

📦 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│   ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│   ├── 📂 Wan2.1-Fun-14B-InP
│   └── 📂 Wan2.1-Fun-1.3B-InP/
├── 📂 Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

✨ 主要特性

多分辨率訓練：模型以多分辨率訓練，支持首尾圖預測，能生成更豐富多樣的視頻內容。
多語言支持：支持多語言預測，方便不同語言背景的用戶使用。
多種生成方式：支持文生視頻、圖生視頻、視頻生視頻和普通控制生視頻（Canny、Pose、Depth等）。
顯存節省方案：提供多種顯存節省方案，適應消費級顯卡。

📦 安裝指南

雲使用

可通過阿里雲 DSW、ComfyUI 或 docker 進行安裝和使用，具體步驟見上文“快速啟動”部分。

本地安裝

需進行環境檢查和權重放置，確保滿足運行條件，具體步驟見上文“快速啟動”部分。

💻 使用示例

生成

a、顯存節省方案

由於Wan2.1的參數非常大，我們需要考慮顯存節省方案，以節省顯存適應消費級顯卡。我們給每個預測文件都提供了GPU_memory_mode，可以在model_cpu_offload，model_cpu_offload_and_qfloat8，sequential_cpu_offload中進行選擇。該方案同樣適用於CogVideoX - Fun的生成。

model_cpu_offload代表整個模型在使用後會進入cpu，可以節省部分顯存。
model_cpu_offload_and_qfloat8代表整個模型在使用後會進入cpu，並且對transformer模型進行了float8的量化，可以節省更多的顯存。
sequential_cpu_offload代表模型的每一層在使用後會進入cpu，速度較慢，節省大量顯存。

qfloat8會部分降低模型的性能，但可以節省更多的顯存。如果顯存足夠，推薦使用model_cpu_offload。

b、通過comfyui

具體查看ComfyUI README。

c、運行python文件

步驟1：下載對應權重放入models文件夾。
步驟2：根據不同的權重與預測目標使用不同的文件進行預測。當前該庫支持CogVideoX - Fun、Wan2.1和Wan2.1 - Fun，在examples文件夾下用文件夾名以區分，不同模型支持的功能不同，請視具體情況予以區分。以CogVideoX - Fun為例。
- 基礎用法
  - 文生視頻：

# 使用examples/cogvideox_fun/predict_t2v.py文件中修改prompt、neg_prompt、guidance_scale和seed。
# 而後運行examples/cogvideox_fun/predict_t2v.py文件，等待生成結果，結果保存在samples/cogvideox-fun-videos文件夾中。

- 圖生視頻：

# 使用examples/cogvideox_fun/predict_i2v.py文件中修改validation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
# validation_image_start是視頻的開始圖片，validation_image_end是視頻的結尾圖片。
# 而後運行examples/cogvideox_fun/predict_i2v.py文件，等待生成結果，結果保存在samples/cogvideox-fun-videos_i2v文件夾中。

高級用法
- 視頻生視頻：

# 使用examples/cogvideox_fun/predict_v2v.py文件中修改validation_video、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
# validation_video是視頻生視頻的參考視頻。您可以使用以下視頻運行演示：[演示視頻](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1/play_guitar.mp4)
# 而後運行examples/cogvideox_fun/predict_v2v.py文件，等待生成結果，結果保存在samples/cogvideox-fun-videos_v2v文件夾中。

- 普通控制生視頻（Canny、Pose、Depth等）：

# 使用examples/cogvideox_fun/predict_v2v_control.py文件中修改control_video、validation_image_end、prompt、neg_prompt、guidance_scale和seed。
# control_video是控制生視頻的控制視頻，是使用Canny、Pose、Depth等算子提取後的視頻。您可以使用以下視頻運行演示：[演示視頻](https://pai-aigc-photog.oss-cn-hangzhou.aliyuncs.com/cogvideox_fun/asset/v1.1/pose.mp4)
# 而後運行examples/cogvideox_fun/predict_v2v_control.py文件，等待生成結果，結果保存在samples/cogvideox-fun-videos_v2v_control文件夾中。

步驟3：如果想結合自己訓練的其他backbone與Lora，則看情況修改examples/{model_name}/predict_t2v.py中的examples/{model_name}/predict_i2v.py和lora_path。

d、通過ui界面

webui支持文生視頻、圖生視頻、視頻生視頻和普通控制生視頻（Canny、Pose、Depth等）。當前該庫支持CogVideoX - Fun、Wan2.1和Wan2.1 - Fun，在examples文件夾下用文件夾名以區分，不同模型支持的功能不同，請視具體情況予以區分。以CogVideoX - Fun為例。

步驟1：下載對應權重放入models文件夾。
步驟2：運行examples/cogvideox_fun/app.py文件，進入gradio頁面。
步驟3：根據頁面選擇生成模型，填入prompt、neg_prompt、guidance_scale和seed等，點擊生成，等待生成結果，結果保存在sample文件夾中。

📚 詳細文檔

模型地址

V1.0:

名稱	存儲空間	Hugging Face	Model Scope	描述
Wan2.1 - Fun - 1.3B - InP	19.0 GB	🤗Link	😄Link	Wan2.1 - Fun - 1.3B文圖生視頻權重，以多分辨率訓練，支持首尾圖預測。
Wan2.1 - Fun - 14B - InP	47.0 GB	🤗Link	😄Link	Wan2.1 - Fun - 14B文圖生視頻權重，以多分辨率訓練，支持首尾圖預測。
Wan2.1 - Fun - 1.3B - Control	19.0 GB	🤗Link	😄Link	Wan2.1 - Fun - 1.3B視頻控制權重，支持不同的控制條件，如Canny、Depth、Pose、MLSD等，同時支持使用軌跡控制。支持多分辨率（512，768，1024）的視頻預測，支持多分辨率（512，768，1024）的視頻預測，以81幀、每秒16幀進行訓練，支持多語言預測
Wan2.1 - Fun - 14B - Control	47.0 GB	🤗Link	😄Link	Wan2.1 - Fun - 14B視頻控制權重，支持不同的控制條件，如Canny、Depth、Pose、MLSD等，同時支持使用軌跡控制。支持多分辨率（512，768，1024）的視頻預測，支持多分辨率（512，768，1024）的視頻預測，以81幀、每秒16幀進行訓練，支持多語言預測