Wan2.1-Fun-V1.1-1.3B-Control-Camera开源文图生视频模型 - 多分辨率训练，可进行首尾帧预测

首页

Wan2.1 Fun V1.1 1.3B Control Camera

由 alibaba-pai 开发

支持多分辨率训练的文图生视频模型，具备首尾帧预测功能

文本生成视频支持多种语言开源协议:Apache-2.0 #多分辨率视频生成 #首尾帧预测 #摄像机运动控制

下载量 54

发布时间 : 4/24/2025

模型简介

这是一个文本生成视频的模型，支持多分辨率训练，并具备首尾帧预测功能，可用于从文本或图像生成高质量视频内容。

模型特点

多分辨率支持

支持多种分辨率训练和生成，适应不同应用场景需求

首尾帧预测

具备首尾帧预测功能，可生成更连贯的视频内容

多语言输入

支持中英文输入，适应不同语言用户需求

模型能力

文本生成视频

图像生成视频

多分辨率视频生成

首尾帧预测

使用案例

内容创作

短视频生成

根据文本描述自动生成短视频内容

可生成高质量、连贯的短视频片段

广告制作

快速生成产品宣传视频

可根据产品描述生成专业级广告视频

教育

教学视频生成

根据教学内容自动生成演示视频

可生成清晰、生动的教学演示视频

🚀 万趣（Wan-Fun）

万趣（Wan-Fun）是一款文本到视频的生成模型，支持多语言，可根据文本描述生成高质量的视频内容，具有多分辨率训练、支持首尾图预测、多种控制条件等特性。

English | 简体中文

🚀 快速开始

云使用

a. 通过阿里云 DSW

DSW 有免费 GPU 时间，用户可申请一次，申请后 3 个月内有效。阿里云在Freetier提供免费 GPU 时间，获取并在阿里云 PAI - DSW 中使用，5 分钟内即可启动 CogVideoX - Fun。

b. 通过 ComfyUI

我们的 ComfyUI 界面如下，具体查看ComfyUI README。 workflow graph

c. 通过 docker

使用 docker 的情况下，请保证机器中已经正确安装显卡驱动与 CUDA 环境，然后依次执行以下命令：

# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# enter VideoX-Fun's dir
cd VideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP

# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP

本地安装

a. 环境检查

我们已验证该库可在以下环境中执行：

系统	操作系统	Python 版本	PyTorch 版本	CUDA 版本	CUDNN 版本	GPU
Windows	Windows 10	python3.10 & python3.11	torch2.2.0	11.8 & 12.1	8+	Nvidia - 3060 12G & Nvidia - 3090 24G
Linux	Ubuntu 20.04, CentOS	python3.10 & python3.11	torch2.2.0	11.8 & 12.1	8+	Nvidia - V100 16G & Nvidia - A10 24G & Nvidia - A100 40G & Nvidia - A100 80G

我们需要大约 60GB 的可用磁盘空间，请检查！

b. 权重放置

我们最好将权重按照指定路径进行放置： 通过 comfyui：将模型放入 Comfyui 的权重文件夹 ComfyUI/models/Fun_Models/：

📦 ComfyUI/
├── 📂 models/
│   └── 📂 Fun_Models/
│       ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│       ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│       ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│       └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/

运行自身的 python 文件或 ui 界面：

📦 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│   ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│   ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│   └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
├── 📂 Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

✨ 主要特性

多分辨率训练：支持多分辨率的视频预测，可生成不同尺寸的视频。
首尾图预测：支持根据首尾图生成视频内容。
多种控制条件：支持不同的控制条件，如 Canny、Depth、Pose、MLSD 等，还支持参考图 + 控制条件进行控制，以及使用轨迹控制。
多语言支持：支持多语言预测。

📦 安装指南

可通过云使用（阿里云 DSW、ComfyUI、docker）或本地安装的方式进行部署，具体步骤见快速开始部分。

💻 使用示例

生成视频

a、显存节省方案

由于 Wan2.1 的参数非常大，我们需要考虑显存节省方案，以节省显存适应消费级显卡。我们给每个预测文件都提供了 GPU_memory_mode，可以在 model_cpu_offload，model_cpu_offload_and_qfloat8，sequential_cpu_offload 中进行选择。该方案同样适用于 CogVideoX - Fun 的生成。

model_cpu_offload 代表整个模型在使用后会进入 cpu，可以节省部分显存。
model_cpu_offload_and_qfloat8 代表整个模型在使用后会进入 cpu，并且对 transformer 模型进行了 float8 的量化，可以节省更多的显存。
sequential_cpu_offload 代表模型的每一层在使用后会进入 cpu，速度较慢，节省大量显存。

qfloat8 会部分降低模型的性能，但可以节省更多的显存。如果显存足够，推荐使用 model_cpu_offload。

b、通过 comfyui

具体查看ComfyUI README。

c、运行 python 文件

步骤 1：下载对应权重放入 models 文件夹。
步骤 2：根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持 CogVideoX - Fun、Wan2.1 和 Wan2.1 - Fun，在 examples 文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以 CogVideoX - Fun 为例：
- 文生视频：
  - 使用 examples/cogvideox_fun/predict_t2v.py 文件中修改 prompt、neg_prompt、guidance_scale 和 seed。
  - 而后运行 examples/cogvideox_fun/predict_t2v.py 文件，等待生成结果，结果保存在 samples/cogvideox - fun - videos 文件夹中。
- 图生视频：
  - 使用 examples/cogvideox_fun/predict_i2v.py 文件中修改 validation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。
  - validation_image_start 是视频的开始图片，validation_image_end 是视频的结尾图片。
  - 而后运行 examples/cogvideox_fun/predict_i2v.py 文件，等待生成结果，结果保存在 samples/cogvideox - fun - videos_i2v 文件夹中。
- 视频生视频：
  - 使用 examples/cogvideox_fun/predict_v2v.py 文件中修改 validation_video、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。
  - validation_video 是视频生视频的参考视频。您可以使用以下视频运行演示：演示视频
  - 而后运行 examples/cogvideox_fun/predict_v2v.py 文件，等待生成结果，结果保存在 samples/cogvideox - fun - videos_v2v 文件夹中。
- 普通控制生视频（Canny、Pose、Depth 等）：
  - 使用 examples/cogvideox_fun/predict_v2v_control.py 文件中修改 control_video、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。
  - control_video 是控制生视频的控制视频，是使用 Canny、Pose、Depth 等算子提取后的视频。您可以使用以下视频运行演示：演示视频
  - 而后运行 examples/cogvideox_fun/predict_v2v_control.py 文件，等待生成结果，结果保存在 samples/cogvideox - fun - videos_v2v_control 文件夹中。
步骤 3：如果想结合自己训练的其他 backbone 与 Lora，则看情况修改 examples/{model_name}/predict_t2v.py 中的 examples/{model_name}/predict_i2v.py 和 lora_path。

d、通过 ui 界面

webui 支持文生视频、图生视频、视频生视频和普通控制生视频（Canny、Pose、Depth 等）。当前该库支持 CogVideoX - Fun、Wan2.1 和 Wan2.1 - Fun，在 examples 文件夹下用文件夹名以区分，不同模型支持的功能不同，请视具体情况予以区分。以 CogVideoX - Fun 为例：

步骤 1：下载对应权重放入 models 文件夹。
步骤 2：运行 examples/cogvideox_fun/app.py 文件，进入 gradio 页面。
步骤 3：根据页面选择生成模型，填入 prompt、neg_prompt、guidance_scale 和 seed 等，点击生成，等待生成结果，结果保存在 sample 文件夹中。

📚 详细文档

模型地址

V1.1

名称	存储空间	Hugging Face	Model Scope	描述
Wan2.1 - Fun - V1.1 - 1.3B - InP	19.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 1.3B - InP)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 1.3B - InP)	Wan2.1 - Fun - V1.1 - 1.3B 文图生视频权重，以多分辨率训练，支持首尾图预测。
Wan2.1 - Fun - V1.1 - 14B - InP	47.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 14B - InP)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 14B - InP)	Wan2.1 - Fun - V1.1 - 14B 文图生视频权重，以多分辨率训练，支持首尾图预测。
Wan2.1 - Fun - V1.1 - 1.3B - Control	19.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 1.3B - Control)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 1.3B - Control)	Wan2.1 - Fun - V1.1 - 1.3B 视频控制权重支持不同的控制条件，如 Canny、Depth、Pose、MLSD 等，支持参考图 + 控制条件进行控制，支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，以 81 帧、每秒 16 帧进行训练，支持多语言预测
Wan2.1 - Fun - V1.1 - 14B - Control	47.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 14B - Control)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 14B - Control)	Wan2.1 - Fun - V1.1 - 14B 视频控制权重支持不同的控制条件，如 Canny、Depth、Pose、MLSD 等，支持参考图 + 控制条件进行控制，支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，以 81 帧、每秒 16 帧进行训练，支持多语言预测
Wan2.1 - Fun - V1.1 - 1.3B - Control - Camera	19.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 1.3B - Control)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 1.3B - Control)	Wan2.1 - Fun - V1.1 - 1.3B 相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，以 81 帧、每秒 16 帧进行训练，支持多语言预测
Wan2.1 - Fun - V1.1 - 14B - Control	47.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 14B - Control)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 14B - Control)	Wan2.1 - Fun - V1.1 - 14B 相机镜头控制权重。支持多分辨率（512，768，1024）的视频预测，以 81 帧、每秒 16 帧进行训练，支持多语言预测

V1.0

名称	存储空间	Hugging Face	Model Scope	描述
Wan2.1 - Fun - 1.3B - InP	19.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 1.3B - InP)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 1.3B - InP)	Wan2.1 - Fun - 1.3B 文图生视频权重，以多分辨率训练，支持首尾图预测。
Wan2.1 - Fun - 14B - InP	47.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 14B - InP)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 14B - InP)	Wan2.1 - Fun - 14B 文图生视频权重，以多分辨率训练，支持首尾图预测。
Wan2.1 - Fun - 1.3B - Control	19.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 1.3B - Control)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 1.3B - Control)	Wan2.1 - Fun - 1.3B 视频控制权重，支持不同的控制条件，如 Canny、Depth、Pose、MLSD 等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，以 81 帧、每秒 16 帧进行训练，支持多语言预测
Wan2.1 - Fun - 14B - Control	47.0 GB	[🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 14B - Control)	[😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 14B - Control)	Wan2.1 - Fun - 14B 视频控制权重，支持不同的控制条件，如 Canny、Depth、Pose、MLSD 等，同时支持使用轨迹控制。支持多分辨率（512，768，1024）的视频预测，以 81 帧、每秒 16 帧进行训练，支持多语言预测

视频作品

Wan2.1 - Fun - V1.1 - 14B - InP && Wan2.1 - Fun - V1.1 - 1.3B - InP

Wan2.1 - Fun - V1.1 - 14B - Control && Wan2.1 - Fun - V1.1 - 1.3B - Control

通用控制视频 + 参考图像：

参考图像	控制视频	Wan2.1 - Fun - V1.1 - 14B - Control	Wan2.1 - Fun - V1.1 - 1.3B - Control

**通用控制视频（Canny、Pose、Depth 等）和轨迹控制**：

Wan2.1 - Fun - V1.1 - 14B - Control - Camera && Wan2.1 - Fun - V1.1 - 1.3B - Control - Camera

上移	左移	右移

下移	上移 + 左移	上移 + 右移

📄 许可证

本项目采用 Apache License (Version 2.0)。

🔗 参考文献

CogVideo: https://github.com/THUDM/CogVideo/
EasyAnimate: https://github.com/aigc-apps/EasyAnimate
Wan2.1: https://github.com/Wan-Video/Wan2.1/
ComfyUI - KJNodes: https://github.com/kijai/ComfyUI - KJNodes
ComfyUI - EasyAnimateWrapper: https://github.com/kijai/ComfyUI - EasyAnimateWrapper
ComfyUI - CameraCtrl - Wrapper: https://github.com/chaojie/ComfyUI - CameraCtrl - Wrapper
CameraCtrl: https://github.com/hehao13/CameraCtrl