模型简介
模型特点
模型能力
使用案例
🚀 万趣(Wan-Fun)
万趣(Wan-Fun)是一款文本到视频的生成模型,支持多语言,可根据文本描述生成高质量的视频内容,具有多分辨率训练、支持首尾图预测、多种控制条件等特性。
🚀 快速开始
云使用
a. 通过阿里云 DSW
DSW 有免费 GPU 时间,用户可申请一次,申请后 3 个月内有效。阿里云在Freetier提供免费 GPU 时间,获取并在阿里云 PAI - DSW 中使用,5 分钟内即可启动 CogVideoX - Fun。
b. 通过 ComfyUI
我们的 ComfyUI 界面如下,具体查看ComfyUI README。
c. 通过 docker
使用 docker 的情况下,请保证机器中已经正确安装显卡驱动与 CUDA 环境,然后依次执行以下命令:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git
# enter VideoX-Fun's dir
cd VideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP
本地安装
a. 环境检查
我们已验证该库可在以下环境中执行:
系统 | 操作系统 | Python 版本 | PyTorch 版本 | CUDA 版本 | CUDNN 版本 | GPU |
---|---|---|---|---|---|---|
Windows | Windows 10 | python3.10 & python3.11 | torch2.2.0 | 11.8 & 12.1 | 8+ | Nvidia - 3060 12G & Nvidia - 3090 24G |
Linux | Ubuntu 20.04, CentOS | python3.10 & python3.11 | torch2.2.0 | 11.8 & 12.1 | 8+ | Nvidia - V100 16G & Nvidia - A10 24G & Nvidia - A100 40G & Nvidia - A100 80G |
我们需要大约 60GB 的可用磁盘空间,请检查!
b. 权重放置
我们最好将权重按照指定路径进行放置:
通过 comfyui:
将模型放入 Comfyui 的权重文件夹 ComfyUI/models/Fun_Models/
:
📦 ComfyUI/
├── 📂 models/
│ └── 📂 Fun_Models/
│ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│ ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│ └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
运行自身的 python 文件或 ui 界面:
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│ ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│ └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
├── 📂 Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
✨ 主要特性
- 多分辨率训练:支持多分辨率的视频预测,可生成不同尺寸的视频。
- 首尾图预测:支持根据首尾图生成视频内容。
- 多种控制条件:支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,还支持参考图 + 控制条件进行控制,以及使用轨迹控制。
- 多语言支持:支持多语言预测。
📦 安装指南
可通过云使用(阿里云 DSW、ComfyUI、docker)或本地安装的方式进行部署,具体步骤见快速开始部分。
💻 使用示例
生成视频
a、显存节省方案
由于 Wan2.1 的参数非常大,我们需要考虑显存节省方案,以节省显存适应消费级显卡。我们给每个预测文件都提供了 GPU_memory_mode
,可以在 model_cpu_offload
,model_cpu_offload_and_qfloat8
,sequential_cpu_offload
中进行选择。该方案同样适用于 CogVideoX - Fun 的生成。
model_cpu_offload
代表整个模型在使用后会进入 cpu,可以节省部分显存。model_cpu_offload_and_qfloat8
代表整个模型在使用后会进入 cpu,并且对 transformer 模型进行了 float8 的量化,可以节省更多的显存。sequential_cpu_offload
代表模型的每一层在使用后会进入 cpu,速度较慢,节省大量显存。
qfloat8 会部分降低模型的性能,但可以节省更多的显存。如果显存足够,推荐使用 model_cpu_offload
。
b、通过 comfyui
具体查看ComfyUI README。
c、运行 python 文件
- 步骤 1:下载对应权重放入 models 文件夹。
- 步骤 2:根据不同的权重与预测目标使用不同的文件进行预测。当前该库支持 CogVideoX - Fun、Wan2.1 和 Wan2.1 - Fun,在 examples 文件夹下用文件夹名以区分,不同模型支持的功能不同,请视具体情况予以区分。以 CogVideoX - Fun 为例:
- 文生视频:
- 使用
examples/cogvideox_fun/predict_t2v.py
文件中修改prompt
、neg_prompt
、guidance_scale
和seed
。 - 而后运行
examples/cogvideox_fun/predict_t2v.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos
文件夹中。
- 使用
- 图生视频:
- 使用
examples/cogvideox_fun/predict_i2v.py
文件中修改validation_image_start
、validation_image_end
、prompt
、neg_prompt
、guidance_scale
和seed
。 validation_image_start
是视频的开始图片,validation_image_end
是视频的结尾图片。- 而后运行
examples/cogvideox_fun/predict_i2v.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos_i2v
文件夹中。
- 使用
- 视频生视频:
- 使用
examples/cogvideox_fun/predict_v2v.py
文件中修改validation_video
、validation_image_end
、prompt
、neg_prompt
、guidance_scale
和seed
。 validation_video
是视频生视频的参考视频。您可以使用以下视频运行演示:演示视频- 而后运行
examples/cogvideox_fun/predict_v2v.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos_v2v
文件夹中。
- 使用
- 普通控制生视频(Canny、Pose、Depth 等):
- 使用
examples/cogvideox_fun/predict_v2v_control.py
文件中修改control_video
、validation_image_end
、prompt
、neg_prompt
、guidance_scale
和seed
。 control_video
是控制生视频的控制视频,是使用 Canny、Pose、Depth 等算子提取后的视频。您可以使用以下视频运行演示:演示视频- 而后运行
examples/cogvideox_fun/predict_v2v_control.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos_v2v_control
文件夹中。
- 使用
- 文生视频:
- 步骤 3:如果想结合自己训练的其他 backbone 与 Lora,则看情况修改
examples/{model_name}/predict_t2v.py
中的examples/{model_name}/predict_i2v.py
和lora_path
。
d、通过 ui 界面
webui 支持文生视频、图生视频、视频生视频和普通控制生视频(Canny、Pose、Depth 等)。当前该库支持 CogVideoX - Fun、Wan2.1 和 Wan2.1 - Fun,在 examples 文件夹下用文件夹名以区分,不同模型支持的功能不同,请视具体情况予以区分。以 CogVideoX - Fun 为例:
- 步骤 1:下载对应权重放入 models 文件夹。
- 步骤 2:运行
examples/cogvideox_fun/app.py
文件,进入 gradio 页面。 - 步骤 3:根据页面选择生成模型,填入
prompt
、neg_prompt
、guidance_scale
和seed
等,点击生成,等待生成结果,结果保存在sample
文件夹中。
📚 详细文档
模型地址
V1.1
名称 | 存储空间 | Hugging Face | Model Scope | 描述 |
---|---|---|---|---|
Wan2.1 - Fun - V1.1 - 1.3B - InP | 19.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 1.3B - InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 1.3B - InP) | Wan2.1 - Fun - V1.1 - 1.3B 文图生视频权重,以多分辨率训练,支持首尾图预测。 |
Wan2.1 - Fun - V1.1 - 14B - InP | 47.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 14B - InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 14B - InP) | Wan2.1 - Fun - V1.1 - 14B 文图生视频权重,以多分辨率训练,支持首尾图预测。 |
Wan2.1 - Fun - V1.1 - 1.3B - Control | 19.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 1.3B - Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 1.3B - Control) | Wan2.1 - Fun - V1.1 - 1.3B 视频控制权重支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,支持参考图 + 控制条件进行控制,支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
Wan2.1 - Fun - V1.1 - 14B - Control | 47.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 14B - Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 14B - Control) | Wan2.1 - Fun - V1.1 - 14B 视频控制权重支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,支持参考图 + 控制条件进行控制,支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
Wan2.1 - Fun - V1.1 - 1.3B - Control - Camera | 19.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 1.3B - Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 1.3B - Control) | Wan2.1 - Fun - V1.1 - 1.3B 相机镜头控制权重。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
Wan2.1 - Fun - V1.1 - 14B - Control | 47.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - V1.1 - 14B - Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - V1.1 - 14B - Control) | Wan2.1 - Fun - V1.1 - 14B 相机镜头控制权重。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
V1.0
名称 | 存储空间 | Hugging Face | Model Scope | 描述 |
---|---|---|---|---|
Wan2.1 - Fun - 1.3B - InP | 19.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 1.3B - InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 1.3B - InP) | Wan2.1 - Fun - 1.3B 文图生视频权重,以多分辨率训练,支持首尾图预测。 |
Wan2.1 - Fun - 14B - InP | 47.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 14B - InP) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 14B - InP) | Wan2.1 - Fun - 14B 文图生视频权重,以多分辨率训练,支持首尾图预测。 |
Wan2.1 - Fun - 1.3B - Control | 19.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 1.3B - Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 1.3B - Control) | Wan2.1 - Fun - 1.3B 视频控制权重,支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
Wan2.1 - Fun - 14B - Control | 47.0 GB | [🤗Link](https://huggingface.co/alibaba - pai/Wan2.1 - Fun - 14B - Control) | [😄Link](https://modelscope.cn/models/PAI/Wan2.1 - Fun - 14B - Control) | Wan2.1 - Fun - 14B 视频控制权重,支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
视频作品
Wan2.1 - Fun - V1.1 - 14B - InP && Wan2.1 - Fun - V1.1 - 1.3B - InP
Wan2.1 - Fun - V1.1 - 14B - Control && Wan2.1 - Fun - V1.1 - 1.3B - Control
通用控制视频 + 参考图像:
参考图像 | 控制视频 | Wan2.1 - Fun - V1.1 - 14B - Control | Wan2.1 - Fun - V1.1 - 1.3B - Control |
![]() |
|||
Wan2.1 - Fun - V1.1 - 14B - Control - Camera && Wan2.1 - Fun - V1.1 - 1.3B - Control - Camera
上移 | 左移 | 右移 |
下移 | 上移 + 左移 | 上移 + 右移 |
📄 许可证
本项目采用 Apache License (Version 2.0)。
🔗 参考文献
- CogVideo: https://github.com/THUDM/CogVideo/
- EasyAnimate: https://github.com/aigc-apps/EasyAnimate
- Wan2.1: https://github.com/Wan-Video/Wan2.1/
- ComfyUI - KJNodes: https://github.com/kijai/ComfyUI - KJNodes
- ComfyUI - EasyAnimateWrapper: https://github.com/kijai/ComfyUI - EasyAnimateWrapper
- ComfyUI - CameraCtrl - Wrapper: https://github.com/chaojie/ComfyUI - CameraCtrl - Wrapper
- CameraCtrl: https://github.com/hehao13/CameraCtrl



