Wan2.1 Fun 14B InP
阿里云PAI团队开发的文本生成视频模型,支持多分辨率训练及首尾帧预测
下载量 7,011
发布时间 : 3/17/2025
模型简介
基于Diffusion Transformer架构的视频生成模型,可将文本描述转换为动态视频内容,支持中英文输入
模型特点
多分辨率支持
支持512/768/1024等多种分辨率视频生成
首尾帧预测
可通过指定首尾帧实现视频内容的精准控制
多语言输入
支持中英文文本提示词输入
模型能力
文本生成视频
图像生成视频
视频风格转换
多分辨率视频生成
使用案例
创意内容生成
短视频创作
根据文字描述自动生成创意短视频
可生成16fps/81帧的动态视频
广告制作
产品展示视频
通过文本描述快速生成产品演示视频
支持多角度展示和动态效果
🚀 Wan-Fun
😊 欢迎!Wan-Fun 是一款专注于文图生视频的工具,支持多分辨率训练与首尾图预测,还能通过不同控制条件生成视频,为视频创作带来更多可能。
🚀 快速开始
1. 云使用: AliyunDSW/Docker
a. 通过阿里云 DSW
DSW 有免费 GPU 时间,用户可申请一次,申请后 3 个月内有效。
阿里云在Freetier提供免费 GPU 时间,获取并在阿里云 PAI - DSW 中使用,5 分钟内即可启动 CogVideoX - Fun。
b. 通过 ComfyUI
我们的 ComfyUI 界面如下,具体查看ComfyUI README。
c. 通过 docker
使用 docker 的情况下,请保证机器中已经正确安装显卡驱动与 CUDA 环境,然后以此执行以下命令:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# enter CogVideoX-Fun's dir
cd CogVideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP
2. 本地安装: 环境检查/下载/安装
a. 环境检查
我们已验证该库可在以下环境中执行:
Windows 的详细信息:
- 操作系统 Windows 10
- python: python3.10 & python3.11
- pytorch: torch2.2.0
- CUDA: 11.8 & 12.1
- CUDNN: 8+
- GPU: Nvidia - 3060 12G & Nvidia - 3090 24G
Linux 的详细信息:
- 操作系统 Ubuntu 20.04, CentOS
- python: python3.10 & python3.11
- pytorch: torch2.2.0
- CUDA: 11.8 & 12.1
- CUDNN: 8+
- GPU:Nvidia - V100 16G & Nvidia - A10 24G & Nvidia - A100 40G & Nvidia - A100 80G
我们需要大约 60GB 的可用磁盘空间,请检查!
b. 权重放置
我们最好将权重按照指定路径进行放置:
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│ ├── 📂 Wan2.1-Fun-14B-InP
│ └── 📂 Wan2.1-Fun-1.3B-InP/
├── 📂 Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
✨ 主要特性
- 多分辨率训练:支持多分辨率训练,能生成不同规格的视频。
- 首尾图预测:支持首尾图预测,为视频创作提供更多灵活性。
- 多控制条件:支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,还支持使用轨迹控制。
- 多语言预测:支持多语言预测,满足不同用户的需求。
📦 安装指南
云使用
- 阿里云 DSW:可申请免费 GPU 时间,在阿里云 PAI - DSW 中 5 分钟内启动 CogVideoX - Fun。
- ComfyUI:查看ComfyUI README了解具体使用方法。
- Docker:确保机器安装显卡驱动与 CUDA 环境,按上述 Docker 命令操作。
本地安装
- 环境检查:确保系统环境符合 Windows 或 Linux 的要求,且有 60GB 可用磁盘空间。
- 权重放置:将权重按指定路径放置在
models
文件夹中。
💻 使用示例
基础用法
生成视频
由于 Wan2.1 的参数非常大,我们需要考虑显存节省方案,以节省显存适应消费级显卡。我们给每个预测文件都提供了 GPU_memory_mode,可以在 model_cpu_offload,model_cpu_offload_and_qfloat8,sequential_cpu_offload 中进行选择。该方案同样适用于 CogVideoX - Fun 的生成。
- model_cpu_offload 代表整个模型在使用后会进入 cpu,可以节省部分显存。
- model_cpu_offload_and_qfloat8 代表整个模型在使用后会进入 cpu,并且对 transformer 模型进行了 float8 的量化,可以节省更多的显存。
- sequential_cpu_offload 代表模型的每一层在使用后会进入 cpu,速度较慢,节省大量显存。
qfloat8 会部分降低模型的性能,但可以节省更多的显存。如果显存足够,推荐使用 model_cpu_offload。
通过 comfyui
具体查看ComfyUI README。
运行 python 文件
以 CogVideoX - Fun 为例:
- 文生视频:
- 使用
examples/cogvideox_fun/predict_t2v.py
文件中修改 prompt、neg_prompt、guidance_scale 和 seed。 - 而后运行
examples/cogvideox_fun/predict_t2v.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos
文件夹中。
- 使用
- 图生视频:
- 使用
examples/cogvideox_fun/predict_i2v.py
文件中修改 validation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。 - validation_image_start 是视频的开始图片,validation_image_end 是视频的结尾图片。
- 而后运行
examples/cogvideox_fun/predict_i2v.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos_i2v
文件夹中。
- 使用
- 视频生视频:
- 使用
examples/cogvideox_fun/predict_v2v.py
文件中修改 validation_video、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。 - validation_video 是视频生视频的参考视频。您可以使用以下视频运行演示:演示视频
- 而后运行
examples/cogvideox_fun/predict_v2v.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos_v2v
文件夹中。
- 使用
- 普通控制生视频(Canny、Pose、Depth 等):
- 使用
examples/cogvideox_fun/predict_v2v_control.py
文件中修改 control_video、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。 - control_video 是控制生视频的控制视频,是使用 Canny、Pose、Depth 等算子提取后的视频。您可以使用以下视频运行演示:演示视频
- 而后运行
examples/cogvideox_fun/predict_v2v_control.py
文件,等待生成结果,结果保存在samples/cogvideox - fun - videos_v2v_control
文件夹中。
- 使用
通过 ui 界面
以 CogVideoX - Fun 为例:
- 下载对应权重放入 models 文件夹。
- 运行
examples/cogvideox_fun/app.py
文件,进入 gradio 页面。 - 根据页面选择生成模型,填入 prompt、neg_prompt、guidance_scale 和 seed 等,点击生成,等待生成结果,结果保存在 sample 文件夹中。
📚 详细文档
模型地址
V1.0:
名称 | 存储空间 | Hugging Face | Model Scope | 描述 |
---|---|---|---|---|
Wan2.1 - Fun - 1.3B - InP | 19.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 1.3B 文图生视频权重,以多分辨率训练,支持首尾图预测。 |
Wan2.1 - Fun - 14B - InP | 47.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 14B 文图生视频权重,以多分辨率训练,支持首尾图预测。 |
Wan2.1 - Fun - 1.3B - Control | 19.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 1.3B 视频控制权重,支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
Wan2.1 - Fun - 14B - Control | 47.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 14B 视频控制权重,支持不同的控制条件,如 Canny、Depth、Pose、MLSD 等,同时支持使用轨迹控制。支持多分辨率(512,768,1024)的视频预测,以 81 帧、每秒 16 帧进行训练,支持多语言预测 |
视频作品
Wan2.1 - Fun - 14B - InP && Wan2.1 - Fun - 1.3B - InP
Wan2.1 - Fun - 14B - Control && Wan2.1 - Fun - 1.3B - Control
📄 许可证
本项目采用 Apache License (Version 2.0).
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers 英语

X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频 英语
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用于文本到视频的生成任务。
文本生成视频
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频 英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频 英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers 英语

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频 支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频 支持多种语言
W
Wan-AI
44.88k
1,238
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98