Wan2.1 Fun 14B InP
阿里雲PAI團隊開發的文本生成視頻模型,支持多分辨率訓練及首尾幀預測
下載量 7,011
發布時間 : 3/17/2025
模型概述
基於Diffusion Transformer架構的視頻生成模型,可將文本描述轉換為動態視頻內容,支持中英文輸入
模型特點
多分辨率支持
支持512/768/1024等多種分辨率視頻生成
首尾幀預測
可通過指定首尾幀實現視頻內容的精準控制
多語言輸入
支持中英文文本提示詞輸入
模型能力
文本生成視頻
圖像生成視頻
視頻風格轉換
多分辨率視頻生成
使用案例
創意內容生成
短視頻創作
根據文字描述自動生成創意短視頻
可生成16fps/81幀的動態視頻
廣告製作
產品展示視頻
通過文本描述快速生成產品演示視頻
支持多角度展示和動態效果
🚀 Wan-Fun
😊 歡迎!Wan-Fun 是一款專注於文圖生視頻的工具,支持多分辨率訓練與首尾圖預測,還能通過不同控制條件生成視頻,為視頻創作帶來更多可能。
🚀 快速開始
1. 雲使用: AliyunDSW/Docker
a. 通過阿里雲 DSW
DSW 有免費 GPU 時間,用戶可申請一次,申請後 3 個月內有效。
阿里雲在Freetier提供免費 GPU 時間,獲取並在阿里雲 PAI - DSW 中使用,5 分鐘內即可啟動 CogVideoX - Fun。
b. 通過 ComfyUI
我們的 ComfyUI 界面如下,具體查看ComfyUI README。
c. 通過 docker
使用 docker 的情況下,請保證機器中已經正確安裝顯卡驅動與 CUDA 環境,然後以此執行以下命令:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# enter CogVideoX-Fun's dir
cd CogVideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP
2. 本地安裝: 環境檢查/下載/安裝
a. 環境檢查
我們已驗證該庫可在以下環境中執行:
Windows 的詳細信息:
- 操作系統 Windows 10
- python: python3.10 & python3.11
- pytorch: torch2.2.0
- CUDA: 11.8 & 12.1
- CUDNN: 8+
- GPU: Nvidia - 3060 12G & Nvidia - 3090 24G
Linux 的詳細信息:
- 操作系統 Ubuntu 20.04, CentOS
- python: python3.10 & python3.11
- pytorch: torch2.2.0
- CUDA: 11.8 & 12.1
- CUDNN: 8+
- GPU:Nvidia - V100 16G & Nvidia - A10 24G & Nvidia - A100 40G & Nvidia - A100 80G
我們需要大約 60GB 的可用磁盤空間,請檢查!
b. 權重放置
我們最好將權重按照指定路徑進行放置:
📦 models/
├── 📂 Diffusion_Transformer/
│ ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│ ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│ ├── 📂 Wan2.1-Fun-14B-InP
│ └── 📂 Wan2.1-Fun-1.3B-InP/
├── 📂 Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
✨ 主要特性
- 多分辨率訓練:支持多分辨率訓練,能生成不同規格的視頻。
- 首尾圖預測:支持首尾圖預測,為視頻創作提供更多靈活性。
- 多控制條件:支持不同的控制條件,如 Canny、Depth、Pose、MLSD 等,還支持使用軌跡控制。
- 多語言預測:支持多語言預測,滿足不同用戶的需求。
📦 安裝指南
雲使用
- 阿里雲 DSW:可申請免費 GPU 時間,在阿里雲 PAI - DSW 中 5 分鐘內啟動 CogVideoX - Fun。
- ComfyUI:查看ComfyUI README瞭解具體使用方法。
- Docker:確保機器安裝顯卡驅動與 CUDA 環境,按上述 Docker 命令操作。
本地安裝
- 環境檢查:確保系統環境符合 Windows 或 Linux 的要求,且有 60GB 可用磁盤空間。
- 權重放置:將權重按指定路徑放置在
models
文件夾中。
💻 使用示例
基礎用法
生成視頻
由於 Wan2.1 的參數非常大,我們需要考慮顯存節省方案,以節省顯存適應消費級顯卡。我們給每個預測文件都提供了 GPU_memory_mode,可以在 model_cpu_offload,model_cpu_offload_and_qfloat8,sequential_cpu_offload 中進行選擇。該方案同樣適用於 CogVideoX - Fun 的生成。
- model_cpu_offload 代表整個模型在使用後會進入 cpu,可以節省部分顯存。
- model_cpu_offload_and_qfloat8 代表整個模型在使用後會進入 cpu,並且對 transformer 模型進行了 float8 的量化,可以節省更多的顯存。
- sequential_cpu_offload 代表模型的每一層在使用後會進入 cpu,速度較慢,節省大量顯存。
qfloat8 會部分降低模型的性能,但可以節省更多的顯存。如果顯存足夠,推薦使用 model_cpu_offload。
通過 comfyui
具體查看ComfyUI README。
運行 python 文件
以 CogVideoX - Fun 為例:
- 文生視頻:
- 使用
examples/cogvideox_fun/predict_t2v.py
文件中修改 prompt、neg_prompt、guidance_scale 和 seed。 - 而後運行
examples/cogvideox_fun/predict_t2v.py
文件,等待生成結果,結果保存在samples/cogvideox - fun - videos
文件夾中。
- 使用
- 圖生視頻:
- 使用
examples/cogvideox_fun/predict_i2v.py
文件中修改 validation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。 - validation_image_start 是視頻的開始圖片,validation_image_end 是視頻的結尾圖片。
- 而後運行
examples/cogvideox_fun/predict_i2v.py
文件,等待生成結果,結果保存在samples/cogvideox - fun - videos_i2v
文件夾中。
- 使用
- 視頻生視頻:
- 使用
examples/cogvideox_fun/predict_v2v.py
文件中修改 validation_video、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。 - validation_video 是視頻生視頻的參考視頻。您可以使用以下視頻運行演示:演示視頻
- 而後運行
examples/cogvideox_fun/predict_v2v.py
文件,等待生成結果,結果保存在samples/cogvideox - fun - videos_v2v
文件夾中。
- 使用
- 普通控制生視頻(Canny、Pose、Depth 等):
- 使用
examples/cogvideox_fun/predict_v2v_control.py
文件中修改 control_video、validation_image_end、prompt、neg_prompt、guidance_scale 和 seed。 - control_video 是控制生視頻的控制視頻,是使用 Canny、Pose、Depth 等算子提取後的視頻。您可以使用以下視頻運行演示:演示視頻
- 而後運行
examples/cogvideox_fun/predict_v2v_control.py
文件,等待生成結果,結果保存在samples/cogvideox - fun - videos_v2v_control
文件夾中。
- 使用
通過 ui 界面
以 CogVideoX - Fun 為例:
- 下載對應權重放入 models 文件夾。
- 運行
examples/cogvideox_fun/app.py
文件,進入 gradio 頁面。 - 根據頁面選擇生成模型,填入 prompt、neg_prompt、guidance_scale 和 seed 等,點擊生成,等待生成結果,結果保存在 sample 文件夾中。
📚 詳細文檔
模型地址
V1.0:
名稱 | 存儲空間 | Hugging Face | Model Scope | 描述 |
---|---|---|---|---|
Wan2.1 - Fun - 1.3B - InP | 19.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 1.3B 文圖生視頻權重,以多分辨率訓練,支持首尾圖預測。 |
Wan2.1 - Fun - 14B - InP | 47.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 14B 文圖生視頻權重,以多分辨率訓練,支持首尾圖預測。 |
Wan2.1 - Fun - 1.3B - Control | 19.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 1.3B 視頻控制權重,支持不同的控制條件,如 Canny、Depth、Pose、MLSD 等,同時支持使用軌跡控制。支持多分辨率(512,768,1024)的視頻預測,以 81 幀、每秒 16 幀進行訓練,支持多語言預測 |
Wan2.1 - Fun - 14B - Control | 47.0 GB | 🤗Link | 😄Link | Wan2.1 - Fun - 14B 視頻控制權重,支持不同的控制條件,如 Canny、Depth、Pose、MLSD 等,同時支持使用軌跡控制。支持多分辨率(512,768,1024)的視頻預測,以 81 幀、每秒 16 幀進行訓練,支持多語言預測 |
視頻作品
Wan2.1 - Fun - 14B - InP && Wan2.1 - Fun - 1.3B - InP
Wan2.1 - Fun - 14B - Control && Wan2.1 - Fun - 1.3B - Control
📄 許可證
本項目採用 Apache License (Version 2.0).
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98