Wan2.1-T2V-1.3B開源視頻生成模型 - 支持中英雙語與圖生視頻任務

首頁

Wan2.1 T2V 1.3B

由Isi99999開發

萬2.1是一套全面開放的視頻基礎模型，旨在突破視頻生成的邊界，支持中英雙語文本生成視頻、圖像生成視頻等多種任務。

文本生成視頻支持多種語言開源協議:Apache-2.0 #消費級GPU視頻生成 #中英雙語視頻生成 #高效視頻VAE

下載量 40

發布時間 : 2/27/2025

模型概述

萬2.1是一個先進的視頻生成模型，支持文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多種任務，具有頂尖性能和高效的計算效率。

模型特點

頂尖性能

在多項基準測試中均超越現有開源模型及商業解決方案。

支持消費級GPU

T2V-1.3B模型僅需8.19GB顯存，兼容幾乎所有消費級顯卡。

多任務支持

涵蓋文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻。

視覺文本生成

首個支持中英雙語文本生成的視頻模型，文本生成能力強大。

高效視頻VAE

萬-VAE在編碼解碼任意長度1080P視頻時保持時序信息，為視頻與圖像生成提供理想基礎。

模型能力

文本生成視頻

圖像生成視頻

視頻編輯

文本生成圖像

視頻生成音頻

使用案例

創意視頻製作

擬人化動物視頻

生成擬人化動物行為的視頻，如貓咪拳擊比賽。

生成5秒480P視頻約需4分鐘（RTX 4090）。

教育內容

教學視頻生成

根據文本描述生成教學視頻內容。

🚀 Wan2.1

💜 Wan2.1 是一套全面且開放的視頻基礎模型套件，突破了視頻生成的界限。它具有卓越的性能，支持消費級GPU，能處理多種任務，還具備視覺文本生成能力和強大的視頻VAE，為視頻生成領域帶來了新的發展。

🚀 快速開始

安裝

克隆倉庫：

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安裝依賴：

# 確保 torch >= 2.4.0
pip install -r requirements.txt

模型下載

模型	下載鏈接	說明
T2V-14B	🤗 Huggingface 🤖 ModelScope	支持 480P 和 720P
I2V-14B-720P	🤗 Huggingface 🤖 ModelScope	支持 720P
I2V-14B-480P	🤗 Huggingface 🤖 ModelScope	支持 480P
T2V-1.3B	🤗 Huggingface 🤖 ModelScope	支持 480P

⚠️ 重要提示

1.3B 模型能夠生成 720P 分辨率的視頻。然而，由於在該分辨率下的訓練有限，與 480P 相比，結果通常不太穩定。為獲得最佳性能，建議使用 480P 分辨率。

使用 🤗 huggingface-cli 下載模型：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

使用 🤖 modelscope-cli 下載模型：

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

運行文本到視頻生成

本倉庫支持兩個文本到視頻模型（1.3B 和 14B）和兩種分辨率（480P 和 720P）。這些模型的參數和配置如下：

任務	480P	720P	模型
t2v-14B	✔️	✔️	Wan2.1-T2V-14B
t2v-1.3B	✔️	❌	Wan2.1-T2V-1.3B

（1）不使用提示擴展

為便於實現，我們從跳過提示擴展步驟的基本推理過程開始。

單 GPU 推理

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（內存不足）問題，可以使用 --offload_model True 和 --t5_cpu 選項來減少 GPU 內存使用。例如，在 RTX 4090 GPU 上：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

💡 使用建議

如果使用 T2V-1.3B 模型，建議將參數 --sample_guide_scale 設置為 6。--sample_shift 參數可以根據性能在 8 到 12 的範圍內進行調整。

使用 FSDP + xDiT USP 進行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

（2）使用提示擴展

擴展提示可以有效豐富生成視頻中的細節，進一步提高視頻質量。因此，我們建議啟用提示擴展。我們提供以下兩種提示擴展方法：

使用 Dashscope API 進行擴展
- 提前申請 dashscope.api_key (英文 | 中文)。
- 配置環境變量 DASH_API_KEY 以指定 Dashscope API 密鑰。對於阿里雲國際站的用戶，還需要將環境變量 DASH_API_URL 設置為 'https://dashscope-intl.aliyuncs.com/api/v1'。有關更詳細的說明，請參閱 dashscope 文檔。
- 對於文本到視頻任務使用 qwen-plus 模型，對於圖像到視頻任務使用 qwen-vl-max 模型。
- 可以使用參數 --prompt_extend_model 修改用於擴展的模型。例如：

DASH_API_KEY=your_key python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

使用本地模型進行擴展
- 默認情況下，使用 HuggingFace 上的 Qwen 模型進行此擴展。用戶可以根據可用的 GPU 內存大小進行選擇。
- 對於文本到視頻任務，可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
- 對於圖像到視頻任務，可以使用 Qwen/Qwen2.5-VL-7B-Instruct 和 Qwen/Qwen2.5-VL-3B-Instruct 等模型。
- 較大的模型通常提供更好的擴展結果，但需要更多的 GPU 內存。
- 可以使用參數 --prompt_extend_model 修改用於擴展的模型，允許指定本地模型路徑或 Hugging Face 模型。例如：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

（3）運行本地 Gradio

cd gradio
# 如果使用 Dashscope 的 API 進行提示擴展
DASH_API_KEY=your_key python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-1.3B

# 如果使用本地模型進行提示擴展
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-1.3B

✨ 主要特性

👍 SOTA 性能：Wan2.1 在多個基準測試中始終優於現有的開源模型和最先進的商業解決方案。
👍 支持消費級 GPU：T2V-1.3B 模型僅需 8.19 GB VRAM，幾乎與所有消費級 GPU 兼容。它可以在 RTX 4090 上約 4 分鐘內生成一個 5 秒的 480P 視頻（不使用量化等優化技術）。其性能甚至可與一些閉源模型相媲美。
👍 多任務支持：Wan2.1 在文本到視頻、圖像到視頻、視頻編輯、文本到圖像和視頻到音頻等任務中表現出色，推動了視頻生成領域的發展。
👍 視覺文本生成：Wan2.1 是第一個能夠生成中文和英文文本的視頻模型，具有強大的文本生成能力，增強了其實用性。
👍 強大的視頻 VAE：Wan-VAE 具有出色的效率和性能，能夠對任意長度的 1080P 視頻進行編碼和解碼，同時保留時間信息，非常適合視頻生成任務。

📚 詳細文檔

模型評估

我們使用 Wan-Bench 框架評估 T2V-1.3B 模型的性能，結果如下表所示。結果表明，我們較小的 1.3B 模型在整體指標上超過了較大的開源模型，證明了 WanX2.1 架構和數據構建管道的有效性。

評估結果

不同 GPU 上的計算效率

我們在不同 GPU 上測試了不同 Wan2.1 模型的計算效率，結果如下表所示。結果以 總時間 (s) / 峰值 GPU 內存 (GB) 的格式呈現。

計算效率

⚠️ 重要提示

本表格中測試的參數設置如下： (1) 對於 8 個 GPU 上的 1.3B 模型，設置 --ring_size 8 和 --ulysses_size 1； (2) 對於 1 個 GPU 上的 14B 模型，使用 --offload_model True； (3) 對於單個 4090 GPU 上的 1.3B 模型，設置 --offload_model True --t5_cpu； (4) 對於所有測試，均未應用提示擴展，即未啟用 --use_prompt_extend。

Wan2.1 介紹

Wan2.1 基於主流的擴散變壓器範式設計，通過一系列創新在生成能力方面取得了顯著進展。這些創新包括我們新穎的時空變分自編碼器（VAE）、可擴展的訓練策略、大規模數據構建和自動化評估指標。這些貢獻共同提升了模型的性能和通用性。

（1）3D 變分自編碼器

我們提出了一種新穎的 3D 因果 VAE 架構，稱為 Wan-VAE，專門為視頻生成設計。通過結合多種策略，我們提高了時空壓縮率，減少了內存使用，並確保了時間因果性。Wan-VAE 與其他開源 VAE 相比，在性能效率方面顯示出顯著優勢。此外，我們的 Wan-VAE 可以對無限長度的 1080P 視頻進行編碼和解碼，而不會丟失歷史時間信息，特別適合視頻生成任務。

3D VAE

（2）視頻擴散 DiT

Wan2.1 在主流擴散變壓器範式內使用流匹配框架進行設計。我們的模型架構使用 T5 編碼器對多語言文本輸入進行編碼，每個變壓器塊中的交叉注意力將文本嵌入到模型結構中。此外，我們使用一個帶有線性層和 SiLU 層的 MLP 來處理輸入時間嵌入並分別預測六個調製參數。這個 MLP 在所有變壓器塊中共享，每個塊學習一組不同的偏差。我們的實驗結果表明，在相同的參數規模下，這種方法顯著提高了性能。

視頻擴散 DiT

模型	維度	輸入維度	輸出維度	前饋維度	頻率維度	頭數	層數
1.3B	1536	16	16	8960	256	12	30
14B	5120	16	16	13824	256	40	40

數據

我們精心策劃並去重了一個包含大量圖像和視頻數據的候選數據集。在數據策劃過程中，我們設計了一個四步數據清理過程，重點關注基本維度、視覺質量和運動質量。通過強大的數據處理管道，我們可以輕鬆獲得高質量、多樣化和大規模的圖像和視頻訓練集。

數據處理

與 SOTA 模型的比較

我們將 Wan2.1 與領先的開源和閉源模型進行了比較，以評估其性能。使用我們精心設計的 1035 個內部提示集，我們在 14 個主要維度和 26 個子維度上進行了測試。然後根據每個維度的重要性通過加權平均計算總分。詳細結果如下表所示。這些結果表明，我們的模型與開源和閉源模型相比具有優越的性能。

與 SOTA 模型比較

🔧 技術細節

3D 變分自編碼器

我們提出的 Wan-VAE 是一種專門為視頻生成設計的 3D 因果 VAE 架構。它結合了多種策略，提高了時空壓縮率，減少了內存使用，並確保了時間因果性。與其他開源 VAE 相比，Wan-VAE 在性能效率方面具有顯著優勢。它能夠對無限長度的 1080P 視頻進行編碼和解碼，而不會丟失歷史時間信息，非常適合視頻生成任務。

視頻擴散 DiT

Wan2.1 在主流擴散變壓器範式內使用流匹配框架進行設計。模型架構使用 T5 編碼器對多語言文本輸入進行編碼，每個變壓器塊中的交叉注意力將文本嵌入到模型結構中。此外，使用一個帶有線性層和 SiLU 層的 MLP 來處理輸入時間嵌入並分別預測六個調製參數。這個 MLP 在所有變壓器塊中共享，每個塊學習一組不同的偏差。實驗結果表明，在相同的參數規模下，這種方法顯著提高了性能。

📄 許可證

本倉庫中的模型遵循 Apache 2.0 許可證。我們對您生成的內容不主張任何權利，允許您自由使用它們，但請確保您的使用符合本許可證的規定。您對模型的使用負全部責任，不得共享任何違反適用法律、對個人或群體造成傷害、傳播用於傷害的個人信息、傳播錯誤信息或針對弱勢群體的內容。有關完整的限制列表和您的權利詳情，請參閱許可證的全文。

致謝

我們感謝 SD3、Qwen、umt5-xxl、diffusers 和 HuggingFace 倉庫的貢獻者，感謝他們的開放研究。

聯繫我們

如果您想給我們的研究或產品團隊留言，請隨時加入我們的 Discord 或微信群！

引用

如果您覺得我們的工作有幫助，請引用我們：

@article{wan2.1,
    title   = {Wan: Open and Advanced Large-Scale Video Generative Models},
    author  = {Wan Team},
    journal = {},
    year    = {2025}
}