モデル概要
モデル特徴
モデル能力
使用事例
🚀 Wan2.1
Wan2.1は、ビデオ生成の限界を押し広げる包括的でオープンなビデオ基礎モデルのセットです。このモデルは、以下のような主要な特徴を備えています。
- 👍 最先端の性能:複数のベンチマークで、既存のオープンソースモデルや最先端の商用ソリューションを上回る性能を発揮します。
- 👍 消費者向けGPUに対応:T2V - 1.3Bモデルは、わずか8.19GBのVRAMしか必要とせず、ほぼすべての消費者向けGPUと互換性があります。RTX 4090では、約4分で5秒の480Pビデオを生成できます(量子化などの最適化技術を使用せず)。その性能は、一部のクローズソースモデルに匹敵します。
- 👍 複数のタスクに対応:テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオから音声など、幅広いタスクで優れた性能を発揮します。
- 👍 視覚的なテキスト生成:中国語と英語のテキストを生成できる初のビデオモデルで、強力なテキスト生成機能により、実用性が向上します。
- 👍 強力なビデオVAE:Wan - VAEは、例外的な効率と性能を提供し、時間的情報を保持しながら、任意の長さの1080Pビデオをエンコードおよびデコードできます。これは、ビデオおよび画像生成の理想的な基盤となります。
💜 Wan    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 Paper (Coming soon)    |    📑 Blog    |   💬 WeChat Group   |    📖 Discord  
✨ 主な機能
- 最先端のビデオ生成性能を持ち、既存のオープンソースモデルや商用ソリューションを上回ります。
- 消費者向けGPUでも動作可能で、T2V - 1.3Bモデルは8.19GBのVRAMしか必要としません。
- テキストからビデオ、画像からビデオなど、複数のタスクに対応しています。
- 中国語と英語のテキスト生成機能を備えています。
- 強力なビデオVAEであるWan - VAEを搭載し、任意の長さの1080Pビデオをエンコードおよびデコードできます。
🚀 クイックスタート
📦 インストール
リポジトリをクローンします。
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
依存関係をインストールします。
# Ensure torch >= 2.4.0
pip install -r requirements.txt
モデルのダウンロード
モデル | ダウンロードリンク | 注意事項 |
---|---|---|
T2V - 14B | 🤗 Huggingface 🤖 ModelScope | 480Pと720Pの両方に対応 |
I2V - 14B - 720P | 🤗 Huggingface 🤖 ModelScope | 720Pに対応 |
I2V - 14B - 480P | 🤗 Huggingface 🤖 ModelScope | 480Pに対応 |
T2V - 1.3B | 🤗 Huggingface 🤖 ModelScope | 480Pに対応 |
💡注意: 1.3Bモデルは720P解像度のビデオ生成も可能ですが、この解像度での学習が限られているため、結果は一般的に480Pよりも安定性が低くなります。最適な性能を得るためには、480P解像度を使用することをお勧めします。
🤗 huggingface - cliを使用してモデルをダウンロードします。
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
🤖 modelscope - cliを使用してモデルをダウンロードします。
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B
テキストからビデオの生成を実行する
このリポジトリは、2つのテキストからビデオのモデル(1.3Bと14B)と2つの解像度(480Pと720P)をサポートしています。これらのモデルのパラメータと設定は以下の通りです。
タスク | 480P | 720P | モデル |
---|---|---|---|
t2v - 14B | ✔️ | ✔️ | Wan2.1 - T2V - 14B |
t2v - 1.3B | ✔️ | ❌ | Wan2.1 - T2V - 1.3B |
(1) プロンプト拡張を使用しない場合
実装を容易にするために、プロンプト拡張のステップをスキップした基本バージョンの推論プロセスから始めます。
- シングルGPUでの推論
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
OOM(メモリ不足)の問題が発生した場合は、--offload_model True
と--t5_cpu
オプションを使用して、GPUメモリの使用量を減らすことができます。例えば、RTX 4090 GPUでは以下のようにします。
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
💡注意:
T2V - 1.3B
モデルを使用する場合は、パラメータ--sample_guide_scale
を6に設定することをお勧めします。--sample_shift
パラメータは、性能に応じて8から12の範囲で調整できます。
- FSDP + xDiT USPを使用したマルチGPUでの推論
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
(2) プロンプト拡張を使用する場合
プロンプトを拡張することで、生成されるビデオの詳細を効果的に豊かにし、ビデオの品質をさらに向上させることができます。したがって、プロンプト拡張を有効にすることをお勧めします。以下の2つの方法でプロンプトを拡張できます。
- Dashscope APIを使用して拡張する
- 事前に
dashscope.api_key
を申請してください(EN | CN)。 - 環境変数
DASH_API_KEY
を設定して、Dashscope APIキーを指定します。Alibaba Cloudの国際サイトのユーザーは、環境変数DASH_API_URL
を'https://dashscope-intl.aliyuncs.com/api/v1'に設定する必要もあります。詳細な手順については、dashscopeドキュメントを参照してください。 - テキストからビデオのタスクには
qwen - plus
モデルを、画像からビデオのタスクにはqwen - vl - max
モデルを使用します。 - パラメータ
--prompt_extend_model
で拡張に使用するモデルを変更できます。例えば:
- 事前に
DASH_API_KEY=your_key python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
- ローカルモデルを使用して拡張する
- デフォルトでは、HuggingFaceのQwenモデルが拡張に使用されます。ユーザーは、利用可能なGPUメモリのサイズに基づいて選択できます。
- テキストからビデオのタスクには、
Qwen/Qwen2.5 - 14B - Instruct
、Qwen/Qwen2.5 - 7B - Instruct
、Qwen/Qwen2.5 - 3B - Instruct
などのモデルを使用できます。 - 画像からビデオのタスクには、
Qwen/Qwen2.5 - VL - 7B - Instruct
、Qwen/Qwen2.5 - VL - 3B - Instruct
などのモデルを使用できます。 - 一般的に、大きなモデルはより良い拡張結果を提供しますが、より多くのGPUメモリを必要とします。
- パラメータ
--prompt_extend_model
で拡張に使用するモデルを変更でき、ローカルモデルのパスまたはHugging Faceのモデルを指定できます。例えば:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
(3) ローカルのGradioを実行する
cd gradio
# DashscopeのAPIを使用してプロンプトを拡張する場合
DASH_API_KEY=your_key python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-1.3B
# ローカルモデルを使用してプロンプトを拡張する場合
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-1.3B
評価
Wan - Benchフレームワークを使用して、T2V - 1.3Bモデルの性能を評価しました。結果は以下の表に示されています。これらの結果は、私たちの小さな1.3Bモデルが、より大きなオープンソースモデルの全体的な指標を上回っていることを示しており、WanX2.1のアーキテクチャとデータ構築パイプラインの有効性を実証しています。

異なるGPUでの計算効率
以下の表は、異なるWan2.1モデルの異なるGPUでの計算効率を示しています。結果は**総時間 (s) / ピークGPUメモリ (GB)**の形式で表示されています。

この表に示されているテストのパラメータ設定は以下の通りです。 (1) 8つのGPUでの1.3Bモデルの場合、
--ring_size 8
と--ulysses_size 1
を設定します。 (2) 1つのGPUでの14Bモデルの場合、--offload_model True
を使用します。 (3) 単一の4090 GPUでの1.3Bモデルの場合、--offload_model True --t5_cpu
を設定します。 (4) すべてのテストで、プロンプト拡張は適用されておらず、--use_prompt_extend
は有効にされていません。
🔧 技術詳細
(1) 3D変分オートエンコーダ
ビデオ生成に特化した新しい3D因果VAEアーキテクチャであるWan - VAEを提案します。複数の戦略を組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的因果関係を保証します。Wan - VAEは、他のオープンソースVAEと比較して、性能効率において大きな優位性を示しています。さらに、Wan - VAEは、無制限の長さの1080Pビデオを、過去の時間的情報を失うことなくエンコードおよびデコードできるため、ビデオ生成タスクに特に適しています。

(2) ビデオ拡散DiT
Wan2.1は、主流の拡散トランスフォーマーパラダイム内のFlow Matchingフレームワークを使用して設計されています。モデルのアーキテクチャは、T5エンコーダを使用して多言語テキスト入力をエンコードし、各トランスフォーマーブロックのクロスアテンションによってテキストをモデル構造に埋め込みます。さらに、線形層とSiLU層を持つMLPを使用して、入力時間埋め込みを処理し、6つの変調パラメータを個別に予測します。このMLPはすべてのトランスフォーマーブロックで共有され、各ブロックは独自のバイアスセットを学習します。実験結果は、同じパラメータ規模でこのアプローチによる大幅な性能向上を明らかにしています。

モデル | 次元 | 入力次元 | 出力次元 | フィードフォワード次元 | 周波数次元 | ヘッド数 | レイヤー数 |
---|---|---|---|---|---|---|---|
1.3B | 1536 | 16 | 16 | 8960 | 256 | 12 | 30 |
14B | 5120 | 16 | 16 | 13824 | 256 | 40 | 40 |
データ
大量の画像とビデオデータからなる候補データセットを選別し、重複を削除しました。データ選別プロセスでは、基本的な次元、視覚的品質、動き品質に焦点を当てた4段階のデータクリーニングプロセスを設計しました。強力なデータ処理パイプラインにより、高品質、多様性、大規模な画像とビデオのトレーニングセットを簡単に取得できます。
SOTAとの比較
Wan2.1を主要なオープンソースおよびクローズソースモデルと比較して、性能を評価しました。私たちが注意深く設計した1,035の内部プロンプトを使用して、14の主要な次元と26のサブ次元でテストを行いました。その後、各次元の重要度に基づく加重平均によって総得点を計算しました。詳細な結果は以下の表に示されています。これらの結果は、私たちのモデルがオープンソースおよびクローズソースモデルの両方と比較して優れた性能を示していることを実証しています。
📄 ライセンス
このリポジトリ内のモデルは、Apache 2.0ライセンスの下で提供されています。生成されたコンテンツに対して私たちは一切の権利を主張せず、あなたがそれらを自由に使用できるようにしますが、その使用はこのライセンスの規定に準拠する必要があります。あなたは、モデルの使用について完全な責任を負い、適用される法律に違反するコンテンツの共有、個人やグループへの危害を引き起こす行為、危害を目的とした個人情報の散布、誤情報の拡散、脆弱な集団を標的とする行為などを行ってはなりません。制限事項の完全なリストとあなたの権利に関する詳細については、ライセンスの全文を参照してください。
謝辞
SD3、Qwen、umt5 - xxl、diffusers、HuggingFaceリポジトリの貢献者たちのオープンな研究に感謝します。
お問い合わせ
私たちの研究や製品チームにメッセージを残したい場合は、DiscordまたはWeChatグループに参加してください!
引用
もし私たちの研究が役に立った場合は、以下のように引用してください。
@article{wan2.1,
title = {Wan: Open and Advanced Large-Scale Video Generative Models},
author = {Wan Team},
journal = {},
year = {2025}
}



