モデル概要
モデル特徴
モデル能力
使用事例
🚀 Wan2.1
💜 Wan2.1は、ビデオ生成の限界を押し広げる包括的でオープンなビデオ基礎モデルのセットです。このモデルは、最先端の性能、消費者向けGPUへの対応、複数のタスクサポート、視覚的なテキスト生成機能、強力なビデオVAEを備えています。
💜 Wan    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 Paper (Coming soon)    |    📑 Blog    |   💬 WeChat Group   |    📖 Discord  
🚀 クイックスタート
インストール
リポジトリをクローンします。
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
依存関係をインストールします。
# Ensure torch >= 2.4.0
pip install -r requirements.txt
モデルのダウンロード
モデル | ダウンロードリンク | 注意事項 |
---|---|---|
T2V-14B | 🤗 Huggingface 🤖 ModelScope | 480Pと720Pの両方をサポート |
I2V-14B-720P | 🤗 Huggingface 🤖 ModelScope | 720Pをサポート |
I2V-14B-480P | 🤗 Huggingface 🤖 ModelScope | 480Pをサポート |
T2V-1.3B | 🤗 Huggingface 🤖 ModelScope | 480Pをサポート |
💡 注意: 1.3Bモデルは720P解像度のビデオ生成も可能ですが、この解像度での学習が限られているため、480Pと比較して結果は一般的に安定性が低くなります。最適なパフォーマンスを得るには、480P解像度を使用することをお勧めします。
🤗 huggingface-cliを使用してモデルをダウンロードします。
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
🤖 modelscope-cliを使用してモデルをダウンロードします。
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B
テキストからビデオ生成を実行する
このリポジトリは、2つのテキストからビデオ生成モデル(1.3Bと14B)と2つの解像度(480Pと720P)をサポートしています。これらのモデルのパラメータと設定は以下の通りです。
タスク | 480P | 720P | モデル |
---|---|---|---|
t2v-14B | ✔️ | ✔️ | Wan2.1-T2V-14B |
t2v-1.3B | ✔️ | ❌ | Wan2.1-T2V-1.3B |
(1) プロンプト拡張を使用しない場合
実装を容易にするために、プロンプト拡張のステップをスキップした基本バージョンの推論プロセスから始めます。
- シングルGPU推論
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
OOM(メモリ不足)の問題が発生した場合は、--offload_model True
と--t5_cpu
オプションを使用してGPUメモリ使用量を削減できます。例えば、RTX 4090 GPUでは以下のように実行します。
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
💡 注意:
T2V-1.3B
モデルを使用する場合は、パラメータ--sample_guide_scale 6
を設定することをお勧めします。--sample_shift parameter
はパフォーマンスに基づいて8から12の範囲で調整できます。
- FSDP + xDiT USPを使用したマルチGPU推論
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
(2) プロンプト拡張を使用する場合
プロンプトを拡張することで、生成されるビデオの詳細を効果的に豊かにし、ビデオ品質をさらに向上させることができます。したがって、プロンプト拡張を有効にすることをお勧めします。プロンプト拡張には以下の2つの方法を提供しています。
- Dashscope APIを使用して拡張する
- 事前に
dashscope.api_key
を申請します(EN | CN)。 - 環境変数
DASH_API_KEY
を設定してDashscope APIキーを指定します。Alibaba Cloudの国際サイトのユーザーは、環境変数DASH_API_URL
を'https://dashscope-intl.aliyuncs.com/api/v1'に設定する必要もあります。詳細な手順については、dashscopeドキュメントを参照してください。 - テキストからビデオタスクには
qwen-plus
モデルを、画像からビデオタスクにはqwen-vl-max
モデルを使用します。 - 拡張に使用するモデルは、パラメータ
--prompt_extend_model
で変更できます。例えば:
- 事前に
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
- ローカルモデルを使用して拡張する
- デフォルトでは、HuggingFaceのQwenモデルがこの拡張に使用されます。ユーザーは利用可能なGPUメモリサイズに基づいて選択できます。
- テキストからビデオタスクでは、
Qwen/Qwen2.5-14B-Instruct
、Qwen/Qwen2.5-7B-Instruct
、Qwen/Qwen2.5-3B-Instruct
などのモデルを使用できます。 - 画像からビデオタスクでは、
Qwen/Qwen2.5-VL-7B-Instruct
、Qwen/Qwen2.5-VL-3B-Instruct
などのモデルを使用できます。 - 一般的に、大きなモデルはより良い拡張結果を提供しますが、より多くのGPUメモリを必要とします。
- 拡張に使用するモデルは、パラメータ
--prompt_extend_model
で変更でき、ローカルモデルパスまたはHugging Faceモデルを指定できます。例えば:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
(3) ローカルGradioを実行する
cd gradio
# if one uses dashscope’s API for prompt extension
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B
# if one uses a local model for prompt extension
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B
✨ 主な機能
- 👍 最先端の性能: Wan2.1は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを上回る一貫した性能を発揮します。
- 👍 消費者向けGPUをサポート: T2V-1.3Bモデルは、わずか8.19GBのVRAMを必要とするため、ほぼすべての消費者向けGPUと互換性があります。RTX 4090で約4分で5秒の480Pビデオを生成できます(量子化などの最適化技術を使用しない場合)。その性能は、一部のクローズドソースモデルと匹敵します。
- 👍 複数のタスク: Wan2.1は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオから音声などのタスクで優れた性能を発揮し、ビデオ生成の分野を進歩させます。
- 👍 視覚的なテキスト生成: Wan2.1は、中国語と英語の両方のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
- 👍 強力なビデオVAE: Wan-VAEは、卓越した効率と性能を提供し、時間的情報を保持しながら任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基盤となります。
📚 ドキュメント
ビデオデモ
最新ニュース!!
- 2025年2月22日: 👋 Wan2.1の推論コードと重みをリリースしました。
Todoリスト
- Wan2.1 テキストからビデオ
- [x] 14Bと1.3BモデルのマルチGPU推論コード
- [x] 14Bと1.3Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
- Wan2.1 画像からビデオ
- [x] 14BモデルのマルチGPU推論コード
- [x] 14Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
手動評価
手動評価により、プロンプト拡張後に生成された結果は、クローズドソースモデルとオープンソースモデルの両方よりも優れています。

異なるGPUでの計算効率
以下の表に、異なるWan2.1モデルの異なるGPUでの計算効率を示します。結果は、合計時間 (秒) / ピークGPUメモリ (GB) の形式で提示されます。

この表に示されたテストのパラメータ設定は以下の通りです。 (1) 8つのGPUでの1.3Bモデルの場合、
--ring_size 8
と--ulysses_size 1
を設定します。 (2) 1つのGPUでの14Bモデルの場合、--offload_model True
を使用します。 (3) 単一の4090 GPUでの1.3Bモデルの場合、--offload_model True --t5_cpu
を設定します。 (4) すべてのテストで、プロンプト拡張は適用されておらず、--use_prompt_extend
は有効になっていません。
コミュニティの貢献
- DiffSynth-Studioは、Wanに対するより多くのサポートを提供しています。これには、ビデオからビデオ、FP8量子化、VRAM最適化、LoRAトレーニングなどが含まれます。詳細は、彼らの例を参照してください。
Wan2.1の紹介
Wan2.1は、主流の拡散トランスフォーマーパラダイムに基づいて設計されており、一連の革新的なアプローチによって生成能力を大幅に向上させています。これには、独自の時空間変分オートエンコーダ(VAE)、拡張可能なトレーニング戦略、大規模なデータ構築、自動評価指標などが含まれます。これらの貢献により、モデルの性能と汎用性が向上しています。
(1) 3D変分オートエンコーダ
ビデオ生成に特化した新しい3D因果VAEアーキテクチャであるWan-VAEを提案します。複数の戦略を組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的因果関係を保証します。Wan-VAEは、他のオープンソースVAEと比較して、性能効率において大きな利点を示しています。さらに、Wan-VAEは、過去の時間的情報を失うことなく、無制限の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオ生成タスクに特に適しています。

(2) ビデオ拡散DiT
Wan2.1は、主流の拡散トランスフォーマーパラダイム内のFlow Matchingフレームワークを使用して設計されています。モデルのアーキテクチャは、T5エンコーダを使用して多言語テキスト入力をエンコードし、各トランスフォーマーブロックのクロスアテンションによってテキストをモデル構造に埋め込みます。さらに、線形層とSiLU層を持つMLPを使用して、入力時間埋め込みを処理し、6つの変調パラメータを個別に予測します。このMLPはすべてのトランスフォーマーブロックで共有され、各ブロックは独自のバイアスセットを学習します。実験結果から、同じパラメータ規模でこのアプローチによる大幅な性能向上が明らかになっています。

モデル | 次元 | 入力次元 | 出力次元 | フィードフォワード次元 | 周波数次元 | ヘッド数 | レイヤー数 |
---|---|---|---|---|---|---|---|
1.3B | 1536 | 16 | 16 | 8960 | 256 | 12 | 30 |
14B | 5120 | 16 | 16 | 13824 | 256 | 40 | 40 |
データ
膨大な量の画像とビデオデータから構成される候補データセットを選別し、重複を排除しました。データ選別プロセスでは、基本的な次元、視覚品質、動き品質に焦点を当てた4段階のデータクリーニングプロセスを設計しました。堅牢なデータ処理パイプラインを通じて、高品質で多様性があり、大規模な画像とビデオのトレーニングセットを簡単に取得できます。
SOTAとの比較
Wan2.1を主要なオープンソースおよびクローズドソースモデルと比較して、性能を評価しました。慎重に設計された1,035の内部プロンプトセットを使用して、14の主要な次元と26のサブ次元でテストを行いました。その後、各次元のスコアに重み付け計算を行って合計スコアを算出しました。重みは、マッチングプロセスにおける人間の嗜好に基づいて導出されました。以下の表に詳細な結果を示します。これらの結果から、当社のモデルがオープンソースおよびクローズドソースモデルと比較して優れた性能を示していることがわかります。
引用
もし私たちの研究が役に立った場合は、以下のように引用してください。
@article{wan2.1,
title = {Wan: Open and Advanced Large-Scale Video Generative Models},
author = {Wan Team},
journal = {},
year = {2025}
}
ライセンス
このリポジトリ内のモデルは、Apache 2.0ライセンスの下でライセンスされています。生成されたコンテンツに対しては一切の権利を主張せず、ライセンスの規定に準拠した使用を保証しながら、自由に使用することができます。モデルの使用については、すべての責任を負うものとし、適用される法律に違反するコンテンツの共有、個人またはグループへの危害を引き起こす行為、危害を加える目的での個人情報の散布、誤情報の拡散、脆弱な人々を標的とする行為などは行わないでください。制限事項の完全なリストと権利の詳細については、ライセンスの全文を参照してください。
謝辞
SD3、Qwen、umt5-xxl、diffusers、HuggingFaceリポジトリの貢献者の皆さんに感謝します。彼らのオープンな研究により、このプロジェクトが可能になりました。
お問い合わせ
研究や製品チームにメッセージを残したい場合は、DiscordまたはWeChatグループに参加して自由にメッセージを残してください!



