モデル概要
モデル特徴
モデル能力
使用事例
🚀 Wan2.1
Wan2.1は、ビデオ生成の限界を押し広げる包括的でオープンなビデオ基礎モデルのセットです。このモデルは、最新の性能、消費者向けGPUのサポート、複数のタスクへの対応、視覚的なテキスト生成機能、強力なビデオVAEを備えています。
💜 Wan    |    🖥️ GitHub    |   🤗 Hugging Face   |   🤖 ModelScope   |    📑 Paper (Coming soon)    |    📑 Blog    |   💬 WeChat Group   |    📖 Discord  
Wan: Open and Advanced Large-Scale Video Generative Models
🚀 クイックスタート
📦 インストール
リポジトリをクローンします。
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
依存関係をインストールします。
# Ensure torch >= 2.4.0
pip install -r requirements.txt
📥 モデルのダウンロード
モデル | ダウンロードリンク | 注意事項 |
---|---|---|
T2V-14B | 🤗 Huggingface 🤖 ModelScope | 480Pと720Pの両方をサポート |
I2V-14B-720P | 🤗 Huggingface 🤖 ModelScope | 720Pをサポート |
I2V-14B-480P | 🤗 Huggingface 🤖 ModelScope | 480Pをサポート |
T2V-1.3B | 🤗 Huggingface 🤖 ModelScope | 480Pをサポート |
⚠️ 重要提示
1.3Bモデルは720P解像度のビデオ生成が可能ですが、この解像度での学習が限られているため、結果は一般的に480Pよりも安定性が低くなります。最適なパフォーマンスを得るためには、480P解像度を使用することをお勧めします。
🤗 huggingface-cliを使用してモデルをダウンロードします。
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./Wan2.1-I2V-14B-480P
🤖 modelscope-cliを使用してモデルをダウンロードします。
pip install modelscope
modelscope download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./Wan2.1-I2V-14B-480P
💻 使用例
画像からビデオへの生成を実行する
テキストからビデオへの変換と同様に、画像からビデオへの変換も、プロンプト拡張ステップの有無によってプロセスが分かれます。具体的なパラメータとそれに対応する設定は以下の通りです。
タスク | 解像度 | モデル | |
---|---|---|---|
480P | 720P | ||
i2v-14B | ❌ | ✔️ | Wan2.1-I2V-14B-720P |
i2v-14B | ✔️ | ❌ | Wan2.1-T2V-14B-480P |
(1) プロンプト拡張なし
- シングルGPUでの推論
python generate.py --task i2v-14B --size 832*480 --ckpt_dir ./Wan2.1-I2V-14B-480P --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
💡 使用建议
画像からビデオへのタスクでは、
size
パラメータは生成されるビデオのエリアを表し、アスペクト比は元の入力画像に従います。
- FSDP + xDiT USPを使用したマルチGPUでの推論
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 832*480 --ckpt_dir ./Wan2.1-I2V-14B-480P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
(2) プロンプト拡張を使用する
Qwen/Qwen2.5-VL-7B-Instruct
を使用してローカルのプロンプト拡張で実行します。
python generate.py --task i2v-14B --size 832*480 --ckpt_dir ./Wan2.1-I2V-14B-480P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_model Qwen/Qwen2.5-VL-7B-Instruct --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
dashscope
を使用してリモートのプロンプト拡張で実行します。
DASH_API_KEY=your_key python generate.py --task i2v-14B --size 832*480 --ckpt_dir ./Wan2.1-I2V-14B-480P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_method 'dashscope' --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
(3) ローカルのGradioを実行する
cd gradio
# Gradioで480Pモデルのみを使用する場合
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P
# Gradioで720Pモデルのみを使用する場合
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
# Gradioで480Pと720Pの両方のモデルを使用する場合
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
✨ 主な機能
- 👍 SOTA性能:Wan2.1は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを上回る性能を発揮します。
- 👍 消費者向けGPUのサポート:T2V-1.3Bモデルは、わずか8.19GBのVRAMを必要とするため、ほぼすべての消費者向けGPUと互換性があります。RTX 4090では、最適化技術(量子化など)を使用せずに約4分で5秒の480Pビデオを生成できます。その性能は、一部のクローズドソースモデルに匹敵します。
- 👍 複数のタスクへの対応:Wan2.1は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオから音声など、ビデオ生成の分野を進歩させます。
- 👍 視覚的なテキスト生成:Wan2.1は、中国語と英語の両方のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えているため、実用性が高まります。
- 👍 強力なビデオVAE:Wan-VAEは、例外的な効率と性能を提供し、時間的な情報を保持しながら、任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基盤となります。
📚 ドキュメント
手動評価
画像からビデオへのモデルの性能を評価するために、広範な手動評価を行いました。結果は以下の表に示されています。結果から明らかなように、Wan2.1はクローズドソースおよびオープンソースの両方のモデルを上回っています。

異なるGPUでの計算効率
以下の表では、異なるWan2.1モデルの異なるGPUでの計算効率をテストしています。結果は、合計時間 (s) / ピークGPUメモリ (GB) の形式で示されています。

この表に示されているテストのパラメータ設定は以下の通りです。 (1) 8つのGPUでの1.3Bモデルの場合、
--ring_size 8
と--ulysses_size 1
を設定します。 (2) 1つのGPUでの14Bモデルの場合、--offload_model True
を使用します。 (3) 単一の4090 GPUでの1.3Bモデルの場合、--offload_model True --t5_cpu
を設定します。 (4) すべてのテストで、プロンプト拡張は適用されていません。つまり、--use_prompt_extend
は有効にされていません。
Wan2.1の紹介
Wan2.1は、主流の拡散トランスフォーマーパラダイムを基に設計されており、一連の革新的なアプローチを通じて生成能力に大きな進歩を遂げています。これには、独自の時空間変分オートエンコーダ(VAE)、スケーラブルなトレーニング戦略、大規模なデータ構築、自動評価指標が含まれます。これらの貢献が総合的にモデルの性能と汎用性を向上させています。
(1) 3D変分オートエンコーダ
ビデオ生成に特化した新しい3D因果VAEアーキテクチャであるWan-VAEを提案します。複数の戦略を組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的な因果関係を保証します。Wan-VAEは、他のオープンソースのVAEと比較して、性能効率において大きな利点を示します。さらに、Wan-VAEは、過去の時間的情報を失うことなく、無制限の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオ生成タスクに特に適しています。

(2) ビデオ拡散DiT
Wan2.1は、主流の拡散トランスフォーマーパラダイム内のFlow Matchingフレームワークを使用して設計されています。このモデルのアーキテクチャは、T5エンコーダを使用して多言語テキスト入力をエンコードし、各トランスフォーマーブロックのクロスアテンションによってテキストをモデル構造に埋め込みます。さらに、線形層とSiLU層を持つMLPを使用して、入力時間埋め込みを処理し、6つの変調パラメータを個別に予測します。このMLPはすべてのトランスフォーマーブロックで共有され、各ブロックは独自のバイアスセットを学習します。実験の結果、同じパラメータ規模でこのアプローチを使用すると、性能が大幅に向上することが明らかになりました。

モデル | 次元 | 入力次元 | 出力次元 | フィードフォワード次元 | 周波数次元 | ヘッド数 | レイヤー数 |
---|---|---|---|---|---|---|---|
1.3B | 1536 | 16 | 16 | 8960 | 256 | 12 | 30 |
14B | 5120 | 16 | 16 | 13824 | 256 | 40 | 40 |
データ
膨大な量の画像とビデオデータからなる候補データセットを選別し、重複を排除しました。データ選別プロセスでは、基本的な次元、視覚的な品質、動きの品質に焦点を当てた4段階のデータクリーニングプロセスを設計しました。堅牢なデータ処理パイプラインを通じて、高品質で多様性に富む大規模な画像とビデオのトレーニングセットを簡単に取得できます。
SOTAとの比較
Wan2.1を主要なオープンソースおよびクローズドソースのモデルと比較して、性能を評価しました。独自に設計した1,035の内部プロンプトを使用して、14の主要な次元と26のサブ次元でテストを行いました。その後、各次元のスコアに対して重み付け計算を行って合計スコアを算出しました。詳細な結果は以下の表に示されています。これらの結果から、当社のモデルがオープンソースおよびクローズドソースの両方のモデルよりも優れた性能を示していることがわかります。
📄 ライセンス
このリポジトリ内のモデルは、Apache 2.0ライセンスの下で提供されています。生成されたコンテンツに対して一切の権利を主張することはなく、ライセンスの規定に従って自由に使用できます。ただし、モデルの使用に関しては、適用される法律に違反するコンテンツの共有、個人やグループへの危害を引き起こす行為、害を与える目的での個人情報の拡散、誤情報の拡散、脆弱な人々を標的とする行為などは一切行わないように責任を負う必要があります。制限事項の完全なリストと権利に関する詳細については、ライセンスの全文を参照してください。
謝辞
SD3、Qwen、umt5-xxl、diffusers、HuggingFaceリポジトリの貢献者の皆様に、オープンな研究に感謝いたします。
お問い合わせ
当社の研究チームまたは製品チームにメッセージを残したい場合は、DiscordまたはWeChatグループにご参加いただければ幸いです!





