Wan2.1 - T2V - 14Bオープンソースビデオ生成モデル - コンシューマーレベルのGPUをサポートし、多タスクで高速にビデオを生成

ホーム

Wan2.1 T2V 14B

wan-communityによって開発

万2.1はオープンで先進的な大規模動画生成モデルであり、最先端の性能を備え、消費者向けGPUでの実行をサポートし、マルチタスク処理において卓越したパフォーマンスを発揮します。

テキスト生成ビデオ複数言語対応オープンソースライセンス:Apache-2.0 #多言語動画生成 #低VRAM要件 #動的効果強化

ダウンロード数 17

リリース時間 : 4/17/2025

モデル概要

万2.1は包括的なオープンな動画基盤モデルであり、動画生成の境界を突破することを目的としています。テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成などのタスクをサポートします。

モデル特徴

最先端性能

複数のベンチマークテストにおいて、既存のオープンソースモデルや商用ソリューションを継続的に凌駕しています。

消費者向けGPU対応

T2V-1.3Bモデルはわずか8.19GBのVRAMを必要とし、ほぼすべての消費者向けグラフィックカードと互換性があります。

マルチタスクサポート

テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成などのタスクで卓越したパフォーマンスを発揮します。

視覚的テキスト生成

初めて中英二言語のテキスト生成をサポートする動画モデルであり、その強力なテキスト生成能力は実用価値を大幅に向上させます。

効率的な動画VAE

万-VAEは任意の長さの1080P動画をエンコード・デコードする際に時間情報の完全性を保持し、動画と画像生成の理想的な基盤を提供します。

モデル能力

テキストから動画生成

画像から動画生成

動画編集

テキストから画像生成

動画から音声生成

使用事例

エンターテインメント

アニメーション制作

擬人化された動物のアニメーション動画を生成

高品質でダイナミックな効果を持つアニメーション動画

教育

教育動画生成

テキスト記述に基づいて教育動画を生成

生き生きとした直感的な教育コンテンツ

🚀 Wan2.1

💜 Wan2.1は、ビデオ生成の限界を押し広げる包括的でオープンなビデオ基礎モデルのセットです。このモデルは、最先端の性能、消費者向けGPUへの対応、複数のタスクサポート、視覚的なテキスト生成機能、強力なビデオVAEを備えています。

🚀 クイックスタート

インストール

リポジトリをクローンします。

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

依存関係をインストールします。

# Ensure torch >= 2.4.0
pip install -r requirements.txt

モデルのダウンロード

モデル	ダウンロードリンク	注意事項
T2V-14B	🤗 Huggingface 🤖 ModelScope	480Pと720Pの両方をサポート
I2V-14B-720P	🤗 Huggingface 🤖 ModelScope	720Pをサポート
I2V-14B-480P	🤗 Huggingface 🤖 ModelScope	480Pをサポート
T2V-1.3B	🤗 Huggingface 🤖 ModelScope	480Pをサポート

💡 注意: 1.3Bモデルは720P解像度のビデオ生成も可能ですが、この解像度での学習が限られているため、480Pと比較して結果は一般的に安定性が低くなります。最適なパフォーマンスを得るには、480P解像度を使用することをお勧めします。

🤗 huggingface-cliを使用してモデルをダウンロードします。

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

🤖 modelscope-cliを使用してモデルをダウンロードします。

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B

テキストからビデオ生成を実行する

このリポジトリは、2つのテキストからビデオ生成モデル（1.3Bと14B）と2つの解像度（480Pと720P）をサポートしています。これらのモデルのパラメータと設定は以下の通りです。

タスク	480P	720P	モデル
t2v-14B	✔️	✔️	Wan2.1-T2V-14B
t2v-1.3B	✔️	❌	Wan2.1-T2V-1.3B

(1) プロンプト拡張を使用しない場合

実装を容易にするために、プロンプト拡張のステップをスキップした基本バージョンの推論プロセスから始めます。

シングルGPU推論

python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

OOM（メモリ不足）の問題が発生した場合は、--offload_model Trueと--t5_cpuオプションを使用してGPUメモリ使用量を削減できます。例えば、RTX 4090 GPUでは以下のように実行します。

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

💡 注意: T2V-1.3Bモデルを使用する場合は、パラメータ--sample_guide_scale 6を設定することをお勧めします。--sample_shift parameterはパフォーマンスに基づいて8から12の範囲で調整できます。

FSDP + xDiT USPを使用したマルチGPU推論

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) プロンプト拡張を使用する場合

プロンプトを拡張することで、生成されるビデオの詳細を効果的に豊かにし、ビデオ品質をさらに向上させることができます。したがって、プロンプト拡張を有効にすることをお勧めします。プロンプト拡張には以下の2つの方法を提供しています。

Dashscope APIを使用して拡張する
- 事前にdashscope.api_keyを申請します（EN | CN）。
- 環境変数DASH_API_KEYを設定してDashscope APIキーを指定します。Alibaba Cloudの国際サイトのユーザーは、環境変数DASH_API_URLを'https://dashscope-intl.aliyuncs.com/api/v1'に設定する必要もあります。詳細な手順については、dashscopeドキュメントを参照してください。
- テキストからビデオタスクにはqwen-plusモデルを、画像からビデオタスクにはqwen-vl-maxモデルを使用します。
- 拡張に使用するモデルは、パラメータ--prompt_extend_modelで変更できます。例えば：

DASH_API_KEY=your_key python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

ローカルモデルを使用して拡張する
- デフォルトでは、HuggingFaceのQwenモデルがこの拡張に使用されます。ユーザーは利用可能なGPUメモリサイズに基づいて選択できます。
- テキストからビデオタスクでは、Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct、Qwen/Qwen2.5-3B-Instructなどのモデルを使用できます。
- 画像からビデオタスクでは、Qwen/Qwen2.5-VL-7B-Instruct、Qwen/Qwen2.5-VL-3B-Instructなどのモデルを使用できます。
- 一般的に、大きなモデルはより良い拡張結果を提供しますが、より多くのGPUメモリを必要とします。
- 拡張に使用するモデルは、パラメータ--prompt_extend_modelで変更でき、ローカルモデルパスまたはHugging Faceモデルを指定できます。例えば：

python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

(3) ローカルGradioを実行する

cd gradio
# if one uses dashscope’s API for prompt extension
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B

# if one uses a local model for prompt extension
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B

✨ 主な機能

👍 最先端の性能: Wan2.1は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを上回る一貫した性能を発揮します。
👍 消費者向けGPUをサポート: T2V-1.3Bモデルは、わずか8.19GBのVRAMを必要とするため、ほぼすべての消費者向けGPUと互換性があります。RTX 4090で約4分で5秒の480Pビデオを生成できます（量子化などの最適化技術を使用しない場合）。その性能は、一部のクローズドソースモデルと匹敵します。
👍 複数のタスク: Wan2.1は、テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオから音声などのタスクで優れた性能を発揮し、ビデオ生成の分野を進歩させます。
👍 視覚的なテキスト生成: Wan2.1は、中国語と英語の両方のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
👍 強力なビデオVAE: Wan-VAEは、卓越した効率と性能を提供し、時間的情報を保持しながら任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基盤となります。

📚 ドキュメント

ビデオデモ

Todoリスト

Wan2.1 テキストからビデオ
- [x] 14Bと1.3BモデルのマルチGPU推論コード
- [x] 14Bと1.3Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
Wan2.1 画像からビデオ
- [x] 14BモデルのマルチGPU推論コード
- [x] 14Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合

手動評価

手動評価により、プロンプト拡張後に生成された結果は、クローズドソースモデルとオープンソースモデルの両方よりも優れています。

異なるGPUでの計算効率

以下の表に、異なるWan2.1モデルの異なるGPUでの計算効率を示します。結果は、合計時間 (秒) / ピークGPUメモリ (GB) の形式で提示されます。

この表に示されたテストのパラメータ設定は以下の通りです。 (1) 8つのGPUでの1.3Bモデルの場合、--ring_size 8と--ulysses_size 1を設定します。 (2) 1つのGPUでの14Bモデルの場合、--offload_model Trueを使用します。 (3) 単一の4090 GPUでの1.3Bモデルの場合、--offload_model True --t5_cpuを設定します。 (4) すべてのテストで、プロンプト拡張は適用されておらず、--use_prompt_extendは有効になっていません。

コミュニティの貢献

DiffSynth-Studioは、Wanに対するより多くのサポートを提供しています。これには、ビデオからビデオ、FP8量子化、VRAM最適化、LoRAトレーニングなどが含まれます。詳細は、彼らの例を参照してください。

Wan2.1の紹介

Wan2.1は、主流の拡散トランスフォーマーパラダイムに基づいて設計されており、一連の革新的なアプローチによって生成能力を大幅に向上させています。これには、独自の時空間変分オートエンコーダ（VAE）、拡張可能なトレーニング戦略、大規模なデータ構築、自動評価指標などが含まれます。これらの貢献により、モデルの性能と汎用性が向上しています。

(1) 3D変分オートエンコーダ

ビデオ生成に特化した新しい3D因果VAEアーキテクチャであるWan-VAEを提案します。複数の戦略を組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的因果関係を保証します。Wan-VAEは、他のオープンソースVAEと比較して、性能効率において大きな利点を示しています。さらに、Wan-VAEは、過去の時間的情報を失うことなく、無制限の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオ生成タスクに特に適しています。

(2) ビデオ拡散DiT

Wan2.1は、主流の拡散トランスフォーマーパラダイム内のFlow Matchingフレームワークを使用して設計されています。モデルのアーキテクチャは、T5エンコーダを使用して多言語テキスト入力をエンコードし、各トランスフォーマーブロックのクロスアテンションによってテキストをモデル構造に埋め込みます。さらに、線形層とSiLU層を持つMLPを使用して、入力時間埋め込みを処理し、6つの変調パラメータを個別に予測します。このMLPはすべてのトランスフォーマーブロックで共有され、各ブロックは独自のバイアスセットを学習します。実験結果から、同じパラメータ規模でこのアプローチによる大幅な性能向上が明らかになっています。

モデル	次元	入力次元	出力次元	フィードフォワード次元	周波数次元	ヘッド数	レイヤー数
1.3B	1536	16	16	8960	256	12	30
14B	5120	16	16	13824	256	40	40

データ

膨大な量の画像とビデオデータから構成される候補データセットを選別し、重複を排除しました。データ選別プロセスでは、基本的な次元、視覚品質、動き品質に焦点を当てた4段階のデータクリーニングプロセスを設計しました。堅牢なデータ処理パイプラインを通じて、高品質で多様性があり、大規模な画像とビデオのトレーニングセットを簡単に取得できます。

SOTAとの比較

Wan2.1を主要なオープンソースおよびクローズドソースモデルと比較して、性能を評価しました。慎重に設計された1,035の内部プロンプトセットを使用して、14の主要な次元と26のサブ次元でテストを行いました。その後、各次元のスコアに重み付け計算を行って合計スコアを算出しました。重みは、マッチングプロセスにおける人間の嗜好に基づいて導出されました。以下の表に詳細な結果を示します。これらの結果から、当社のモデルがオープンソースおよびクローズドソースモデルと比較して優れた性能を示していることがわかります。

引用

もし私たちの研究が役に立った場合は、以下のように引用してください。

@article{wan2.1,
    title   = {Wan: Open and Advanced Large-Scale Video Generative Models},
    author  = {Wan Team},
    journal = {},
    year    = {2025}
}

ライセンス

このリポジトリ内のモデルは、Apache 2.0ライセンスの下でライセンスされています。生成されたコンテンツに対しては一切の権利を主張せず、ライセンスの規定に準拠した使用を保証しながら、自由に使用することができます。モデルの使用については、すべての責任を負うものとし、適用される法律に違反するコンテンツの共有、個人またはグループへの危害を引き起こす行為、危害を加える目的での個人情報の散布、誤情報の拡散、脆弱な人々を標的とする行為などは行わないでください。制限事項の完全なリストと権利の詳細については、ライセンスの全文を参照してください。