[Wan2.1-T2V-1.3B]オープンソースビデオ生成モデル - 中国語と英語の両言語、画像からビデオ生成タスクをサポート

ホーム

Wan2.1 T2V 1.3B

Isi99999によって開発

万2.1はビデオ生成の境界を突破することを目的とした包括的なオープンビデオ基盤モデルで、中英二言語テキストから動画生成、画像から動画生成など多様なタスクをサポートします。

テキスト生成ビデオ複数言語対応オープンソースライセンス:Apache-2.0 #コンシューマーGPU動画生成 #中英二言語動画生成 #高効率動画VAE

ダウンロード数 40

リリース時間 : 2/27/2025

モデル概要

万2.1は先進的なビデオ生成モデルで、テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成など多様なタスクをサポートし、トップクラスの性能と高効率な計算効率を備えています。

モデル特徴

トップクラス性能

複数のベンチマークテストで既存のオープンソースモデル及び商用ソリューションを凌駕。

コンシューマーGPU対応

T2V-1.3Bモデルはわずか8.19GBのVRAMで動作し、ほぼ全てのコンシューマー向けグラフィックカードと互換性あり。

マルチタスクサポート

テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成をカバー。

視覚的テキスト生成

初めて中英二言語テキスト生成をサポートするビデオモデルで、強力なテキスト生成能力を有する。

高効率動画VAE

万-VAEは任意の長さの1080P動画をエンコード/デコードする際に時系列情報を保持し、動画と画像生成の理想的な基盤を提供。

モデル能力

テキストから動画生成

画像から動画生成

動画編集

テキストから画像生成

動画から音声生成

使用事例

クリエイティブ動画制作

擬人化動物動画

擬人化された動物の行動動画を生成（例：猫のボクシング試合）。

5秒480P動画生成に約4分要する（RTX 4090使用時）。

教育コンテンツ

教育動画生成

テキスト記述に基づき教育動画コンテンツを生成。

🚀 Wan2.1

Wan2.1は、ビデオ生成の限界を押し広げる包括的でオープンなビデオ基礎モデルのセットです。このモデルは、以下のような主要な特徴を備えています。

👍 最先端の性能：複数のベンチマークで、既存のオープンソースモデルや最先端の商用ソリューションを上回る性能を発揮します。
👍 消費者向けGPUに対応：T2V - 1.3Bモデルは、わずか8.19GBのVRAMしか必要とせず、ほぼすべての消費者向けGPUと互換性があります。RTX 4090では、約4分で5秒の480Pビデオを生成できます（量子化などの最適化技術を使用せず）。その性能は、一部のクローズソースモデルに匹敵します。
👍 複数のタスクに対応：テキストからビデオ、画像からビデオ、ビデオ編集、テキストから画像、ビデオから音声など、幅広いタスクで優れた性能を発揮します。
👍 視覚的なテキスト生成：中国語と英語のテキストを生成できる初のビデオモデルで、強力なテキスト生成機能により、実用性が向上します。
👍 強力なビデオVAE：Wan - VAEは、例外的な効率と性能を提供し、時間的情報を保持しながら、任意の長さの1080Pビデオをエンコードおよびデコードできます。これは、ビデオおよび画像生成の理想的な基盤となります。

✨ 主な機能

最先端のビデオ生成性能を持ち、既存のオープンソースモデルや商用ソリューションを上回ります。
消費者向けGPUでも動作可能で、T2V - 1.3Bモデルは8.19GBのVRAMしか必要としません。
テキストからビデオ、画像からビデオなど、複数のタスクに対応しています。
中国語と英語のテキスト生成機能を備えています。
強力なビデオVAEであるWan - VAEを搭載し、任意の長さの1080Pビデオをエンコードおよびデコードできます。

🚀 クイックスタート

📦 インストール

リポジトリをクローンします。

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

依存関係をインストールします。

# Ensure torch >= 2.4.0
pip install -r requirements.txt

モデルのダウンロード

モデル	ダウンロードリンク	注意事項
T2V - 14B	🤗 Huggingface 🤖 ModelScope	480Pと720Pの両方に対応
I2V - 14B - 720P	🤗 Huggingface 🤖 ModelScope	720Pに対応
I2V - 14B - 480P	🤗 Huggingface 🤖 ModelScope	480Pに対応
T2V - 1.3B	🤗 Huggingface 🤖 ModelScope	480Pに対応

💡注意: 1.3Bモデルは720P解像度のビデオ生成も可能ですが、この解像度での学習が限られているため、結果は一般的に480Pよりも安定性が低くなります。最適な性能を得るためには、480P解像度を使用することをお勧めします。

🤗 huggingface - cliを使用してモデルをダウンロードします。

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

🤖 modelscope - cliを使用してモデルをダウンロードします。

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

テキストからビデオの生成を実行する

このリポジトリは、2つのテキストからビデオのモデル（1.3Bと14B）と2つの解像度（480Pと720P）をサポートしています。これらのモデルのパラメータと設定は以下の通りです。

タスク	480P	720P	モデル
t2v - 14B	✔️	✔️	Wan2.1 - T2V - 14B
t2v - 1.3B	✔️	❌	Wan2.1 - T2V - 1.3B

(1) プロンプト拡張を使用しない場合

実装を容易にするために、プロンプト拡張のステップをスキップした基本バージョンの推論プロセスから始めます。

シングルGPUでの推論

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

OOM（メモリ不足）の問題が発生した場合は、--offload_model Trueと--t5_cpuオプションを使用して、GPUメモリの使用量を減らすことができます。例えば、RTX 4090 GPUでは以下のようにします。

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

💡注意: T2V - 1.3Bモデルを使用する場合は、パラメータ--sample_guide_scaleを6に設定することをお勧めします。--sample_shiftパラメータは、性能に応じて8から12の範囲で調整できます。

FSDP + xDiT USPを使用したマルチGPUでの推論

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) プロンプト拡張を使用する場合

プロンプトを拡張することで、生成されるビデオの詳細を効果的に豊かにし、ビデオの品質をさらに向上させることができます。したがって、プロンプト拡張を有効にすることをお勧めします。以下の2つの方法でプロンプトを拡張できます。

Dashscope APIを使用して拡張する
- 事前にdashscope.api_keyを申請してください（EN | CN）。
- 環境変数DASH_API_KEYを設定して、Dashscope APIキーを指定します。Alibaba Cloudの国際サイトのユーザーは、環境変数DASH_API_URLを'https://dashscope-intl.aliyuncs.com/api/v1'に設定する必要もあります。詳細な手順については、dashscopeドキュメントを参照してください。
- テキストからビデオのタスクにはqwen - plusモデルを、画像からビデオのタスクにはqwen - vl - maxモデルを使用します。
- パラメータ--prompt_extend_modelで拡張に使用するモデルを変更できます。例えば：

DASH_API_KEY=your_key python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

ローカルモデルを使用して拡張する
- デフォルトでは、HuggingFaceのQwenモデルが拡張に使用されます。ユーザーは、利用可能なGPUメモリのサイズに基づいて選択できます。
- テキストからビデオのタスクには、Qwen/Qwen2.5 - 14B - Instruct、Qwen/Qwen2.5 - 7B - Instruct、Qwen/Qwen2.5 - 3B - Instructなどのモデルを使用できます。
- 画像からビデオのタスクには、Qwen/Qwen2.5 - VL - 7B - Instruct、Qwen/Qwen2.5 - VL - 3B - Instructなどのモデルを使用できます。
- 一般的に、大きなモデルはより良い拡張結果を提供しますが、より多くのGPUメモリを必要とします。
- パラメータ--prompt_extend_modelで拡張に使用するモデルを変更でき、ローカルモデルのパスまたはHugging Faceのモデルを指定できます。例えば：

python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

(3) ローカルのGradioを実行する

cd gradio
# DashscopeのAPIを使用してプロンプトを拡張する場合
DASH_API_KEY=your_key python t2v_1.3B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-1.3B

# ローカルモデルを使用してプロンプトを拡張する場合
python t2v_1.3B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-1.3B

評価

Wan - Benchフレームワークを使用して、T2V - 1.3Bモデルの性能を評価しました。結果は以下の表に示されています。これらの結果は、私たちの小さな1.3Bモデルが、より大きなオープンソースモデルの全体的な指標を上回っていることを示しており、WanX2.1のアーキテクチャとデータ構築パイプラインの有効性を実証しています。

異なるGPUでの計算効率

以下の表は、異なるWan2.1モデルの異なるGPUでの計算効率を示しています。結果は**総時間 (s) / ピークGPUメモリ (GB)**の形式で表示されています。

この表に示されているテストのパラメータ設定は以下の通りです。 (1) 8つのGPUでの1.3Bモデルの場合、--ring_size 8と--ulysses_size 1を設定します。 (2) 1つのGPUでの14Bモデルの場合、--offload_model Trueを使用します。 (3) 単一の4090 GPUでの1.3Bモデルの場合、--offload_model True --t5_cpuを設定します。 (4) すべてのテストで、プロンプト拡張は適用されておらず、--use_prompt_extendは有効にされていません。

🔧 技術詳細

(1) 3D変分オートエンコーダ

ビデオ生成に特化した新しい3D因果VAEアーキテクチャであるWan - VAEを提案します。複数の戦略を組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的因果関係を保証します。Wan - VAEは、他のオープンソースVAEと比較して、性能効率において大きな優位性を示しています。さらに、Wan - VAEは、無制限の長さの1080Pビデオを、過去の時間的情報を失うことなくエンコードおよびデコードできるため、ビデオ生成タスクに特に適しています。

(2) ビデオ拡散DiT

Wan2.1は、主流の拡散トランスフォーマーパラダイム内のFlow Matchingフレームワークを使用して設計されています。モデルのアーキテクチャは、T5エンコーダを使用して多言語テキスト入力をエンコードし、各トランスフォーマーブロックのクロスアテンションによってテキストをモデル構造に埋め込みます。さらに、線形層とSiLU層を持つMLPを使用して、入力時間埋め込みを処理し、6つの変調パラメータを個別に予測します。このMLPはすべてのトランスフォーマーブロックで共有され、各ブロックは独自のバイアスセットを学習します。実験結果は、同じパラメータ規模でこのアプローチによる大幅な性能向上を明らかにしています。

モデル	次元	入力次元	出力次元	フィードフォワード次元	周波数次元	ヘッド数	レイヤー数
1.3B	1536	16	16	8960	256	12	30
14B	5120	16	16	13824	256	40	40

データ

大量の画像とビデオデータからなる候補データセットを選別し、重複を削除しました。データ選別プロセスでは、基本的な次元、視覚的品質、動き品質に焦点を当てた4段階のデータクリーニングプロセスを設計しました。強力なデータ処理パイプラインにより、高品質、多様性、大規模な画像とビデオのトレーニングセットを簡単に取得できます。

SOTAとの比較

Wan2.1を主要なオープンソースおよびクローズソースモデルと比較して、性能を評価しました。私たちが注意深く設計した1,035の内部プロンプトを使用して、14の主要な次元と26のサブ次元でテストを行いました。その後、各次元の重要度に基づく加重平均によって総得点を計算しました。詳細な結果は以下の表に示されています。これらの結果は、私たちのモデルがオープンソースおよびクローズソースモデルの両方と比較して優れた性能を示していることを実証しています。

📄 ライセンス

このリポジトリ内のモデルは、Apache 2.0ライセンスの下で提供されています。生成されたコンテンツに対して私たちは一切の権利を主張せず、あなたがそれらを自由に使用できるようにしますが、その使用はこのライセンスの規定に準拠する必要があります。あなたは、モデルの使用について完全な責任を負い、適用される法律に違反するコンテンツの共有、個人やグループへの危害を引き起こす行為、危害を目的とした個人情報の散布、誤情報の拡散、脆弱な集団を標的とする行為などを行ってはなりません。制限事項の完全なリストとあなたの権利に関する詳細については、ライセンスの全文を参照してください。

謝辞

SD3、Qwen、umt5 - xxl、diffusers、HuggingFaceリポジトリの貢献者たちのオープンな研究に感謝します。

お問い合わせ

私たちの研究や製品チームにメッセージを残したい場合は、DiscordまたはWeChatグループに参加してください！

引用

もし私たちの研究が役に立った場合は、以下のように引用してください。

@article{wan2.1,
    title   = {Wan: Open and Advanced Large-Scale Video Generative Models},
    author  = {Wan Team},
    journal = {},
    year    = {2025}
}