ホーム

Wan2.1 Fun 14B Control

alibaba-paiによって開発

マルチ解像度トレーニング及び先頭フレームと末尾フレーム予測をサポートするテキストから動画生成モデル

テキスト生成ビデオ複数言語対応オープンソースライセンス:Apache-2.0 #マルチ解像度動画生成 #先頭フレームと末尾フレーム予測 #多言語動画制御

ダウンロード数 10.53k

リリース時間 : 3/26/2025

モデル概要

Wan2.1-Fun-1.3Bはテキストから動画を生成するモデルで、マルチ解像度トレーニングと先頭フレームと末尾フレーム予測機能をサポートし、テキスト記述に基づいて高品質な動画コンテンツを生成できます。

モデル特徴

マルチ解像度サポート

512/768/1024など様々な解像度の動画生成をサポート

先頭フレームと末尾フレーム予測

動画の先頭フレームと末尾フレームを予測し、動画生成の連続性を向上

多言語サポート

中国語と英語のテキスト入力をサポート

モデル能力

テキストから動画生成

画像から動画生成

動画から動画変換

制御条件付き動画生成

使用事例

クリエイティブコンテンツ生成

ショート動画作成

テキスト記述に基づいてクリエイティブなショート動画を自動生成

高品質で連続性のある動画コンテンツを生成可能

広告制作

製品紹介動画を迅速に生成

複数の解像度と制御条件をサポート

教育トレーニング

教育動画生成

教育内容に基づいてデモンストレーション動画を自動生成

中国語と英語の教育内容をサポート

license: apache-2.0 language:

en
zh pipeline_tag: text-to-video library_name: diffusers tags:
video
video-generation

ワンファン

😊 ようこそ！

English | 简体中文

モデルアドレス

V1.0:

名称	ストレージ容量	Hugging Face	Model Scope	説明
Wan2.1-Fun-1.3B-InP	19.0 GB	🤗リンク	😄リンク	Wan2.1-Fun-1.3Bテキスト/画像から動画生成モデル、マルチ解像度トレーニング対応、開始/終了画像予測可能
Wan2.1-Fun-14B-InP	47.0 GB	🤗リンク	😄リンク	Wan2.1-Fun-14Bテキスト/画像から動画生成モデル、マルチ解像度トレーニング対応、開始/終了画像予測可能
Wan2.1-Fun-1.3B-Control	19.0 GB	🤗リンク	😄リンク	Wan2.1-Fun-1.3B動画制御モデル、Canny/Depth/Pose/MLSDなど各種制御条件対応、軌跡制御可能。マルチ解像度(512,768,1024)動画予測対応、81フレーム16fpsでトレーニング、多言語予測可能
Wan2.1-Fun-14B-Control	47.0 GB	🤗リンク	😄リンク	Wan2.1-Fun-14B動画制御モデル、Canny/Depth/Pose/MLSDなど各種制御条件対応、軌跡制御可能。マルチ解像度(512,768,1024)動画予測対応、81フレーム16fpsでトレーニング、多言語予測可能

動画作品

Wan2.1-Fun-14B-InP && Wan2.1-Fun-1.3B-InP

Wan2.1-Fun-14B-Control && Wan2.1-Fun-1.3B-Control

クイックスタート

1. クラウド利用: AliyunDSW/Docker

a. 阿里雲 DSW経由

DSWには無料GPU時間があり、ユーザーは1回申請可能で、申請後3ヶ月間有効です。

阿里雲はFreetierで無料GPU時間を提供しており、阿里雲PAI-DSWで利用可能で、5分以内にCogVideoX-Funを起動できます。

b. ComfyUI経由

当社のComfyUIインターフェースは以下の通りです。詳細はComfyUI READMEをご覧ください。 workflow graph

c. docker経由

dockerを使用する場合、マシンに正しくGPUドライバーとCUDA環境がインストールされていることを確認し、以下のコマンドを順に実行してください：

# イメージをプル
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# イメージに入る
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# コードをクローン
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# CogVideoX-Funのディレクトリに入る
cd CogVideoX-Fun

# 重みをダウンロード
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

# モデルダウンロードにはhuggingfaceリンクまたはmodelscopeリンクを使用してください。
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP

# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP

2. ローカルインストール: 環境チェック/ダウンロード/インストール

a. 環境チェック

このライブラリは以下の環境で動作確認済みです：

Windows 詳細：

OS Windows 10
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU： Nvidia-3060 12G & Nvidia-3090 24G

Linux 詳細：

OS Ubuntu 20.04, CentOS
python: python3.10 & python3.11
pytorch: torch2.2.0
CUDA: 11.8 & 12.1
CUDNN: 8+
GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

約60GBの空きディスク容量が必要です。確認してください！

b. 重み配置

重みは指定パスに配置することを推奨します：

📦 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│   ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│   ├── 📂 Wan2.1-Fun-14B-InP
│   └── 📂 Wan2.1-Fun-1.3B-InP/
├── 📂 Personalized_Model/
│   └── 訓練済みtransformerモデル / 訓練済みloraモデル (UIロード用)

使用方法

1. 生成

a、VRAM節約方法

Wan2.1はパラメータが非常に大きいため、VRAM節約方法を考慮する必要があります。各予測ファイルにGPU_memory_modeを提供しており、model_cpu_offload、model_cpu_offload_and_qfloat8、sequential_cpu_offloadから選択可能です。この方法はCogVideoX-Funの生成にも適用可能です。

model_cpu_offloadはモデル全体が使用後にCPUに移動し、VRAMを節約します。
model_cpu_offload_and_qfloat8はモデル全体が使用後にCPUに移動し、transformerモデルをfloat8で量子化し、さらにVRAMを節約します。
sequential_cpu_offloadはモデルの各層が使用後にCPUに移動し、速度は遅いですが大量のVRAMを節約します。

qfloat8はモデル性能を多少低下させますが、より多くのVRAMを節約します。VRAMが十分であればmodel_cpu_offloadを推奨します。

b、comfyui経由

詳細はComfyUI READMEをご覧ください。

c、pythonファイル実行

ステップ1：対応する重みをダウンロードしmodelsフォルダに配置。
ステップ2：異なる重みと予測目標に応じて異なるファイルを使用。現在このライブラリはCogVideoX-Fun、Wan2.1、Wan2.1-Funをサポートしており、examplesフォルダ下のフォルダ名で区別されます。機能が異なるため、具体的に区別してください。CogVideoX-Funを例に：
- テキストから動画生成：
  - examples/cogvideox_fun/predict_t2v.pyファイルでprompt、neg_prompt、guidance_scale、seedを変更。
  - examples/cogvideox_fun/predict_t2v.pyファイルを実行し、結果を待機。結果はsamples/cogvideox-fun-videosフォルダに保存。
- 画像から動画生成：
  - examples/cogvideox_fun/predict_i2v.pyファイルでvalidation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale、seedを変更。
  - validation_image_startは動画の開始画像、validation_image_endは終了画像。
  - examples/cogvideox_fun/predict_i2v.pyファイルを実行し、結果を待機。結果はsamples/cogvideox-fun-videos_i2vフォルダに保存。
- 動画から動画生成：
  - examples/cogvideox_fun/predict_v2v.pyファイルでvalidation_video、validation_image_end、prompt、neg_prompt、guidance_scale、seedを変更。
  - validation_videoは参照動画。デモ動画を使用可能。
  - examples/cogvideox_fun/predict_v2v.pyファイルを実行し、結果を待機。結果はsamples/cogvideox-fun-videos_v2vフォルダに保存。
- 制御動画生成（Canny/Pose/Depthなど）：
  - examples/cogvideox_fun/predict_v2v_control.pyファイルでcontrol_video、validation_image_end、prompt、neg_prompt、guidance_scale、seedを変更。
  - control_videoは制御動画で、Canny/Pose/Depthなどで抽出した動画。デモ動画を使用可能。
  - examples/cogvideox_fun/predict_v2v_control.pyファイルを実行し、結果を待機。結果はsamples/cogvideox-fun-videos_v2v_controlフォルダに保存。
ステップ3：独自訓練のbackboneやLoraと組み合わせる場合、examples/{model_name}/predict_t2v.pyやexamples/{model_name}/predict_i2v.pyのlora_pathを適宜変更。

d、UIインターフェース経由

webuiはテキストから動画、画像から動画、動画から動画、制御動画生成（Canny/Pose/Depthなど）をサポート。現在このライブラリはCogVideoX-Fun、Wan2.1、Wan2.1-Funをサポートしており、examplesフォルダ下のフォルダ名で区別されます。機能が異なるため、具体的に区別してください。CogVideoX-Funを例に：

ステップ1：対応する重みをダウンロードしmodelsフォルダに配置。
ステップ2：examples/cogvideox_fun/app.pyファイルを実行し、gradioページにアクセス。
ステップ3：ページでモデルを選択し、prompt、neg_prompt、guidance_scale、seedなどを入力後、生成をクリック。結果を待機し、sampleフォルダに保存。