license: apache-2.0
language:
- en
pipeline_tag: text-to-video
tags:
- 動画生成
library_name: diffusers
base_model:
- Wan-AI/Wan2.1-T2V-14B
- Wan-AI/Wan2.1-T2V-14B-Diffusers
MoviiGen 1.1

MoviiGen 1.1: 映画品質の動画生成モデルへ
このリポジトリでは、映画的な美学と視覚的品質に優れた最先端の動画生成モデルMoviiGen 1.1を紹介します。このモデルはWan2.1をベースにファインチューニングされたものです。業界の専門家を含む11人のプロの映画制作者とAIGCクリエイターによる60の美的次元にわたる包括的な評価に基づき、MoviiGen 1.1は以下の重要な映画的な側面で優れた性能を示しています:
- üëç 優れた映画的美学:MoviiGen 1.1は、雰囲気作り、カメラの動き、オブジェクトのディテール保持の3つの重要な次元で競合を上回り、プロの映画制作アプリケーションに最適な選択肢です。
- üëç 視覚的一貫性と品質:MoviiGen 1.1は明瞭さ(+14.6%)とリアリズム(+4.3%)で優れており、実シーン変換やポートレートのディテールなど、高精細なシナリオに理想的です。Wan2.1は滑らかさと全体的な視覚的調和で際立っており、構図、一貫性、芸術的スタイルを重視するタスクに適しています。両モデルは全体的なスコアが近いため、ユーザーは明瞭さとリアリズムのためにMoviiGen 1.1を、スタイルと構造的一貫性のためにWan2.1を選択できます。
- üëç 包括的な視覚能力:MoviiGen 1.1は複雑な視覚シナリオでも安定した性能を提供し、一貫した被写体とシーンの表現を維持しながら、高品質な動的表現を保証します。
- üëç 高品質な出力:このモデルは卓越した明瞭さとディテールで動画を生成し、720Pと1080Pの両方の解像度をサポートしながら、シーケンス全体で一貫した視覚的品質を維持します。
- üëç プロフェッショナルグレードの結果:MoviiGen 1.1は、映画品質、視覚的一貫性、美的卓越性が最も重要となるアプリケーションに特に適しており、他のモデルと比較して優れた全体的な品質を提供します。
このリポジトリには、映画的な動画生成において新たな基準を確立した最新モデルが含まれています。業界の専門家による広範な評価を通じて、自然な動的表現と一貫した美的品質を備えた高品質なビジュアルを作成する際の卓越した能力が実証されており、プロフェッショナルな動画制作とクリエイティブなアプリケーションに理想的な選択肢です。
動画デモ
|
|
|
|
|
|
|
|
|
|
|
|
üî• 最新ニュース!!
- 2025年5月17日: üëã MoviiGen1.1の推論コードとトレーニングコードをリリースしました。
- 2025年5月12日: üëã MoviiGen1.1の重みをリリースしました。
üí° クイックスタート
インストール
リポジトリをクローン:
git clone https://github.com/ZulutionAI/MoviiGen1.1.git
cd MoviiGen1.1
- 依存関係をインストール:
# torch >= 2.4.0を確認
pip install -r requirements.txt
- FastVideoを指示に従ってインストール。
モデルダウンロード
T2V-14B モデル: ü§ó Huggingface
MoviiGen1.1モデルは720Pと1080Pの両方をサポートしています。より映画的な品質を得るためには、1080Pと21:9のアスペクト比(1920*832)を使用することをお勧めします。
huggingface-cliを使用してモデルをダウンロード:
pip install "huggingface_hub[cli]"
huggingface-cli download ZuluVision/MoviiGen1.1 --local-dir ./MoviiGen1.1
üé• 推論
プロンプト拡張なしで推論:
PYTHONPATH=. python scripts/inference/generate.py --ckpt_dir ./MoviiGen1.1 --prompt "ドラマチックなフィルムノワールの照明に包まれた煙たい雰囲気の私立探偵事務所の中で、スラットブラインドからの鋭い影が散らかった机と古びた周囲を切り裂き、1940年代の映画のクラシックなスタイルを想起させます。疲れ切った探偵が机の後ろに座っています。彼はタバコを吸いながら、ゆっくりと唇に運び、吸い込み、吐き出した煙の塊が、厳しい指向性の光の中で漂っています。シーンは厳しい白黒でレンダリングされ、高コントラストの映画的なムードを作り出しています。カメラは探偵に焦点を合わせた静止したミディアムショットを保持し、荒々しい質感と圧迫的な雰囲気を強調しています。"
プロンプト拡張ありで推論:
MoviiGen1.1用のプロンプト拡張モデルを提供しています。これは、内部データでファインチューニングされたQwen2.5-7B-Instructモデルです。モデルはü§ó Huggingfaceで利用可能です。
PYTHONPATH=. python scripts/inference/generate.py --ckpt_dir ./MoviiGen1.1 --prompt "赤いドレスを着た美しい女性が通りを歩いています。" --use_prompt_extend --prompt_extend_model ZuluVision/MoviiGen1.1_Prompt_Rewriter
プロンプトのヒント:
- プロンプトの長さ:プロンプトの長さは100〜200文字程度が適しています。
- プロンプトの内容:プロンプトにはシーンの説明、主被写体、イベント、美学的説明、カメラの動きを含める必要があります。
- 例:
シーンの説明:ドラマチックなフィルムノワールの照明に包まれた煙たい雰囲気の私立探偵事務所の中で、スラットブラインドからの鋭い影が散らかった机と古びた周囲を切り裂き、1940年代の映画のクラシックなスタイルを想起させます。
主被写体:疲れ切った探偵が机の後ろに座っています。
イベント:彼はタバコを吸いながら、ゆっくりと唇に運び、吸い込み、吐き出した煙の塊が、厳しい指向性の光の中で漂っています。
美学的説明:シーンは厳しい白黒でレンダリングされ、高コントラストの映画的なムードを作り出しています。
カメラの動き:カメラは探偵に焦点を合わせた静止したミディアムショットを保持し、荒々しい質感と圧迫的な雰囲気を強調しています。
最終プロンプト:
ドラマチックなフィルムノワールの照明に包まれた煙たい雰囲気の私立探偵事務所の中で、スラットブラインドからの鋭い影が散らかった机と古びた周囲を切り裂き、1940年代の映画のクラシックなスタイルを想起させます。疲れ切った探偵が机の後ろに座っています。彼はタバコを吸いながら、ゆっくりと唇に運び、吸い込み、吐き出した煙の塊が、厳しい指向性の光の中で漂っています。シーンは厳しい白黒でレンダリングされ、高コントラストの映画的なムードを作り出しています。カメラは探偵に焦点を合わせた静止したミディアムショットを保持し、荒々しい質感と圧迫的な雰囲気を強調しています。
üõ†Ô∏è トレーニング
トレーニングフレームワーク
私たちのトレーニングフレームワークはFastVideoをベースにしており、メモリ使用量とトレーニング効率を最適化するためのシーケンス並列のカスタム実装が含まれています。シーケンス並列アプローチにより、計算負荷を複数のGPUに分散させ、大規模な動画生成モデルの効率的なトレーニングを可能にします。
主な特徴:
- シーケンス並列とリングアテンション:私たちのカスタム実装は、時間次元を複数のGPUに分割し、デバイスごとのメモリ要件を削減しながらモデルの品質を維持します。
- 効率的なデータローディング:高解像度のビデオフレームを処理するための最適化されたデータパイプライン(潜在キャッシュとテキスト埋め込みキャッシュ)。
- マルチ解像度トレーニングバケット:複数の解像度でのトレーニングをサポート。
- 混合精度トレーニング:BF16/FP16トレーニングをサポートし、計算を加速。
- 分散トレーニング:シームレスなマルチノード、マルチGPUトレーニングサポート。
データ前処理
ビデオと対応するテキストプロンプトを潜在表現とテキスト埋め込みとしてキャッシュし、トレーニングプロセスを最適化します。この前処理ステップにより、トレーニングフェーズでの計算オーバーヘッドを大幅に削減し、トレーニング効率を向上させます。データセットパスを指定するためにmerge.txtファイルを提供する必要があります。データセットはtraining_data.jsonのようなJSON形式である必要があります。最終的に、潜在表現とテキスト埋め込みのパスを含むvideo_caption.jsonが得られます。
bash scripts/data_preprocess/preprocess.sh
データ形式の例:
merge.txt
relative_path_to_json_dir, training_data.json
training_data.json
[
{
"cap": "プロンプト",
"path": "ビデオへのパス/video.mp4",
"resolution": {
"width": 3840,
"height": 2160
},
"fps": 23.976023976023978,
"duration": 1.4180833333333331
},
...
]
出力JSON:
video_caption.json
[
{
"latent_path": "潜在表現へのパス/latent.pt",
"prompt_embed_path": "プロンプト埋め込みへのパス/prompt_embed.pt",
"length": 12
},
...
]
トレーニング
bash scripts/train/finetune.sh
マルチノードトレーニング時には、ノード数とノードあたりのプロセス数を手動で設定する必要があります。 マルチノードトレーニング用のサンプルスクリプトを提供しています。
bash scripts/train/finetune_multi_node.sh
手動評価