Moviigen1.1

ZuluVisionによって開発

MoviiGen 1.1はWan2.1を微調整した映画級ビデオ生成モデルで、映画美学と視覚品質に優れた性能を発揮します。

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #映画級ビデオ生成 #高忠実度ビジュアル一貫性 #プロフェッショナル映像制作

ダウンロード数 5,165

リリース時間 : 5/12/2025

モデル概要

MoviiGen 1.1は最先端のビデオ生成モデルで、映画美学と視覚品質に焦点を当て、720Pと1080P解像度の出力をサポートしています。

モデル特徴

卓越した映画美学

雰囲気作り、カメラムーブメント、物体ディテール保持の3つの重要な次元で競合を上回ります

視覚的一貫性と品質

鮮明度（+14.6%）とリアリズム（+4.3%）で優れた性能を発揮

包括的な視覚能力

複雑な視覚シーンでも安定したパフォーマンスを確保し、主体とシーンの一貫性を保ちます

高品質出力

720Pと1080P解像度をサポートし、シーケンス全体で一貫した視覚品質を維持

プロフェッショナル級効果

映画品質、視覚的一貫性、美学的高品質を極めて要求するアプリケーションに特に適しています

モデル能力

テキストからビデオ生成

高解像度ビデオ生成

映画級視覚効果生成

複雑シーン処理

使用事例

映像制作

映画シーン生成

フィルムノワールスタイルの探偵事務所など、映画美学的なシーンを生成

ハイコントラストな映画雰囲気、荒々しい質感と圧迫感のあるムード

広告ビデオ生成

高品質な製品紹介ビデオを生成

クリアなディテールとリアルな視覚効果

クリエイティブアプリケーション

アート創作

特定の芸術スタイルを持つビデオ作品を生成

一貫した視覚スタイルと高品質なモーションダイナミクス

license: apache-2.0 language:

en pipeline_tag: text-to-video tags:
動画生成 library_name: diffusers base_model:
Wan-AI/Wan2.1-T2V-14B
Wan-AI/Wan2.1-T2V-14B-Diffusers

MoviiGen 1.1

MoviiGen 1.1: 映画品質の動画生成モデルへ

このリポジトリでは、映画的な美学と視覚的品質に優れた最先端の動画生成モデルMoviiGen 1.1を紹介します。このモデルはWan2.1をベースにファインチューニングされたものです。業界の専門家を含む11人のプロの映画制作者とAIGCクリエイターによる60の美的次元にわたる包括的な評価に基づき、MoviiGen 1.1は以下の重要な映画的な側面で優れた性能を示しています：

üëç 優れた映画的美学：MoviiGen 1.1は、雰囲気作り、カメラの動き、オブジェクトのディテール保持の3つの重要な次元で競合を上回り、プロの映画制作アプリケーションに最適な選択肢です。
üëç 視覚的一貫性と品質：MoviiGen 1.1は明瞭さ（+14.6%）とリアリズム（+4.3%）で優れており、実シーン変換やポートレートのディテールなど、高精細なシナリオに理想的です。Wan2.1は滑らかさと全体的な視覚的調和で際立っており、構図、一貫性、芸術的スタイルを重視するタスクに適しています。両モデルは全体的なスコアが近いため、ユーザーは明瞭さとリアリズムのためにMoviiGen 1.1を、スタイルと構造的一貫性のためにWan2.1を選択できます。
üëç 包括的な視覚能力：MoviiGen 1.1は複雑な視覚シナリオでも安定した性能を提供し、一貫した被写体とシーンの表現を維持しながら、高品質な動的表現を保証します。
üëç 高品質な出力：このモデルは卓越した明瞭さとディテールで動画を生成し、720Pと1080Pの両方の解像度をサポートしながら、シーケンス全体で一貫した視覚的品質を維持します。
üëç プロフェッショナルグレードの結果：MoviiGen 1.1は、映画品質、視覚的一貫性、美的卓越性が最も重要となるアプリケーションに特に適しており、他のモデルと比較して優れた全体的な品質を提供します。

このリポジトリには、映画的な動画生成において新たな基準を確立した最新モデルが含まれています。業界の専門家による広範な評価を通じて、自然な動的表現と一貫した美的品質を備えた高品質なビジュアルを作成する際の卓越した能力が実証されており、プロフェッショナルな動画制作とクリエイティブなアプリケーションに理想的な選択肢です。

動画デモ

üî• 最新ニュース!!

2025年5月17日: üëã MoviiGen1.1の推論コードとトレーニングコードをリリースしました。
2025年5月12日: üëã MoviiGen1.1の重みをリリースしました。

üí° クイックスタート

インストール

リポジトリをクローン：

git clone https://github.com/ZulutionAI/MoviiGen1.1.git
cd MoviiGen1.1

依存関係をインストール：

# torch >= 2.4.0を確認
pip install -r requirements.txt

FastVideoを指示に従ってインストール。

モデルダウンロード

T2V-14B モデル: ü§ó Huggingface MoviiGen1.1モデルは720Pと1080Pの両方をサポートしています。より映画的な品質を得るためには、1080Pと21:9のアスペクト比（1920*832）を使用することをお勧めします。

huggingface-cliを使用してモデルをダウンロード：

pip install "huggingface_hub[cli]"
huggingface-cli download ZuluVision/MoviiGen1.1 --local-dir ./MoviiGen1.1

üé• 推論

プロンプト拡張なしで推論：

PYTHONPATH=. python scripts/inference/generate.py --ckpt_dir ./MoviiGen1.1 --prompt "ドラマチックなフィルムノワールの照明に包まれた煙たい雰囲気の私立探偵事務所の中で、スラットブラインドからの鋭い影が散らかった机と古びた周囲を切り裂き、1940年代の映画のクラシックなスタイルを想起させます。疲れ切った探偵が机の後ろに座っています。彼はタバコを吸いながら、ゆっくりと唇に運び、吸い込み、吐き出した煙の塊が、厳しい指向性の光の中で漂っています。シーンは厳しい白黒でレンダリングされ、高コントラストの映画的なムードを作り出しています。カメラは探偵に焦点を合わせた静止したミディアムショットを保持し、荒々しい質感と圧迫的な雰囲気を強調しています。"

プロンプト拡張ありで推論：

MoviiGen1.1用のプロンプト拡張モデルを提供しています。これは、内部データでファインチューニングされたQwen2.5-7B-Instructモデルです。モデルはü§ó Huggingfaceで利用可能です。

PYTHONPATH=. python scripts/inference/generate.py --ckpt_dir ./MoviiGen1.1 --prompt "赤いドレスを着た美しい女性が通りを歩いています。" --use_prompt_extend --prompt_extend_model ZuluVision/MoviiGen1.1_Prompt_Rewriter

プロンプトのヒント：

プロンプトの長さ：プロンプトの長さは100〜200文字程度が適しています。
プロンプトの内容：プロンプトにはシーンの説明、主被写体、イベント、美学的説明、カメラの動きを含める必要があります。
例：

シーンの説明：ドラマチックなフィルムノワールの照明に包まれた煙たい雰囲気の私立探偵事務所の中で、スラットブラインドからの鋭い影が散らかった机と古びた周囲を切り裂き、1940年代の映画のクラシックなスタイルを想起させます。
主被写体：疲れ切った探偵が机の後ろに座っています。
イベント：彼はタバコを吸いながら、ゆっくりと唇に運び、吸い込み、吐き出した煙の塊が、厳しい指向性の光の中で漂っています。
美学的説明：シーンは厳しい白黒でレンダリングされ、高コントラストの映画的なムードを作り出しています。
カメラの動き：カメラは探偵に焦点を合わせた静止したミディアムショットを保持し、荒々しい質感と圧迫的な雰囲気を強調しています。

最終プロンプト：
ドラマチックなフィルムノワールの照明に包まれた煙たい雰囲気の私立探偵事務所の中で、スラットブラインドからの鋭い影が散らかった机と古びた周囲を切り裂き、1940年代の映画のクラシックなスタイルを想起させます。疲れ切った探偵が机の後ろに座っています。彼はタバコを吸いながら、ゆっくりと唇に運び、吸い込み、吐き出した煙の塊が、厳しい指向性の光の中で漂っています。シーンは厳しい白黒でレンダリングされ、高コントラストの映画的なムードを作り出しています。カメラは探偵に焦点を合わせた静止したミディアムショットを保持し、荒々しい質感と圧迫的な雰囲気を強調しています。

üõ†Ô∏è トレーニング

トレーニングフレームワーク

私たちのトレーニングフレームワークはFastVideoをベースにしており、メモリ使用量とトレーニング効率を最適化するためのシーケンス並列のカスタム実装が含まれています。シーケンス並列アプローチにより、計算負荷を複数のGPUに分散させ、大規模な動画生成モデルの効率的なトレーニングを可能にします。

主な特徴：

シーケンス並列とリングアテンション：私たちのカスタム実装は、時間次元を複数のGPUに分割し、デバイスごとのメモリ要件を削減しながらモデルの品質を維持します。
効率的なデータローディング：高解像度のビデオフレームを処理するための最適化されたデータパイプライン（潜在キャッシュとテキスト埋め込みキャッシュ）。
マルチ解像度トレーニングバケット：複数の解像度でのトレーニングをサポート。
混合精度トレーニング：BF16/FP16トレーニングをサポートし、計算を加速。
分散トレーニング：シームレスなマルチノード、マルチGPUトレーニングサポート。

データ前処理

ビデオと対応するテキストプロンプトを潜在表現とテキスト埋め込みとしてキャッシュし、トレーニングプロセスを最適化します。この前処理ステップにより、トレーニングフェーズでの計算オーバーヘッドを大幅に削減し、トレーニング効率を向上させます。データセットパスを指定するためにmerge.txtファイルを提供する必要があります。データセットはtraining_data.jsonのようなJSON形式である必要があります。最終的に、潜在表現とテキスト埋め込みのパスを含むvideo_caption.jsonが得られます。

bash scripts/data_preprocess/preprocess.sh

データ形式の例：

merge.txt

relative_path_to_json_dir, training_data.json

training_data.json

[
    {
        "cap": "プロンプト",
        "path": "ビデオへのパス/video.mp4",
        "resolution": {
            "width": 3840,
            "height": 2160
        },
        "fps": 23.976023976023978,
        "duration": 1.4180833333333331
    },
    ...
]

出力JSON：

video_caption.json

[
    {
        "latent_path": "潜在表現へのパス/latent.pt",
        "prompt_embed_path": "プロンプト埋め込みへのパス/prompt_embed.pt",
        "length": 12
    },
    ...
]

トレーニング

bash scripts/train/finetune.sh

マルチノードトレーニング時には、ノード数とノードあたりのプロセス数を手動で設定する必要があります。 マルチノードトレーニング用のサンプルスクリプトを提供しています。

bash scripts/train/finetune_multi_node.sh

手動評価

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご