ModelScope-DAMOテキストビデオ合成オープンソースモデル - 英語のテキストを入力すれば簡単に対応するビデオ内容を生成

ホーム

Modelscope Damo Text To Video Synthesis

ali-vilabによって開発

多段階テキストから動画を生成する拡散モデルで、英語の説明テキストを入力すると、テキストの内容に合った動画を生成します

テキスト生成ビデオ #英文テキストから動画生成 #多段階拡散モデル #AIGCコンテンツ制作

ダウンロード数 2,573

リリース時間 : 3/19/2023

モデル概要

拡散モデルのアーキテクチャを採用し、テキスト特徴抽出、動画潜在空間拡散、視覚空間デコードという3つのコアサブネットワークを通じて、テキストから動画を生成する機能を実現

モデル特徴

多段階生成アーキテクチャ

テキスト特徴抽出、動画潜在空間拡散、視覚デコードという3つのコアモジュールを含む

反復ノイズ除去生成

ガウスノイズ動画から反復的にノイズを除去する生成方式を採用

オープンデータセットでのトレーニング

Webvidなどの公開データセットに基づいてトレーニングされ、多様な動画生成をサポート

モデル能力

テキストから動画生成

英語テキスト理解

動的シーン生成

使用事例

クリエイティブコンテンツ生成

概念の可視化

抽象的な概念を可視化動画に変換

テキスト記述に合った動的シーンを生成

教育コンテンツ制作

自動的に教育用デモ動画を生成

基本的な教材を迅速に作成

プロトタイプ設計

製品コンセプト展示

製品説明に基づいてコンセプト動画を生成

製品設計理念を迅速に可視化

🚀 テキストから動画合成モデル

このモデルは、入力された英語のテキスト記述に基づいて、それに合致する動画を生成する多段階のテキストから動画生成拡散モデルです。

🚀 クイックスタート

元のリポジトリはこちらにあります。

採用中！ (中国の北京/杭州を拠点としています。)

もしあなたがAIGCや大規模事前学習における最先端技術と共に働くチャンスを求めているなら、私たちのチームはあなたにぴったりです。才能があり、やる気があり、創造性のある方を募集しています。興味がある方は、履歴書を送付してください。

メール: yingya.zyy@alibaba-inc.com

✨ 主な機能

このモデルは、テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から動画視覚空間への3つのサブネットワークで構成されています。全体のモデルパラメータは約17億です。英語の入力のみをサポートしています。拡散モデルはUnet3D構造を採用し、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成機能を実現します。

⚠️ 重要提示

このモデルは研究目的で使用することを想定しています。モデルの制限とバイアスおよび誤用、悪意のある使用、過度の使用のセクションをご確認ください。

💡 使用建议

このモデルは任意の英語のテキスト記述に基づいて動画を推論し生成することができ、幅広い用途があります。

📦 インストール

動作環境 (Pythonパッケージ)

pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning

💻 使用例

基本的な使用法

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

結果の確認

上記のコードは出力動画の保存パスを表示し、現在のエンコード形式はVLCプレーヤーで正常に再生できます。出力されたmp4ファイルはVLCメディアプレーヤーで確認できます。他の一部のメディアプレーヤーでは正常に表示されない場合があります。

📚 ドキュメント

モデルはModelScope Studioとhuggingfaceで公開されており、直接体験することができます。また、Colabページを参照して自分で構築することもできます。モデルの体験を容易にするために、ユーザーはAliyun Notebookチュートリアルを参照して、このテキストから動画モデルを迅速に開発することができます。

このデモには約16GBのCPU RAMと16GBのGPU RAMが必要です。ModelScopeフレームワークの下では、現在のモデルは簡単なパイプラインを呼び出すことで使用できます。入力は辞書形式でなければならず、有効なキー値は'text'で、内容は短いテキストです。このモデルは現在、GPUでの推論のみをサポートしています。

🔧 技術詳細

このテキストから動画生成拡散モデルは、テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から動画視覚空間への3つのサブネットワークで構成されています。全体のモデルパラメータは約17億です。英語の入力をサポートしています。拡散モデルはUnet3D構造を採用し、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成機能を実現します。

モデルの制限とバイアス

このモデルはWebvidなどの公開データセットに基づいて学習されており、生成結果は学習データの分布に関連する偏差がある可能性があります。
このモデルでは、完全な映画やテレビの品質の生成を実現することはできません。
このモデルは明確なテキストを生成することはできません。
このモデルは主に英語のコーパスで学習されており、現時点では他の言語をサポートしていません。
このモデルの性能は、複雑な構図生成タスクで向上する必要があります。

誤用悪意のある使用過度の使用

このモデルは、人やイベントを現実的に表現するように学習されていないため、そのような内容を生成することはモデルの能力を超えています。
人やその環境、文化、宗教などを貶めるまたは有害な内容の生成は禁止されています。
ポルノグラフィック、暴力的、血腥な内容の生成は禁止されています。
誤った情報や虚偽の情報の生成は禁止されています。

学習データ

学習データにはLAION5B、ImageNet、Webvidなどの公開データセットが含まれています。事前学習後に、美学スコア、透かしスコア、重複排除などの画像および動画のフィルタリングが行われます。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }