text-to-video-ms-1.7bオープンソースモデル - 英語テキストを入力して、記述に合った動画を無料で生成

ホーム

Text To Video Ms 1.7b

ali-vilabによって開発

多段階テキストから動画生成拡散モデルに基づき、英語の記述テキストを入力すると、テキストに合致した動画を返す

テキスト生成ビデオ #多段階拡散モデル #英語テキストから動画生成 #UNet3Dアーキテクチャ

ダウンロード数 14.01k

リリース時間 : 3/22/2023

モデル概要

テキストから動画生成拡散モデルは3つのサブネットワークで構成される：テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から動画視覚空間へのモデル。全体のモデルパラメータ数は約17億で、現在は英語入力のみ対応。

モデル特徴

多段階生成アーキテクチャ

テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散、動画潜在空間から視覚空間への3つのサブネットワークで構成

長尺動画生成能力

最適化技術により16GB GPUメモリ内で最大25秒の動画を生成可能

メモリ最適化技術

注意機構とVAEスライス技術をサポートし、Torch 2.0と連携してメモリ効率を向上

モデル能力

テキストから動画生成

オープンドメイン動画作成

複数オブジェクトシーン合成

使用事例

クリエイティブコンテンツ生成

架空シーン作成

非現実的なシーンでの架空人物の動画を生成、例えば宇宙飛行士が馬に乗る

滑らかな架空シーンアニメーションを生成可能

概念の可視化

抽象的な概念や文章記述を可視化動画に変換

クリエイティブな概念の可視化表現を迅速に実現

教育・エンターテインメント

教育コンテンツ制作

教育コンテンツ用の動画素材を作成

教育動画制作プロセスを簡素化

🚀 オープンドメインにおけるテキストから動画への合成モデル

このモデルは、多段階のテキストから動画を生成する拡散モデルに基づいており、説明テキストを入力すると、そのテキスト説明に合致する動画を返します。英語の入力のみをサポートしています。

採用中！ (中国、北京/杭州拠点)

もしあなたが刺激的な挑戦や、AIGCと大規模事前学習の最先端技術と共に働く機会を求めているなら、私たちのチームはあなたにぴったりです。才能があり、意欲的で創造性のある個人をチームに加えることを求めています。興味がある場合は、履歴書を送付してください。

メールアドレス: yingya.zyy@alibaba-inc.com

🚀 クイックスタート

このモデルは、任意の英語のテキスト説明に基づいて動画を推論し生成することができ、幅広い用途があります。

✨ 主な機能

多段階のテキストから動画を生成する拡散モデルに基づいています。
任意の英語のテキスト説明に基づいて動画を推論し生成することができます。

📦 インストール

まず、必要なライブラリをインストールしましょう。

$ pip install diffusers transformers accelerate torch

💻 使用例

基本的な使用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高度な使用法

長い動画を生成する場合、注意機構とVAEのスライシングを有効にし、Torch 2.0を使用することでメモリ使用量を最適化できます。これにより、16GB未満のGPU VRAMで最大25秒の動画を生成できるはずです。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# load pipeline
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# optimize for GPU memory
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# generate
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# convent to video
video_path = export_to_video(video_frames)

📚 ドキュメント

モデルの説明

テキストから動画を生成する拡散モデルは、3つのサブネットワークで構成されています。テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、および動画潜在空間から動画視覚空間へのモデルです。全体のモデルパラメータは約17億です。現在は英語の入力のみをサポートしています。拡散モデルはUNet3D構造を採用しており、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現します。

このモデルは研究目的で使用することを想定しています。モデルの制限とバイアス、悪意のある使用と過度の使用のセクションを参照してください。

モデルの詳細

属性	详情
開発元	ModelScope
モデルタイプ	拡散ベースのテキストから動画を生成するモデル
言語	英語
ライセンス	CC - BY - NC - ND
詳細情報のリソース	ModelScope GitHubリポジトリ、概要

モデルの制限とバイアス

このモデルはWebvidなどの公開データセットに基づいて学習されており、生成結果は学習データの分布に関連する偏差を持つ可能性があります。
このモデルでは、完全な映画やテレビの品質の生成を達成することはできません。
このモデルは明確なテキストを生成することができません。
このモデルは主に英語のコーパスで学習されており、現時点では他の言語をサポートしていません。
このモデルの性能は、複雑な構図生成タスクで向上する必要があります。

誤用、悪意のある使用、および過度の使用

このモデルは人や出来事を現実的に表現するように学習されていないため、そのような内容を生成することはモデルの能力を超えています。
人やその環境、文化、宗教などを侮辱的または有害な内容を生成することは禁止されています。
ポルノ、暴力、血腥な内容の生成は禁止されています。
誤りや虚偽の情報の生成は禁止されています。

学習データ

学習データには、LAION5B、ImageNet、[Webvid](https://m - bain.github.io/webvid - dataset/)などの公開データセットが含まれています。事前学習後に、美学スコア、透かしスコア、重複排除などの処理を行った後、画像と動画のフィルタリングが行われます。

結果の表示

上記のコードは出力動画の保存パスを表示し、現在のエンコード形式はVLCプレーヤーで再生できます。出力されたmp4ファイルはVLCメディアプレーヤーで表示できます。他の一部のメディアプレーヤーでは正常に表示されない場合があります。

🔧 技術詳細

このモデルは、テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、および動画潜在空間から動画視覚空間へのモデルの3つのサブネットワークで構成されています。全体のモデルパラメータは約17億で、拡散モデルはUNet3D構造を採用しています。純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現しています。

📄 ライセンス

このモデルはCC - BY - NC - NDライセンスの下で提供されています。

引用

    @article{wang2023modelscope,
      title={Modelscope text-to-video technical report},
      author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
      journal={arXiv preprint arXiv:2308.06571},
      year={2023}
    }
    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }