text-to-video-ms-1.7bオープンソースモデル - 英語のテキストを入力するだけで、対応するビデオを無料で生成できます

ホーム

Text To Video Ms 1.7b

vdoによって開発

多段階テキスト生成動画拡散モデルアーキテクチャに基づき、英語の記述テキストを入力すると記述に合った動画コンテンツを生成

テキスト生成ビデオ #英文テキストから動画生成 #多段階拡散モデル #オープンドメインコンテンツ生成

ダウンロード数 55

リリース時間 : 5/7/2023

モデル概要

テキスト生成動画拡散モデルはテキスト特徴抽出、拡散モデル、動画生成の3つのサブネットワークを含み、総パラメータ数は約17億で、テキスト記述から動的な動画コンテンツを生成可能

モデル特徴

多段階生成アーキテクチャ

テキスト特徴抽出、拡散モデル、動画生成の3つのサブネットワークを含み、高品質な動画生成を実現

長尺動画生成能力

最適化技術により16GBのVRAMで最大25秒の動画を生成可能

オープンドメイン生成

任意の英語テキスト記述の動画生成をサポートし、応用シーンが幅広い

モデル能力

テキストから動画生成

オープンドメインコンテンツ創作

動的シーン合成

使用事例

クリエイティブコンテンツ生成

コンセプト可視化

抽象的なテキスト記述を可視化動画コンテンツに変換

テキスト記述に合致した動的シーンを生成

教育デモンストレーション

教育概念の可視化デモ動画を生成

複雑な概念の理解を支援

エンターテインメントコンテンツ創作

ショート動画生成

クリエイティブなテキストに基づきショート動画コンテンツを生成

宇宙飛行士が馬に乗る、ダース・ベイダーがサーフィンするなどのクリエイティブシーンを展示

🚀 オープンドメインにおけるテキストから動画合成モデル

このモデルは、多段階のテキストから動画生成拡散モデルに基づいており、説明テキストを入力すると、そのテキスト説明に一致する動画を返します。英語の入力のみをサポートしています。

採用中！ (中国、北京/杭州拠点)

もしあなたが刺激的な挑戦を求め、AIGCや大規模事前学習における最先端技術で働く機会を探しているなら、私たちのチームはあなたにぴったりです。才能があり、やる気があり、創造性のある人材を募集しています。もし興味があれば、履歴書を送付してください。

メールアドレス: yingya.zyy@alibaba - inc.com

🚀 クイックスタート

まずは必要なライブラリをインストールしましょう。

$ pip install diffusers transformers accelerate

次に、動画を生成します。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo - vilab/text - to - video - ms - 1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

✨ 主な機能

このモデルは、任意の英語のテキスト説明に基づいて動画を推論し、生成することができます。
多段階のテキストから動画生成拡散モデルを使用しています。

📦 インストール

必要なライブラリをインストールするには、以下のコマンドを実行します。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo - vilab/text - to - video - ms - 1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高度な使用法

長い動画を生成するには、以下のコードを使用します。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# load pipeline
pipe = DiffusionPipeline.from_pretrained("damo - vilab/text - to - video - ms - 1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# optimize for GPU memory
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# generate
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# convent to video
video_path = export_to_video(video_frames)

📚 ドキュメント

モデルの説明

テキストから動画生成拡散モデルは、3つのサブネットワークで構成されています。テキスト特徴抽出モデル、テキスト特徴から動画潜在空間拡散モデル、および動画潜在空間から動画視覚空間モデルです。全体のモデルパラメータは約17億です。現在は英語の入力のみをサポートしています。拡散モデルはUNet3D構造を採用しており、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現します。

このモデルは研究目的で使用することを想定しています。[モデルの制限とバイアスおよび誤用](#model - limitations - and - biases)、[悪意のある使用と過度の使用](#misuse - malicious - use - and - excessive - use)のセクションを参照してください。

モデルの詳細

Property	Details
Developed by	ModelScope
Model Type	Diffusion - based text - to - video generation model
Language(s)	English
License	[CC - BY - NC - ND](https://creativecommons.org/licenses/by - nc - nd/4.0/)
Resources for more information	ModelScope GitHub Repository, [Summary](https://modelscope.cn/models/damo/text - to - video - synthesis/summary).
Cite as

モデルの制限とバイアス

このモデルはWebvidなどの公開データセットに基づいて学習されており、生成結果は学習データの分布に関連する偏差がある可能性があります。
このモデルでは、完全な映画やテレビの品質の生成を達成することはできません。
このモデルは明確なテキストを生成することはできません。
このモデルは主に英語のコーパスで学習されており、現時点では他の言語をサポートしていません。
このモデルの性能は、複雑な構図生成タスクでは改善が必要です。

誤用、悪意のある使用、および過度の使用

このモデルは、人や出来事を現実的に表現するように学習されていないため、そのような内容を生成することはモデルの能力を超えています。
人やその環境、文化、宗教などを侮辱的または有害な内容を生成することは禁止されています。
ポルノ、暴力、血腥な内容の生成は禁止されています。
誤りや虚偽の情報の生成は禁止されています。

学習データ

学習データには、[LAION5B](https://huggingface.co/datasets/laion/laion2B - en)、[ImageNet](https://www.image - net.org/)、[Webvid](https://m - bain.github.io/webvid - dataset/)などの公開データセットが含まれています。事前学習後に、美学スコア、ウォーターマークスコア、および重複排除などの画像および動画のフィルタリングが行われます。

結果の確認

上記のコードは、出力動画の保存パスを表示し、現在のエンコーディング形式はVLCプレーヤーで再生することができます。

出力されたmp4ファイルは、VLCメディアプレーヤーで確認することができます。他の一部のメディアプレーヤーでは正常に表示されない場合があります。

🔧 技術詳細

テキストから動画生成拡散モデルは、3つのサブネットワークで構成されています。テキスト特徴抽出モデル、テキスト特徴から動画潜在空間拡散モデル、および動画潜在空間から動画視覚空間モデルです。全体のモデルパラメータは約17億です。拡散モデルはUNet3D構造を採用しており、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現します。

📄 ライセンス

このモデルは[CC - BY - NC - ND](https://creativecommons.org/licenses/by - nc - nd/4.0/)ライセンスの下で提供されています。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High - Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }