text-to-video-ms-1.7b-legacyオープンソースモデル - 英語のテキストを入力して無料で一致するビデオを生成

ホーム

Text To Video Ms 1.7b Legacy

ali-vilabによって開発

多段階テキスト動画生成拡散モデルに基づき、英語の記述テキストを入力すると、記述に合った動画を生成

テキスト生成ビデオ #英文テキストから動画生成 #多段階拡散モデル #動的シーン生成

ダウンロード数 133

リリース時間 : 3/22/2023

モデル概要

このモデルは、テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から視覚空間へのモデルで構成され、UNet3D構造を採用し、反復的なノイズ除去により動画生成を実現

モデル特徴

多段階生成アーキテクチャ

テキスト特徴抽出、潜在空間拡散、視覚空間変換の3段階アーキテクチャを採用

長尺動画生成能力

メモリ最適化技術により最大25秒の動画を生成可能

高品質動画生成

テキスト記述に合った一貫性のある動画コンテンツを生成可能

モデル能力

テキストから動画生成

英語テキスト理解

動的シーン生成

使用事例

クリエイティブコンテンツ生成

架空シーン生成

想像上のシーンから動画生成、例えば宇宙飛行士が馬に乗る

記述に合った動的動画を生成

キャラクター動作生成

特定キャラクターの動作動画生成、例えばスパイダーマンがサーフィン

指定動作を実行するキャラクター動画を生成

教育デモンストレーション

概念の可視化

抽象的な概念を可視化動画に変換

🚀 オープンドメインにおけるテキストから動画への合成モデル

このモデルは、多段階のテキストから動画を生成する拡散モデルに基づいており、説明用のテキストを入力すると、そのテキスト説明に合致した動画を返します。現在は英語の入力のみをサポートしています。

🚀 クイックスタート

このモデルは、多段階のテキストから動画を生成する拡散モデルで、英語のテキスト説明を入力することで、それに合った動画を生成できます。以下に使用方法を説明します。

✨ 主な機能

任意の英語のテキスト記述に基づいて動画を推論し、生成することができます。
多段階の拡散モデルを使用して、高品質な動画生成を実現します。

📦 インストール

まず、必要なライブラリをインストールしましょう。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

💻 使用例

基本的な使用法

動画を生成するには、以下のコードを実行します。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b-legacy", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高度な使用法

長い動画を生成する場合、メモリ使用量を最適化するために、注意機構とVAEのスライシングを有効にし、Torch 2.0を使用することができます。これにより、16GB未満のGPU VRAMで最大25秒の動画を生成できます。

$ pip install diffusers transformers accelerate transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# load pipeline
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# optimize for GPU memory
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# generate
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# convent to video
video_path = export_to_video(video_frames)

📚 ドキュメント

モデルの説明

テキストから動画を生成する拡散モデルは、3つのサブネットワークで構成されています。テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、および動画潜在空間から動画視覚空間へのモデルです。全体のモデルパラメータは約17億です。現在は英語の入力のみをサポートしています。拡散モデルはUNet3D構造を採用しており、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現します。

このモデルは研究目的で使用されることを想定しています。モデルの制限とバイアスおよび誤用、悪意のある使用と過度の使用のセクションを参照してください。

モデルの詳細

Property	Details
開発元	ModelScope
モデルタイプ	拡散ベースのテキストから動画を生成するモデル
言語	英語
ライセンス	CC - BY - NC - ND
詳細情報のリソース	ModelScope GitHubリポジトリ、概要
引用形式

ユースケース

このモデルは幅広い用途があり、任意の英語のテキスト記述に基づいて動画を推論し、生成することができます。

結果の表示

上記のコードを実行すると、出力動画の保存パスが表示されます。現在のエンコード形式はVLCプレーヤーで再生できます。他の一部のメディアプレーヤーでは正常に再生できない場合があります。

モデルの制限とバイアス

このモデルはWebvidなどの公開データセットに基づいて学習されており、生成結果は学習データの分布に関連する偏差がある可能性があります。
このモデルでは、完全な映画やテレビの品質の生成を達成することはできません。
このモデルは明確なテキストを生成することはできません。
このモデルは主に英語のコーパスで学習されており、現時点では他の言語をサポートしていません。
このモデルの性能は、複雑な構図生成タスクで改善する必要があります。

誤用、悪意のある使用と過度の使用

このモデルは、人やイベントを現実的に表現するように学習されていないため、そのようなコンテンツを生成することはモデルの能力を超えています。
人やその環境、文化、宗教などを貶めるまたは有害なコンテンツの生成は禁止されています。
ポルノグラフィック、暴力的、血腥なコンテンツの生成は禁止されています。
誤りや虚偽の情報の生成は禁止されています。

学習データ

学習データには、LAION5B、ImageNet、[Webvid](https://m - bain.github.io/webvid-dataset/)などの公開データセットが含まれています。事前学習後に、審美スコア、透かしスコア、重複排除などの処理を行った後、画像と動画のフィルタリングが行われます。

(このモデルカードの一部はこちらから引用されています)