vidオープンソースビデオ生成システム - 英語の説明に基づいて無料で対応するビデオコンテンツを作成

ホーム

Vid

AVIIAXによって開発

拡散モデルに基づくマルチステージのテキストから動画への生成システムで、英語の記述に応じた動画コンテンツを生成可能

テキスト生成ビデオ #英文テキストから動画生成 #マルチステージ拡散モデル #長尺動画生成の最適化

ダウンロード数 479

リリース時間 : 11/2/2023

モデル概要

このモデルは、テキスト特徴抽出、拡散モデル、動画空間変換の3つのサブネットワークを通じてテキストから動画を生成し、パラメータ数は約17億

モデル特徴

マルチステージ生成アーキテクチャ

テキスト特徴抽出、動画潜在空間拡散、視覚空間変換の3つのサブネットワークを含む

長尺動画生成サポート

アテンション機構とVAEスライス技術により、最大25秒の動画を生成可能

メモリ最適化

モデルのCPUオフロードとVAEスライスをサポートし、16GB GPUで動作可能

モデル能力

英語テキストから動画生成

動的シーン合成

複数オブジェクトの組み合わせ生成

使用事例

クリエイティブコンテンツ生成

架空シーン生成

現実には存在しない架空のシーン動画を生成（例: 宇宙飛行士が馬に乗る）

滑らかな架空の動作動画を生成可能

キャラクター動作シミュレーション

特定キャラクターに指定した動作動画を生成（例: スパイダーマンがサーフィン）

キャラクター特性を保持しながら指定動作を完了

概念の可視化

抽象概念の可視化

抽象的なテキスト記述を直観的な動画に変換

テキスト記述に合致した動画コンテンツを生成

🚀 オープンドメインにおけるテキストから動画合成モデル

このモデルは、多段階のテキストから動画生成拡散モデルに基づいており、説明テキストを入力すると、そのテキスト説明に合致する動画を返します。現在は英語入力のみをサポートしています。

採用中！ (中国、北京/杭州を拠点として)

もしあなたが刺激的な挑戦を求め、AIGCや大規模事前学習における最先端技術と共に働く機会を探しているなら、私たちのチームはあなたにぴったりです。私たちは才能があり、やる気があり、創造性に溢れた人材をチームに加えることを目指しています。もし興味があれば、履歴書を送付してください。

メール: yingya.zyy@alibaba-inc.com

📚 ドキュメント

モデルの説明

テキストから動画生成拡散モデルは、3つのサブネットワークから構成されています。テキスト特徴抽出モデル、テキスト特徴から動画潜在空間拡散モデル、および動画潜在空間から動画視覚空間モデルです。全体のモデルパラメータは約17億です。現在は英語入力のみをサポートしています。拡散モデルはUNet3D構造を採用し、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現します。

このモデルは研究目的で作成されています。モデルの制限とバイアスおよび誤用、悪意のある使用と過度の使用のセクションをご覧ください。

モデルの詳細

プロパティ	詳細
開発者	ModelScope
モデルタイプ	拡散ベースのテキストから動画生成モデル
言語	英語
ライセンス	CC - BY - NC - ND
詳細情報のリソース	ModelScope GitHubリポジトリ、概要
引用形式	下記参照

モデルの利用例

このモデルは幅広い用途があり、任意の英語のテキスト説明に基づいて動画を推論し生成することができます。

🚀 クイックスタート

まず、必要なライブラリをインストールしましょう。

$ pip install diffusers transformers accelerate torch

次に、動画を生成します。

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

以下はいくつかの結果です。


宇宙飛行士が馬に乗っている。	ダース・ベイダーが波乗りをしている。

長い動画の生成

注意機構とVAEのスライシングを有効にし、Torch 2.0を使用することで、メモリ使用量を最適化することができます。これにより、16GB未満のGPU VRAMで最大25秒の動画を生成することができます。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# パイプラインを読み込む
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# GPUメモリを最適化する
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 動画に変換
video_path = export_to_video(video_frames)

結果の表示

上記のコードは出力動画の保存パスを表示します。現在のエンコーディング形式はVLCプレーヤーで再生できます。

出力されたmp4ファイルはVLCメディアプレーヤーで閲覧できます。他の一部のメディアプレーヤーでは正常に閲覧できない場合があります。

モデルの制限とバイアス

このモデルはWebvidなどの公開データセットに基づいて学習されており、生成結果は学習データの分布に関連する偏差を持つ可能性があります。
このモデルは完全な映画やテレビの品質の生成を達成することはできません。
このモデルは明確なテキストを生成することができません。
このモデルは主に英語コーパスで学習されており、現時点では他の言語をサポートしていません。
このモデルの性能は、複雑な構図生成タスクで改善する必要があります。

誤用、悪意のある使用と過度の使用

このモデルは人やイベントを現実的に表現するように学習されていないため、そのようなコンテンツを生成することはモデルの能力を超えています。
人やその環境、文化、宗教などを貶めるまたは有害なコンテンツの生成は禁止されています。
ポルノグラフィック、暴力的、血腥なコンテンツの生成は禁止されています。
誤りや虚偽の情報の生成は禁止されています。

学習データ

学習データにはLAION5B、ImageNet、[Webvid](https://m - bain.github.io/webvid-dataset/)などの公開データセットが含まれています。事前学習後に、美学スコア、ウォーターマークスコア、重複排除などの処理を行った後、画像と動画のフィルタリングが行われます。

(このモデルカードの一部はこちらから引用されています。)

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High - Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }