🚀 オープンドメインにおけるテキストから動画への合成モデル
このモデルは、多段階のテキストから動画を生成する拡散モデルに基づいており、説明テキストを入力すると、そのテキスト説明に一致する動画を返します。現在は英語の入力のみをサポートしています。
採用中! (中国、北京/杭州拠点)
AIGCや大規模事前学習における最先端技術で、刺激的な挑戦と仕事の機会を求めている方は、是非私たちのチームにご参加ください。才能があり、意欲的で創造性のある方を募集しています。興味がある方は、履歴書を送付してください。
メール: yingya.zyy@alibaba-inc.com
✨ 主な機能
このモデルは、テキスト記述に基づいて動画を生成することができ、英語のテキスト入力に対応しています。研究目的で開発されており、様々なアプリケーションに利用できます。
📦 インストール
まずは必要なライブラリをインストールしましょう。
$ pip install diffusers transformers accelerate torch
長い動画を生成する場合は、以下のコマンドでインストールします。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
💻 使用例
基本的な使用法
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
高度な使用法
長い動画を生成するには、以下のコードを使用します。
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
video_path = export_to_video(video_frames)
📚 ドキュメント
モデルの説明
テキストから動画を生成する拡散モデルは、3つのサブネットワークで構成されています。テキスト特徴抽出モデル、テキスト特徴から動画潜在空間への拡散モデル、および動画潜在空間から動画視覚空間へのモデルです。全体のモデルパラメータは約17億です。現在は英語の入力のみをサポートしています。拡散モデルはUNet3D構造を採用しており、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成を実現します。
このモデルは研究目的で使用することを想定しています。モデルの制限とバイアスおよび誤用、悪意のある使用と過度の使用のセクションをご確認ください。
モデルの詳細
モデルの制限とバイアス
- このモデルはWebvidなどの公開データセットを基に学習されており、生成結果は学習データの分布に関連する偏差がある可能性があります。
- このモデルでは、完全な映画やテレビ番組の品質の生成を達成することはできません。
- このモデルは明確なテキストを生成することはできません。
- このモデルは主に英語のコーパスで学習されており、現時点では他の言語をサポートしていません。
- このモデルの性能は、複雑な構図生成タスクでは改善が必要です。
誤用、悪意のある使用、および過度の使用
- このモデルは、人やイベントを現実的に表現するように学習されていないため、そのようなコンテンツを生成することはモデルの能力を超えています。
- 人やその環境、文化、宗教などを貶めるまたは有害なコンテンツの生成は禁止されています。
- ポルノグラフィック、暴力的、および血腥なコンテンツの生成は禁止されています。
- 誤りや虚偽の情報の生成は禁止されています。
学習データ
学習データには、LAION5B、ImageNet、Webvidなどの公開データセットが含まれています。事前学習後に、美学スコア、透かしスコア、重複排除などのフィルタリングが画像および動画に対して行われます。
結果の確認
上記のコードでは、出力動画の保存パスが表示されます。現在のエンコーディング形式はVLCプレーヤーで再生できます。
出力されたmp4ファイルはVLCメディアプレーヤーで確認できます。他の一部のメディアプレーヤーでは正常に表示されない場合があります。
🔧 技術詳細
このモデルは、多段階のテキストから動画を生成する拡散モデルであり、テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散、および動画潜在空間から動画視覚空間への変換という3つの主要なステップを経て動画を生成します。拡散モデルはUNet3D構造を使用しており、反復的なノイズ除去プロセスによって動画を生成します。
📄 ライセンス
このモデルはCC - BY - NC - ND 4.0ライセンスの下で提供されています。
引用
@article{wang2023modelscope,
title={Modelscope text-to-video technical report},
author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
journal={arXiv preprint arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}