🚀 テキストから動画合成モデル
このモデルは、入力された英語のテキスト記述に基づいて、それに合致する動画を生成する多段階のテキストから動画生成拡散モデルです。
🚀 クイックスタート
元のリポジトリはこちらにあります。
採用中! (中国の北京/杭州を拠点としています。)
もしあなたがAIGCや大規模事前学習における最先端技術と共に働くチャンスを求めているなら、私たちのチームはあなたにぴったりです。才能があり、やる気があり、創造性のある方を募集しています。興味がある方は、履歴書を送付してください。
メール: yingya.zyy@alibaba-inc.com
✨ 主な機能
このモデルは、テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から動画視覚空間への3つのサブネットワークで構成されています。全体のモデルパラメータは約17億です。英語の入力のみをサポートしています。拡散モデルはUnet3D構造を採用し、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成機能を実現します。
⚠️ 重要提示
このモデルは研究目的で使用することを想定しています。モデルの制限とバイアスおよび誤用、悪意のある使用、過度の使用のセクションをご確認ください。
💡 使用建议
このモデルは任意の英語のテキスト記述に基づいて動画を推論し生成することができ、幅広い用途があります。
📦 インストール
動作環境 (Pythonパッケージ)
pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning
💻 使用例
基本的な使用法
from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib
model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)
pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': 'A panda eating bamboo on a rock.',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
結果の確認
上記のコードは出力動画の保存パスを表示し、現在のエンコード形式はVLCプレーヤーで正常に再生できます。出力されたmp4ファイルはVLCメディアプレーヤーで確認できます。他の一部のメディアプレーヤーでは正常に表示されない場合があります。
📚 ドキュメント
モデルはModelScope Studioとhuggingfaceで公開されており、直接体験することができます。また、Colabページを参照して自分で構築することもできます。
モデルの体験を容易にするために、ユーザーはAliyun Notebookチュートリアルを参照して、このテキストから動画モデルを迅速に開発することができます。
このデモには約16GBのCPU RAMと16GBのGPU RAMが必要です。ModelScopeフレームワークの下では、現在のモデルは簡単なパイプラインを呼び出すことで使用できます。入力は辞書形式でなければならず、有効なキー値は'text'で、内容は短いテキストです。このモデルは現在、GPUでの推論のみをサポートしています。
🔧 技術詳細
このテキストから動画生成拡散モデルは、テキスト特徴抽出、テキスト特徴から動画潜在空間への拡散モデル、動画潜在空間から動画視覚空間への3つのサブネットワークで構成されています。全体のモデルパラメータは約17億です。英語の入力をサポートしています。拡散モデルはUnet3D構造を採用し、純粋なガウスノイズ動画からの反復的なノイズ除去プロセスを通じて動画生成機能を実現します。
モデルの制限とバイアス
- このモデルはWebvidなどの公開データセットに基づいて学習されており、生成結果は学習データの分布に関連する偏差がある可能性があります。
- このモデルでは、完全な映画やテレビの品質の生成を実現することはできません。
- このモデルは明確なテキストを生成することはできません。
- このモデルは主に英語のコーパスで学習されており、現時点では他の言語をサポートしていません。
- このモデルの性能は、複雑な構図生成タスクで向上する必要があります。
誤用 悪意のある使用 過度の使用
- このモデルは、人やイベントを現実的に表現するように学習されていないため、そのような内容を生成することはモデルの能力を超えています。
- 人やその環境、文化、宗教などを貶めるまたは有害な内容の生成は禁止されています。
- ポルノグラフィック、暴力的、血腥な内容の生成は禁止されています。
- 誤った情報や虚偽の情報の生成は禁止されています。
学習データ
学習データにはLAION5B、ImageNet、Webvidなどの公開データセットが含まれています。事前学習後に、美学スコア、透かしスコア、重複排除などの画像および動画のフィルタリングが行われます。
引用
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。