modelscope-damo-text-to-video-synthesis開源模型 - 輸入英文文本輕鬆生成對應視頻內容

首頁

Modelscope Damo Text To Video Synthesis

由ali-vilab開發

多階段文本生成視頻擴散模型，輸入英文描述文本即可生成符合文字敘述的視頻內容

文本生成視頻 #英文文本生成視頻 #多階段擴散模型 #AIGC內容創作

下載量 2,573

發布時間 : 3/19/2023

模型概述

採用擴散模型架構，通過文本特徵提取、視頻潛空間擴散和視覺空間解碼三個核心子網絡實現文本到視頻的生成功能

模型特點

多階段生成架構

包含文本特徵提取、視頻潛空間擴散和視覺解碼三個核心模塊

迭代去噪生成

採用從高斯噪聲視頻進行迭代去噪的生成方式

開放數據集訓練

基於Webvid等公開數據集訓練，支持多樣化的視頻生成

模型能力

文本到視頻生成

英文文本理解

動態場景生成

使用案例

創意內容生成

概念可視化

將抽象概念轉化為可視化視頻

生成符合文字描述的動態場景

教育內容創作

自動生成教學演示視頻

快速製作基礎教學素材

原型設計

產品概念展示

根據產品描述生成概念視頻

快速可視化產品設計理念

🚀 文本到視頻合成模型

本項目是一個文本到視頻合成模型，它能夠根據輸入的英文文本描述生成與之匹配的視頻。該模型基於多階段文本到視頻生成擴散模型構建，在視頻生成領域有廣泛的應用。

🚀 快速開始

模型已在 ModelScope Studio 和 huggingface 上發佈，你可以直接體驗；也可以參考 Colab 頁面自行搭建。為了方便體驗模型，用戶可以參考阿里雲 Notebook 教程快速開發此文本到視頻模型。

本演示大約需要 16GB 的 CPU 內存和 16GB 的 GPU 內存。在 ModelScope 框架下，通過調用簡單的 Pipeline 即可使用當前模型，輸入必須為字典格式，合法鍵值為 'text'，內容為簡短文本。該模型目前僅支持在 GPU 上進行推理。具體代碼示例如下：

運行環境（Python 包）

pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning

代碼示例（演示代碼）

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

查看結果

上述代碼將顯示輸出視頻的保存路徑，當前編碼格式可使用 VLC 播放器正常播放。輸出的 mp4 文件可通過 VLC 媒體播放器查看，其他一些媒體播放器可能無法正常查看。

✨ 主要特性

本模型基於多階段文本到視頻生成擴散模型，由文本特徵提取、文本特徵到視頻潛空間擴散模型以及視頻潛空間到視頻視覺空間三個子網絡組成。
模型整體參數約 17 億，支持英文輸入。
擴散模型採用 Unet3D 結構，通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成功能。
具有廣泛的應用場景，能夠根據任意英文文本描述進行推理並生成視頻。

📦 安裝指南

運行環境（Python 包）

pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning

💻 使用示例

基礎用法

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

📚 詳細文檔

模型描述

文本到視頻生成擴散模型由三個子網絡組成：文本特徵提取、文本特徵到視頻潛空間擴散模型以及視頻潛空間到視頻視覺空間。模型整體參數約 17 億，支持英文輸入。擴散模型採用 Unet3D 結構，通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成功能。

本模型僅用於研究目的，請查看模型侷限性和偏差以及濫用、惡意使用和過度使用部分。

模型的預期使用方式和適用場景 本模型具有廣泛的應用場景，能夠根據任意英文文本描述進行推理並生成視頻。

模型侷限性和偏差

模型基於 Webvid 等公共數據集進行訓練，生成結果可能與訓練數據的分佈存在偏差。
本模型無法實現完美的影視級質量生成。
模型無法生成清晰的文本。
模型主要使用英文語料進行訓練，目前不支持其他語言。
該模型在複雜構圖生成任務上的性能有待提高。

濫用、惡意使用和過度使用

模型並非用於真實地呈現人物或事件，因此使用其生成此類內容超出了模型的能力範圍。
禁止生成貶低或傷害他人、其環境、文化、宗教等的內容。
禁止用於色情、暴力和血腥內容的生成。
禁止用於錯誤和虛假信息的生成。

訓練數據

訓練數據包括 LAION5B、ImageNet、Webvid 等公共數據集。在預訓練後進行圖像和視頻過濾，如美學評分、水印評分和去重等操作。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }