🚀 文本到视频合成模型
本项目是一个文本到视频合成模型,它能够根据输入的英文文本描述生成与之匹配的视频。该模型基于多阶段文本到视频生成扩散模型构建,在视频生成领域有广泛的应用。
🚀 快速开始
模型已在 ModelScope Studio 和 huggingface 上发布,你可以直接体验;也可以参考 Colab 页面 自行搭建。
为了方便体验模型,用户可以参考 阿里云 Notebook 教程 快速开发此文本到视频模型。
本演示大约需要 16GB 的 CPU 内存和 16GB 的 GPU 内存。在 ModelScope 框架下,通过调用简单的 Pipeline 即可使用当前模型,输入必须为字典格式,合法键值为 'text',内容为简短文本。该模型目前仅支持在 GPU 上进行推理。具体代码示例如下:
运行环境(Python 包)
pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning
代码示例(演示代码)
from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib
model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)
pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': 'A panda eating bamboo on a rock.',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
查看结果
上述代码将显示输出视频的保存路径,当前编码格式可使用 VLC 播放器 正常播放。
输出的 mp4 文件可通过 VLC 媒体播放器 查看,其他一些媒体播放器可能无法正常查看。
✨ 主要特性
- 本模型基于多阶段文本到视频生成扩散模型,由文本特征提取、文本特征到视频潜空间扩散模型以及视频潜空间到视频视觉空间三个子网络组成。
- 模型整体参数约 17 亿,支持英文输入。
- 扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频的迭代去噪过程实现视频生成功能。
- 具有广泛的应用场景,能够根据任意英文文本描述进行推理并生成视频。
📦 安装指南
运行环境(Python 包)
pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning
💻 使用示例
基础用法
from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib
model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)
pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': 'A panda eating bamboo on a rock.',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
📚 详细文档
模型描述
文本到视频生成扩散模型由三个子网络组成:文本特征提取、文本特征到视频潜空间扩散模型以及视频潜空间到视频视觉空间。模型整体参数约 17 亿,支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频的迭代去噪过程实现视频生成功能。
本模型仅用于研究目的,请查看 模型局限性和偏差 以及 滥用、恶意使用和过度使用 部分。
模型的预期使用方式和适用场景
本模型具有广泛的应用场景,能够根据任意英文文本描述进行推理并生成视频。
模型局限性和偏差
- 模型基于 Webvid 等公共数据集进行训练,生成结果可能与训练数据的分布存在偏差。
- 本模型无法实现完美的影视级质量生成。
- 模型无法生成清晰的文本。
- 模型主要使用英文语料进行训练,目前不支持其他语言。
- 该模型在复杂构图生成任务上的性能有待提高。
滥用、恶意使用和过度使用
- 模型并非用于真实地呈现人物或事件,因此使用其生成此类内容超出了模型的能力范围。
- 禁止生成贬低或伤害他人、其环境、文化、宗教等的内容。
- 禁止用于色情、暴力和血腥内容的生成。
- 禁止用于错误和虚假信息的生成。
训练数据
训练数据包括 LAION5B、ImageNet、Webvid 等公共数据集。在预训练后进行图像和视频过滤,如美学评分、水印评分和去重等操作。
引用
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 许可证
本模型采用 CC BY-NC 4.0 许可证。
⚠️ 重要提示
本模型仅用于研究目的,请查看 模型局限性和偏差 以及 滥用、恶意使用和过度使用 部分。
💡 使用建议
本模型目前仅支持英文输入,在使用时请确保输入为英文文本。同时,由于模型在复杂构图生成任务上的性能有待提高,对于此类任务的输入请谨慎使用。