🚀 文本到視頻合成模型
本項目是一個文本到視頻合成模型,它能夠根據輸入的英文文本描述生成與之匹配的視頻。該模型基於多階段文本到視頻生成擴散模型構建,在視頻生成領域有廣泛的應用。
🚀 快速開始
模型已在 ModelScope Studio 和 huggingface 上發佈,你可以直接體驗;也可以參考 Colab 頁面 自行搭建。
為了方便體驗模型,用戶可以參考 阿里雲 Notebook 教程 快速開發此文本到視頻模型。
本演示大約需要 16GB 的 CPU 內存和 16GB 的 GPU 內存。在 ModelScope 框架下,通過調用簡單的 Pipeline 即可使用當前模型,輸入必須為字典格式,合法鍵值為 'text',內容為簡短文本。該模型目前僅支持在 GPU 上進行推理。具體代碼示例如下:
運行環境(Python 包)
pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning
代碼示例(演示代碼)
from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib
model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)
pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': 'A panda eating bamboo on a rock.',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
查看結果
上述代碼將顯示輸出視頻的保存路徑,當前編碼格式可使用 VLC 播放器 正常播放。
輸出的 mp4 文件可通過 VLC 媒體播放器 查看,其他一些媒體播放器可能無法正常查看。
✨ 主要特性
- 本模型基於多階段文本到視頻生成擴散模型,由文本特徵提取、文本特徵到視頻潛空間擴散模型以及視頻潛空間到視頻視覺空間三個子網絡組成。
- 模型整體參數約 17 億,支持英文輸入。
- 擴散模型採用 Unet3D 結構,通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成功能。
- 具有廣泛的應用場景,能夠根據任意英文文本描述進行推理並生成視頻。
📦 安裝指南
運行環境(Python 包)
pip install modelscope==1.4.2
pip install open_clip_torch
pip install pytorch-lightning
💻 使用示例
基礎用法
from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib
model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)
pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': 'A panda eating bamboo on a rock.',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
📚 詳細文檔
模型描述
文本到視頻生成擴散模型由三個子網絡組成:文本特徵提取、文本特徵到視頻潛空間擴散模型以及視頻潛空間到視頻視覺空間。模型整體參數約 17 億,支持英文輸入。擴散模型採用 Unet3D 結構,通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成功能。
本模型僅用於研究目的,請查看 模型侷限性和偏差 以及 濫用、惡意使用和過度使用 部分。
模型的預期使用方式和適用場景
本模型具有廣泛的應用場景,能夠根據任意英文文本描述進行推理並生成視頻。
模型侷限性和偏差
- 模型基於 Webvid 等公共數據集進行訓練,生成結果可能與訓練數據的分佈存在偏差。
- 本模型無法實現完美的影視級質量生成。
- 模型無法生成清晰的文本。
- 模型主要使用英文語料進行訓練,目前不支持其他語言。
- 該模型在複雜構圖生成任務上的性能有待提高。
濫用、惡意使用和過度使用
- 模型並非用於真實地呈現人物或事件,因此使用其生成此類內容超出了模型的能力範圍。
- 禁止生成貶低或傷害他人、其環境、文化、宗教等的內容。
- 禁止用於色情、暴力和血腥內容的生成。
- 禁止用於錯誤和虛假信息的生成。
訓練數據
訓練數據包括 LAION5B、ImageNet、Webvid 等公共數據集。在預訓練後進行圖像和視頻過濾,如美學評分、水印評分和去重等操作。
引用
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 許可證
本模型採用 CC BY-NC 4.0 許可證。
⚠️ 重要提示
本模型僅用於研究目的,請查看 模型侷限性和偏差 以及 濫用、惡意使用和過度使用 部分。
💡 使用建議
本模型目前僅支持英文輸入,在使用時請確保輸入為英文文本。同時,由於模型在複雜構圖生成任務上的性能有待提高,對於此類任務的輸入請謹慎使用。