M

Modelscope Damo Text To Video Synthesis

由ali-vilab開發
多階段文本生成視頻擴散模型,輸入英文描述文本即可生成符合文字敘述的視頻內容
下載量 2,573
發布時間 : 3/19/2023

模型概述

採用擴散模型架構,通過文本特徵提取、視頻潛空間擴散和視覺空間解碼三個核心子網絡實現文本到視頻的生成功能

模型特點

多階段生成架構
包含文本特徵提取、視頻潛空間擴散和視覺解碼三個核心模塊
迭代去噪生成
採用從高斯噪聲視頻進行迭代去噪的生成方式
開放數據集訓練
基於Webvid等公開數據集訓練,支持多樣化的視頻生成

模型能力

文本到視頻生成
英文文本理解
動態場景生成

使用案例

創意內容生成
概念可視化
將抽象概念轉化為可視化視頻
生成符合文字描述的動態場景
教育內容創作
自動生成教學演示視頻
快速製作基礎教學素材
原型設計
產品概念展示
根據產品描述生成概念視頻
快速可視化產品設計理念
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase