T

Text To Video Ms 1.7b Legacy

由ali-vilab開發
基於多階段文本生成視頻擴散模型,輸入英文描述文本即可生成符合描述的視頻
下載量 133
發布時間 : 3/22/2023

模型概述

本模型由文本特徵提取模型、文本特徵到視頻潛空間擴散模型、視頻潛空間到視頻視覺空間模型組成,採用UNet3D結構,通過迭代去噪實現視頻生成

模型特點

多階段生成架構
採用文本特徵提取、潛空間擴散和視覺空間轉換三階段架構
長視頻生成能力
通過內存優化技術可生成最長25秒的視頻
高質量視頻生成
能夠生成符合文本描述的連貫視頻內容

模型能力

文本生成視頻
英文文本理解
動態場景生成

使用案例

創意內容生成
虛構場景生成
根據想象場景生成視頻,如宇航員騎馬
生成符合描述的動態視頻
角色動作生成
為特定角色生成動作視頻,如蜘蛛俠衝浪
生成角色執行指定動作的視頻
教育演示
概念可視化
將抽象概念轉化為可視化視頻
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase