T

Text To Video Ms 1.7b

由ali-vilab開發
基於多階段文本到視頻生成擴散模型,輸入英文描述文本後返回符合文本描述的視頻
下載量 14.01k
發布時間 : 3/22/2023

模型概述

文本生成視頻擴散模型由三個子網絡組成:文本特徵提取模型、文本特徵到視頻隱空間的擴散模型、視頻隱空間到視頻視覺空間的模型。整體模型參數量約17億,目前僅支持英文輸入。

模型特點

多階段生成架構
由文本特徵提取、文本特徵到視頻隱空間擴散、視頻隱空間到視覺空間三個子網絡組成
長視頻生成能力
通過優化技術可在16GB GPU顯存內生成最長25秒的視頻
顯存優化技術
支持注意力機制和VAE切片技術,配合Torch 2.0實現顯存高效利用

模型能力

文本到視頻生成
開放域視頻創作
多對象場景合成

使用案例

創意內容生成
虛構場景創作
生成虛構人物在非現實場景中的視頻,如宇航員騎馬
可生成流暢的虛構場景動畫
概念可視化
將抽象概念或文字描述轉化為可視化視頻
快速實現創意概念的可視化表達
教育娛樂
教育內容製作
為教育內容創建配套視頻素材
簡化教育視頻製作流程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase