T

Text To Video Ms 1.7b

Developed by ali-vilab
基於多階段文本到視頻生成擴散模型,輸入英文描述文本後返回符合文本描述的視頻
Downloads 14.01k
Release Time : 3/22/2023

Model Overview

文本生成視頻擴散模型由三個子網絡組成:文本特徵提取模型、文本特徵到視頻隱空間的擴散模型、視頻隱空間到視頻視覺空間的模型。整體模型參數量約17億,目前僅支持英文輸入。

Model Features

多階段生成架構
由文本特徵提取、文本特徵到視頻隱空間擴散、視頻隱空間到視覺空間三個子網絡組成
長視頻生成能力
通過優化技術可在16GB GPU顯存內生成最長25秒的視頻
顯存優化技術
支持注意力機制和VAE切片技術,配合Torch 2.0實現顯存高效利用

Model Capabilities

文本到視頻生成
開放域視頻創作
多對象場景合成

Use Cases

創意內容生成
虛構場景創作
生成虛構人物在非現實場景中的視頻,如宇航員騎馬
可生成流暢的虛構場景動畫
概念可視化
將抽象概念或文字描述轉化為可視化視頻
快速實現創意概念的可視化表達
教育娛樂
教育內容製作
為教育內容創建配套視頻素材
簡化教育視頻製作流程
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase