V

Vid

由AVIIAX開發
基於擴散模型的多階段文本到視頻生成系統,可根據英文描述生成相應視頻內容
下載量 479
發布時間 : 11/2/2023

模型概述

該模型通過文本特徵提取、擴散模型和視頻空間轉換三個子網絡實現文本到視頻的生成,參數量約17億

模型特點

多階段生成架構
包含文本特徵提取、視頻隱空間擴散和視覺空間轉換三個子網絡
長視頻生成支持
通過注意力機制和VAE切片技術可生成最長25秒的視頻
顯存優化
支持模型CPU卸載和VAE切片,可在16GB GPU上運行

模型能力

英文文本到視頻生成
動態場景合成
多對象組合生成

使用案例

創意內容生成
虛構場景生成
生成現實中不存在的虛構場景視頻,如宇航員騎馬
可生成流暢的虛構動作視頻
角色動作模擬
為特定角色生成指定動作視頻,如蜘蛛俠衝浪
能保持角色特徵的同時完成指定動作
概念可視化
抽象概念可視化
將抽象文本描述轉化為直觀視頻
生成符合文本描述的視頻內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase