M

Myttvlns

由kylielee505開發
基於多階段文本到視頻生成擴散模型,輸入英文描述文本,返回匹配的視頻片段
下載量 133
發布時間 : 12/24/2024

模型概述

該模型是一個文本到視頻生成系統,採用擴散模型技術,能夠根據英文文本描述生成相應的視頻內容。模型由文本特徵提取、文本特徵到視頻隱空間擴散、視頻隱空間到視覺空間三個子網絡組成。

模型特點

多階段生成架構
由文本特徵提取、擴散模型和視覺空間轉換三個子網絡組成,實現高質量的文本到視頻生成
長視頻生成能力
通過優化技術可在16GB GPU顯存下生成最長25秒的視頻
注意力機制支持
支持啟用注意力機制和VAE切片,優化顯存使用

模型能力

文本到視頻生成
開放領域內容創作
動態場景合成

使用案例

創意內容生成
概念視頻創作
根據文字描述快速生成創意概念視頻
可生成如'宇航員騎馬'、'達斯·維達衝浪'等創意視頻
教育演示
教學素材生成
為教育內容創建配套視頻素材
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase