H

Hunyuanvideogp HFIE

由jbilcke-hf開發
混元視頻是騰訊開源的大規模視頻生成模型,採用創新的統一架構實現高質量文本到視頻生成
下載量 24
發布時間 : 12/11/2024

模型概述

混元視頻是一個性能媲美主流閉源模型的新型開源視頻基礎模型,整合了數據篩選、圖像-視頻聯合訓練等關鍵創新,支持高質量視頻生成

模型特點

統一的圖像與視頻生成架構
採用'雙流轉單流'混合設計,有效捕捉視覺與語義信息的複雜交互
多模態大語言模型文本編碼器
使用視覺指令微調的多模態大語言模型作為文本編碼器,具備更強的細節描述與複雜推理能力
3D變分自編碼器
採用因果卷積3D的變分自編碼器實現高效視頻空間壓縮
提示詞改寫
提供標準模式與大師模式兩種提示詞改寫方式,優化生成效果

模型能力

文本到視頻生成
高質量視頻合成
複雜場景理解
多風格視頻生成

使用案例

創意內容製作
短視頻創作
根據文本描述自動生成創意短視頻
可生成5秒高質量視頻
影視製作輔助
概念視頻預覽
快速生成影視概念預覽視頻
支持720p高清視頻生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase