H

Hunyuanvideo

由tencent開發
騰訊開源的大規模視頻生成模型,支持文本到視頻生成,性能媲美主流閉源模型。
下載量 2,285
發布時間 : 12/1/2024

模型概述

混元視頻是一個性能媲美甚至超越主流閉源模型的新型開源視頻基礎模型,通過數據治理、圖文聯合訓練及支持大規模訓練的基建等關鍵技術,成功訓練了參數量超130億的當前最大開源視頻生成模型。

模型特點

統一圖文生成架構
採用'雙流轉單流'混合設計:前期分模態處理視頻與文本token,後期融合進行跨模態交互,實現高質量圖文生成統一。
多模態大語言模型文本編碼器
採用經過視覺指令微調的Decoder-Only結構MLLM,具備更強圖文對齊能力與細節描述優勢,並引入雙向token精煉器增強文本引導。
3D變分自編碼器
採用CausalConv3D的3D VAE實現時空壓縮(長寬通道壓縮比4/8/16),支持原始分辨率視頻訓練。
提示詞改寫
基於混元大模型微調的改寫模型,提供標準模式(精準理解意圖)與大師模式(強化光影構圖描述)兩種風格。

模型能力

文本到視頻生成
高分辨率視頻生成(最高1280x720)
多風格視頻生成
長視頻生成(最長5秒)

使用案例

創意內容生成
影視預告片製作
根據劇本描述自動生成影視預告片片段
生成高質量、符合文本描述的動態視頻內容
廣告創意生成
根據產品描述生成廣告視頻
快速生成多樣化的廣告創意視頻
教育
教學視頻生成
根據教學內容自動生成動畫演示
生動展示覆雜概念和過程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase