H

Hunyuanvideo I2V

由tencent開發
混元視頻-I2V是一個全新的圖像轉視頻生成框架,基於騰訊混元視頻模型擴展,支持從靜態圖像生成高質量視頻內容。
下載量 3,272
發布時間 : 3/5/2025

模型概述

混元視頻-I2V是一個基於混元視頻模型的圖像轉視頻生成框架,通過token替換技術將參考圖像信息融入視頻生成流程,利用多模態大語言模型增強對輸入圖像語義內容的理解能力。

模型特點

圖像語義理解
採用預訓練的多模態大語言模型作為文本編碼器,增強對輸入圖像語義內容的理解能力
跨模態注意力
圖像token與視頻潛在token拼接後支持跨模態的全注意力計算
高分辨率生成
支持最高720P分辨率,最長129幀(5秒)的視頻生成
LoRA特效支持
提供LoRA特效訓練代碼,可用於創作更有趣的視頻效果

模型能力

靜態圖像轉視頻
高分辨率視頻生成
多模態內容理解
視頻特效定製

使用案例

內容創作
短視頻生成
從單張圖片生成短視頻內容
生成5秒720P分辨率視頻
特效製作
LoRA特效視頻
通過LoRA訓練定製視頻特效
實現特定風格或效果轉換
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase