stable-video-diffusion-img2vid-xt開源模型 - 用圖片免費生成576x1024分辨率25幀短視頻

首頁

Stable Video Diffusion Img2vid Xt

由thingthatis開發

基於靜態圖像生成短視頻片段的擴散模型，支持576x1024分辨率25幀視頻生成

視頻處理開源協議:其他 #靜態圖轉視頻 #高幀率生成 #藝術創作輔助

下載量 17

發布時間 : 12/8/2023

模型概述

該模型是一種潛在擴散模型，通過輸入靜態圖像作為條件幀，生成短視頻片段。基於SVD圖像轉視頻[14幀]微調，提升了時間一致性和分辨率支持。

模型特點

高分辨率支持

支持576x1024分辨率的視頻生成

長視頻生成

可生成25幀的視頻片段（約4秒）

時間一致性優化

微調了f8解碼器以提升生成視頻的時間一致性

模型能力

從靜態圖像生成視頻

高分辨率視頻生成

保持時間一致性

使用案例

藝術創作

概念藝術動畫化

將靜態概念藝術轉化為動態展示

生成4秒左右的動態展示視頻

研究

生成模型研究

研究圖像到視頻的生成技術

內容安全研究

研究可能產生有害內容的模型安全部署

🚀 穩定視頻擴散圖像轉視頻模型卡片

穩定視頻擴散（SVD）圖像轉視頻模型是一種擴散模型，它以靜態圖像作為條件幀，進而生成視頻，為圖像到視頻的轉換提供了強大的解決方案。

🚀 快速開始

若要開始使用該模型，請查看：https://github.com/Stability-AI/generative-models

✨ 主要特性

以靜態圖像為條件幀生成視頻。
經過微調，能生成25幀分辨率為576x1024的短視頻片段。
對f8 - 解碼器進行微調以確保時間一致性。
額外提供標準逐幀解碼器。

📚 詳細文檔

模型詳情

模型描述

穩定視頻擴散（SVD）圖像轉視頻是一種潛在擴散模型，經過訓練可根據圖像條件生成短視頻片段。該模型經過訓練，在給定相同大小的上下文幀的情況下，能生成25幀分辨率為576x1024的視頻，它是在SVD圖像轉視頻 [14幀]的基礎上進行微調的。同時，為了保證時間一致性，我們還對廣泛使用的f8 - 解碼器進行了微調。為方便使用，我們還在此處提供了帶有標準逐幀解碼器的模型：標準逐幀解碼器。

屬性	詳情
開發者	Stability AI
資助方	Stability AI
模型類型	生成式圖像轉視頻模型
微調基礎模型	SVD圖像轉視頻 [14幀]

模型來源

出於研究目的，我們推薦使用我們的 generative - models GitHub倉庫（https://github.com/Stability-AI/generative-models），該倉庫實現了最流行的擴散框架（包括訓練和推理）。

倉庫地址：https://github.com/Stability-AI/generative-models
論文地址：https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets