Stable Video Diffusion開源圖像轉視頻模型 - 免費將靜態圖變短視頻片段

首頁

Stable Video Diffusion Img2vid

由model-hub開發

Stable Video Diffusion（SVD）是一個擴散模型，能夠以靜態圖像作為輸入條件生成短視頻片段。

視頻處理開源協議:其他 #靜態圖轉短視頻 #14幀動態生成 #藝術創作輔助

下載量 116

發布時間 : 12/14/2023

模型概述

該模型是一個潛在擴散模型，經過訓練可以從圖像條件生成短視頻片段（14幀）。模型包含微調的f8解碼器以確保時間一致性。

模型特點

圖像條件生成

以靜態圖像作為輸入條件生成連貫的視頻片段

時間一致性解碼器

使用微調的f8解碼器確保生成視頻的時間連貫性

高質量輸出

在用戶研究中表現出優於同類模型的視頻生成質量

模型能力

從靜態圖像生成短視頻

保持視頻幀間連貫性

576x1024分辨率視頻生成

使用案例

研究用途

生成模型研究

用於探索視頻生成模型的技術邊界

模型安全研究

研究可能產生有害內容的模型安全部署方案

創意應用

藝術創作

為藝術家和設計師提供創意工具

教育工具

開發教育或創意工具

🚀 穩定視頻擴散圖像到視頻模型卡片

穩定視頻擴散（SVD）圖像到視頻模型是一種擴散模型，它以靜態圖像作為條件幀，從中生成視頻。該模型為圖像生成領域帶來了新的可能性，能夠將單一圖像轉化為動態視頻，在研究和創意應用方面具有重要價值。

🚀 快速開始

若要開始使用該模型，請查看 https://github.com/Stability-AI/generative-models

✨ 主要特性

以靜態圖像為條件幀生成視頻。
經過訓練可生成 14 幀分辨率為 576x1024 的短視頻片段。
微調了廣泛使用的 f8 - 解碼器以保證時間一致性。
額外提供了標準逐幀解碼器點擊查看。

📚 詳細文檔

模型描述

(SVD) 圖像到視頻是一種潛在擴散模型，經過訓練可根據圖像條件生成短視頻片段。該模型在給定相同大小的上下文幀時，可生成 14 幀分辨率為 576x1024 的視頻。

開發者：Stability AI
資助方：Stability AI
模型類型：生成式圖像到視頻模型

模型來源

出於研究目的，建議使用 generative - models Github 倉庫 (https://github.com/Stability - AI/generative - models)，該倉庫實現了最流行的擴散框架（包括訓練和推理）。

倉庫地址：https://github.com/Stability - AI/generative - models
論文地址：https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets

評估

comparison 上圖評估了用戶對 SVD 圖像到視頻模型相對於 GEN - 2 和 PikaLabs 的偏好。在視頻質量方面，人類投票者更傾向於 SVD 圖像到視頻模型。有關用戶研究的詳細信息，請參考 [研究論文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)