Stable Video Diffusion Img2Vid開源模型 - 基於圖片生成高分辨率短視頻片段

首頁

Stable Video Diffusion Img2vid

由lzyvegetable開發

基於靜態圖像生成短視頻片段的擴散模型，支持576x1024分辨率下生成14幀動態畫面

視頻處理開源協議:其他 #靜態圖轉短視頻 #藝術創作生成 #無文本控制

下載量 14

發布時間 : 9/2/2024

模型概述

一個潛在擴散模型，專為從條件圖像生成短視頻片段而訓練，包含時間一致性優化的解碼器

模型特點

時間一致性解碼

對f8解碼器進行時間一致性微調，確保視頻幀間連貫性

高分辨率支持

支持576x1024分辨率輸入輸出，生成質量優於同類模型

快速推理

在A100 80GB顯卡上單次生成耗時約100秒（SVD版本）

模型能力

靜態圖像動畫化

短視頻生成

時間一致性視頻合成

使用案例

創意內容生成

藝術創作

將靜態藝術作品轉化為動態展示

生成4秒內的藝術動畫

設計輔助

快速可視化設計概念的動態效果

產品原型動態演示

研究領域

生成模型研究

探索視頻生成模型的潛力和侷限性

安全研究

研究生成模型的安全部署方案

🚀 穩定視頻擴散圖像到視頻模型卡片

穩定視頻擴散（SVD）圖像到視頻模型是一種擴散模型，它以靜態圖像作為條件幀，並從中生成視頻。該模型為視頻生成領域帶來了新的可能性，能基於單張圖像生成連貫的視頻內容。

請注意：如需商業使用此模型，請參考 https://stability.ai/license 。

🚀 快速開始

若要開始使用該模型，請查看 https://github.com/Stability-AI/generative-models 。

✨ 主要特性

以靜態圖像為條件幀生成視頻。
經過訓練可在給定相同大小的上下文幀時，生成分辨率為 576x1024 的 14 幀短視頻。
微調了廣泛使用的 f8 - 解碼器以保證時間一致性。
還額外提供了標準逐幀解碼器點擊查看。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 https://github.com/Stability-AI/generative-models 獲取相關信息。

📚 詳細文檔

模型詳情

模型描述

(SVD) 圖像到視頻是一種潛在擴散模型，經過訓練可根據圖像條件生成短視頻片段。該模型在給定相同大小的上下文幀時，能夠生成分辨率為 576x1024 的 14 幀視頻。我們還對廣泛使用的 f8 - 解碼器進行了微調，以確保視頻的時間一致性。為方便使用，我們還在此處提供了帶有標準逐幀解碼器的模型點擊查看。

屬性	詳情
開發者	Stability AI
資助方	Stability AI
模型類型	生成式圖像到視頻模型

模型來源

出於研究目的，我們推薦使用我們的 generative - models GitHub 倉庫 (https://github.com/Stability-AI/generative-models)，該倉庫實現了最流行的擴散框架（包括訓練和推理）。

倉庫地址：https://github.com/Stability-AI/generative-models
論文地址：https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

評估

comparison 上圖展示了用戶對 SVD 圖像到視頻模型相對於 GEN - 2 和 PikaLabs 的偏好評估。在視頻質量方面，人類投票者更傾向於 SVD 圖像到視頻模型。關於用戶研究的詳細信息，請參考研究論文。

使用場景

直接使用

該模型僅用於研究目的。可能的研究領域和任務包括：

生成式模型的研究。
對可能生成有害內容的模型進行安全部署。
探究和理解生成式模型的侷限性和偏差。
藝術作品的生成以及在設計和其他藝術過程中的應用。
在教育或創意工具中的應用。

超出適用範圍的使用

該模型並非用於真實地呈現人物或事件，因此使用該模型生成此類內容超出了其能力範圍。不得以任何違反 Stability AI [可接受使用政策](https://stability.ai/use - policy) 的方式使用該模型。

侷限性和偏差

侷限性

生成的視頻較短（<= 4 秒），且模型無法實現完美的逼真效果。
模型可能生成無運動或相機平移非常緩慢的視頻。
模型無法通過文本進行控制。
模型無法渲染清晰可讀的文本。
面部和人物的生成可能效果不佳。
模型的自動編碼部分存在信息損失。

建議

該模型僅用於研究目的。

📄 許可證

許可證類型：其他
許可證名稱：stable - video - diffusion - community
許可證鏈接：LICENSE.md

附錄

所有考慮的潛在數據源都被納入最終訓練，沒有保留任何數據，因為 SVD 論文中提出的數據過濾方法可以處理數據集的質量控制和過濾。關於安全/不適宜內容過濾，所考慮的數據源要麼被認為是安全的，要麼使用內部的不適宜內容過濾器進行過濾。訓練數據準備過程中不涉及明確的人工勞動。然而，對模型輸出和質量的人工評估被廣泛用於評估模型的質量和性能。評估是通過第三方承包商平臺（亞馬遜 SageMaker、亞馬遜 Mechanical Turk、Prolific）進行的，承包商來自不同國家，主要是美國、英國和加拿大，且英語流利。每個工人的評估工作按每小時 12 美元支付報酬。該模型的開發沒有涉及其他第三方；模型完全由 Stability AI 內部開發。訓練 SVD 檢查點總共大約需要 200,000 個 A100 80GB 小時。大部分訓練在 48 * 8 個 A100 上進行，而某些階段所需的資源或多或少。由此產生的二氧化碳排放量約為 19,000 千克二氧化碳當量，消耗的能量約為 64,000 千瓦時。發佈的檢查點（SVD/SVD - XT）是圖像到視頻模型，能夠緊密跟隨給定的輸入圖像生成短視頻/動畫。由於模型依賴於現有的提供圖像，披露特定材料或新的不安全內容的潛在風險極小。這也得到了第三方獨立紅隊服務的評估，他們在很大程度上（在安全紅隊的各個領域超過 90%）同意我們的結論。外部評估還對模型的可信度進行了評估，得出在生成真實、可信視頻方面的置信度超過 95%。在發佈時的默認設置下，SVD 在 A100 80GB 卡上生成視頻大約需要 100 秒，SVD - XT 大約需要 180 秒。可以進行一些優化以權衡質量、內存和速度，從而實現更快的推理或在較低顯存的顯卡上進行推理。有關模型及其開發過程和使用協議的信息可以在 GitHub 倉庫、相關研究論文以及 HuggingFace 模型頁面/卡片中找到。發佈的模型推理和演示代碼默認啟用了圖像級水印，可用於檢測輸出。這是通過 imWatermark Python 庫實現的。

該模型可用於從靜態初始圖像生成視頻。然而，根據我們的許可證和可接受使用政策的條款，我們禁止對模型進行非法、淫穢或誤導性的使用。對於開放權重發布，我們的訓練數據過濾緩解措施在一定程度上減輕了這種風險。這些限制在 stablevideo.com 的用戶界面上明確執行，並會發出警告。我們不對第三方界面承擔任何責任。也禁止提交繞過輸入過濾器的初始圖像以獲取上述冒犯性或不適當的內容。stablevideo.com 的安全過濾檢查獨立運行於模型的輸入和輸出。有關我們用戶界面的更多詳細信息，請訪問：https://www.stablevideo.com/faq 。除了可接受使用政策以及此處描述的其他緩解措施和條件外，該模型不受基礎模型透明度指數中所述類型的額外模型行為干預。

對於 stablevideo.com，我們以用戶生成視頻的點贊/反對形式存儲偏好數據，並且在用戶生成視頻時會運行一個成對排名器。這些使用數據僅用於改進 Stability AI 未來的圖像/視頻模型和服務。除了 Stability AI 和 stablevideo.com 的維護者外，沒有其他第三方實體可以訪問這些使用數據。對於 SVD 的使用統計信息，我們建議感興趣的用戶參考 HuggingFace 模型的下載/使用統計信息作為主要指標。第三方應用程序也報告了模型使用統計信息。我們也可能會考慮在達到某些里程碑時發佈 stablevideo.com 的彙總使用統計信息。