🚀 穩定視頻擴散圖像到視頻模型卡片
穩定視頻擴散(SVD)圖像到視頻模型是一種擴散模型,它以靜態圖像作為條件幀,從中生成視頻。該模型為圖像生成領域帶來了新的可能性,能夠將單一圖像轉化為動態視頻,在研究和創意應用方面具有重要價值。
🚀 快速開始
若要開始使用該模型,請查看 https://github.com/Stability-AI/generative-models
✨ 主要特性
- 以靜態圖像為條件幀生成視頻。
- 經過訓練可生成 14 幀分辨率為 576x1024 的短視頻片段。
- 微調了廣泛使用的 f8 - 解碼器 以保證時間一致性。
- 額外提供了標準逐幀解碼器 點擊查看。
📚 詳細文檔
模型描述
(SVD) 圖像到視頻是一種潛在擴散模型,經過訓練可根據圖像條件生成短視頻片段。該模型在給定相同大小的上下文幀時,可生成 14 幀分辨率為 576x1024 的視頻。
- 開發者:Stability AI
- 資助方:Stability AI
- 模型類型:生成式圖像到視頻模型
模型來源
出於研究目的,建議使用 generative - models
Github 倉庫 (https://github.com/Stability - AI/generative - models),該倉庫實現了最流行的擴散框架(包括訓練和推理)。
- 倉庫地址:https://github.com/Stability - AI/generative - models
- 論文地址:https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets
評估
上圖評估了用戶對 SVD 圖像到視頻模型相對於 GEN - 2 和 PikaLabs 的偏好。在視頻質量方面,人類投票者更傾向於 SVD 圖像到視頻模型。有關用戶研究的詳細信息,請參考 [研究論文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)
使用場景
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 生成式模型的研究。
- 對有可能生成有害內容的模型進行安全部署。
- 探究和理解生成式模型的侷限性和偏差。
- 藝術品生成以及在設計和其他藝術過程中的應用。
- 在教育或創意工具中的應用。
超出適用範圍的使用
該模型並非用於真實準確地呈現人物或事件,因此使用該模型生成此類內容超出了其能力範圍。不得以任何違反 Stability AI [可接受使用政策](https://stability.ai/use - policy) 的方式使用該模型。
侷限性和偏差
侷限性
- 生成的視頻較短(<= 4 秒),且模型無法實現完美的逼真效果。
- 模型可能生成無運動或相機平移非常緩慢的視頻。
- 模型無法通過文本進行控制。
- 模型無法渲染清晰可讀的文本。
- 面部和人物總體上可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
建議
該模型僅用於研究目的。
📄 許可證
- 許可證類型:other
- 許可證名稱:stable - video - diffusion - nc - community
- 許可證鏈接:LICENSE