🚀 穩定視頻擴散圖像轉視頻模型卡片
穩定視頻擴散(SVD)圖像轉視頻是一種擴散模型,它以靜態圖像作為條件幀,並從中生成視頻,為圖像到視頻的轉換提供了新的解決方案,具有廣泛的研究和應用價值。
🚀 快速開始
若要開始使用該模型,請查看 generative - models 。
✨ 主要特性
- 以靜態圖像為條件幀生成視頻。
- 經過微調,可生成25幀分辨率為576x1024的視頻。
- 微調了 f8 - decoder 以保證時間一致性。
- 額外提供了標準逐幀解碼器。
📚 詳細文檔
模型詳情
模型描述
穩定視頻擴散(SVD)圖像轉視頻是一種潛在擴散模型,經過訓練可根據圖像條件生成短視頻片段。該模型經過訓練,在給定相同大小的上下文幀的情況下,可生成25幀分辨率為576x1024的視頻,它是基於 SVD Image - to - Video [14 frames] 進行微調的。同時,為了保證時間一致性,我們還對廣泛使用的 f8 - decoder 進行了微調。為方便使用,我們還在此處提供了帶有標準逐幀解碼器的模型 here。
- 開發者:Stability AI
- 資助方:Stability AI
- 模型類型:生成式圖像轉視頻模型
- 微調基礎模型:SVD Image - to - Video [14 frames]
模型來源
出於研究目的,我們推薦使用我們的 generative - models
GitHub 倉庫(https://github.com/Stability - AI/generative - models),該倉庫實現了最流行的擴散框架(包括訓練和推理)。
- 倉庫地址:https://github.com/Stability - AI/generative - models
- 論文地址:https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets
評估
上圖評估了用戶對 SVD - Image - to - Video 相對於 GEN - 2 和 PikaLabs 的偏好。在視頻質量方面,人類投票者更傾向於 SVD - Image - to - Video。關於用戶研究的詳細信息,請參考 [研究論文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)。
使用場景
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 生成式模型的研究。
- 可能生成有害內容的模型的安全部署。
- 探究和理解生成式模型的侷限性和偏差。
- 藝術作品的生成以及在設計和其他藝術過程中的應用。
- 教育或創意工具中的應用。
非預期使用
該模型並非用於真實地呈現人物或事件,因此使用該模型生成此類內容超出了其能力範圍。不得以任何違反 Stability AI [可接受使用政策](https://stability.ai/use - policy) 的方式使用該模型。
侷限性和偏差
侷限性
- 生成的視頻較短(<= 4秒),且模型無法實現完美的照片級真實感。
- 模型可能生成無運動或攝像機平移非常緩慢的視頻。
- 模型無法通過文本進行控制。
- 模型無法渲染清晰可讀的文本。
- 一般來說,面部和人物可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
建議
該模型僅用於研究目的。
📄 許可證
- 許可證類型:其他
- 許可證名稱:stable - video - diffusion - nc - community
- 許可證鏈接:LICENSE