🚀 稳定视频扩散图像到视频模型卡片
稳定视频扩散(SVD)图像到视频模型是一种扩散模型,它以静态图像作为条件帧,从中生成视频。该模型为图像生成领域带来了新的可能性,能够将单一图像转化为动态视频,在研究和创意应用方面具有重要价值。
🚀 快速开始
若要开始使用该模型,请查看 https://github.com/Stability-AI/generative-models
✨ 主要特性
- 以静态图像为条件帧生成视频。
- 经过训练可生成 14 帧分辨率为 576x1024 的短视频片段。
- 微调了广泛使用的 f8 - 解码器 以保证时间一致性。
- 额外提供了标准逐帧解码器 点击查看。
📚 详细文档
模型描述
(SVD) 图像到视频是一种潜在扩散模型,经过训练可根据图像条件生成短视频片段。该模型在给定相同大小的上下文帧时,可生成 14 帧分辨率为 576x1024 的视频。
- 开发者:Stability AI
- 资助方:Stability AI
- 模型类型:生成式图像到视频模型
模型来源
出于研究目的,建议使用 generative - models
Github 仓库 (https://github.com/Stability - AI/generative - models),该仓库实现了最流行的扩散框架(包括训练和推理)。
- 仓库地址:https://github.com/Stability - AI/generative - models
- 论文地址:https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets
评估
上图评估了用户对 SVD 图像到视频模型相对于 GEN - 2 和 PikaLabs 的偏好。在视频质量方面,人类投票者更倾向于 SVD 图像到视频模型。有关用户研究的详细信息,请参考 [研究论文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)
使用场景
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 生成式模型的研究。
- 对有可能生成有害内容的模型进行安全部署。
- 探究和理解生成式模型的局限性和偏差。
- 艺术品生成以及在设计和其他艺术过程中的应用。
- 在教育或创意工具中的应用。
超出适用范围的使用
该模型并非用于真实准确地呈现人物或事件,因此使用该模型生成此类内容超出了其能力范围。不得以任何违反 Stability AI [可接受使用政策](https://stability.ai/use - policy) 的方式使用该模型。
局限性和偏差
局限性
- 生成的视频较短(<= 4 秒),且模型无法实现完美的逼真效果。
- 模型可能生成无运动或相机平移非常缓慢的视频。
- 模型无法通过文本进行控制。
- 模型无法渲染清晰可读的文本。
- 面部和人物总体上可能无法正确生成。
- 模型的自动编码部分存在信息损失。
建议
该模型仅用于研究目的。
📄 许可证
- 许可证类型:other
- 许可证名称:stable - video - diffusion - nc - community
- 许可证链接:LICENSE