🚀 稳定视频扩散图像到视频模型卡片
稳定视频扩散(SVD)图像到视频模型是一种扩散模型,它以静态图像作为条件帧,并从中生成视频。该模型为视频生成领域带来了新的可能性,能基于单张图像生成连贯的视频内容。
请注意:如需商业使用此模型,请参考 https://stability.ai/license 。
🚀 快速开始
若要开始使用该模型,请查看 https://github.com/Stability-AI/generative-models 。
✨ 主要特性
- 以静态图像为条件帧生成视频。
- 经过训练可在给定相同大小的上下文帧时,生成分辨率为 576x1024 的 14 帧短视频。
- 微调了广泛使用的 f8 - 解码器 以保证时间一致性。
- 还额外提供了标准逐帧解码器 点击查看。
📦 安装指南
文档未提及具体安装步骤,可参考 https://github.com/Stability-AI/generative-models 获取相关信息。
📚 详细文档
模型详情
模型描述
(SVD) 图像到视频是一种潜在扩散模型,经过训练可根据图像条件生成短视频片段。该模型在给定相同大小的上下文帧时,能够生成分辨率为 576x1024 的 14 帧视频。我们还对广泛使用的 f8 - 解码器 进行了微调,以确保视频的时间一致性。为方便使用,我们还在此处提供了带有标准逐帧解码器的模型 点击查看。
属性 |
详情 |
开发者 |
Stability AI |
资助方 |
Stability AI |
模型类型 |
生成式图像到视频模型 |
模型来源
出于研究目的,我们推荐使用我们的 generative - models
GitHub 仓库 (https://github.com/Stability-AI/generative-models),该仓库实现了最流行的扩散框架(包括训练和推理)。
- 仓库地址:https://github.com/Stability-AI/generative-models
- 论文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
评估
上图展示了用户对 SVD 图像到视频模型相对于 GEN - 2 和 PikaLabs 的偏好评估。在视频质量方面,人类投票者更倾向于 SVD 图像到视频模型。关于用户研究的详细信息,请参考 研究论文。
使用场景
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 生成式模型的研究。
- 对可能生成有害内容的模型进行安全部署。
- 探究和理解生成式模型的局限性和偏差。
- 艺术作品的生成以及在设计和其他艺术过程中的应用。
- 在教育或创意工具中的应用。
超出适用范围的使用
该模型并非用于真实地呈现人物或事件,因此使用该模型生成此类内容超出了其能力范围。不得以任何违反 Stability AI [可接受使用政策](https://stability.ai/use - policy) 的方式使用该模型。
局限性和偏差
局限性
- 生成的视频较短(<= 4 秒),且模型无法实现完美的逼真效果。
- 模型可能生成无运动或相机平移非常缓慢的视频。
- 模型无法通过文本进行控制。
- 模型无法渲染清晰可读的文本。
- 面部和人物的生成可能效果不佳。
- 模型的自动编码部分存在信息损失。
建议
该模型仅用于研究目的。
📄 许可证
- 许可证类型:其他
- 许可证名称:stable - video - diffusion - community
- 许可证链接:LICENSE.md
附录
所有考虑的潜在数据源都被纳入最终训练,没有保留任何数据,因为 SVD 论文中提出的数据过滤方法可以处理数据集的质量控制和过滤。关于安全/不适宜内容过滤,所考虑的数据源要么被认为是安全的,要么使用内部的不适宜内容过滤器进行过滤。训练数据准备过程中不涉及明确的人工劳动。然而,对模型输出和质量的人工评估被广泛用于评估模型的质量和性能。评估是通过第三方承包商平台(亚马逊 SageMaker、亚马逊 Mechanical Turk、Prolific)进行的,承包商来自不同国家,主要是美国、英国和加拿大,且英语流利。每个工人的评估工作按每小时 12 美元支付报酬。该模型的开发没有涉及其他第三方;模型完全由 Stability AI 内部开发。训练 SVD 检查点总共大约需要 200,000 个 A100 80GB 小时。大部分训练在 48 * 8 个 A100 上进行,而某些阶段所需的资源或多或少。由此产生的二氧化碳排放量约为 19,000 千克二氧化碳当量,消耗的能量约为 64,000 千瓦时。发布的检查点(SVD/SVD - XT)是图像到视频模型,能够紧密跟随给定的输入图像生成短视频/动画。由于模型依赖于现有的提供图像,披露特定材料或新的不安全内容的潜在风险极小。这也得到了第三方独立红队服务的评估,他们在很大程度上(在安全红队的各个领域超过 90%)同意我们的结论。外部评估还对模型的可信度进行了评估,得出在生成真实、可信视频方面的置信度超过 95%。在发布时的默认设置下,SVD 在 A100 80GB 卡上生成视频大约需要 100 秒,SVD - XT 大约需要 180 秒。可以进行一些优化以权衡质量、内存和速度,从而实现更快的推理或在较低显存的显卡上进行推理。有关模型及其开发过程和使用协议的信息可以在 GitHub 仓库、相关研究论文以及 HuggingFace 模型页面/卡片中找到。发布的模型推理和演示代码默认启用了图像级水印,可用于检测输出。这是通过 imWatermark Python 库实现的。
该模型可用于从静态初始图像生成视频。然而,根据我们的许可证和可接受使用政策的条款,我们禁止对模型进行非法、淫秽或误导性的使用。对于开放权重发布,我们的训练数据过滤缓解措施在一定程度上减轻了这种风险。这些限制在 stablevideo.com 的用户界面上明确执行,并会发出警告。我们不对第三方界面承担任何责任。也禁止提交绕过输入过滤器的初始图像以获取上述冒犯性或不适当的内容。stablevideo.com 的安全过滤检查独立运行于模型的输入和输出。有关我们用户界面的更多详细信息,请访问:https://www.stablevideo.com/faq 。除了可接受使用政策以及此处描述的其他缓解措施和条件外,该模型不受基础模型透明度指数中所述类型的额外模型行为干预。
对于 stablevideo.com,我们以用户生成视频的点赞/反对形式存储偏好数据,并且在用户生成视频时会运行一个成对排名器。这些使用数据仅用于改进 Stability AI 未来的图像/视频模型和服务。除了 Stability AI 和 stablevideo.com 的维护者外,没有其他第三方实体可以访问这些使用数据。对于 SVD 的使用统计信息,我们建议感兴趣的用户参考 HuggingFace 模型的下载/使用统计信息作为主要指标。第三方应用程序也报告了模型使用统计信息。我们也可能会考虑在达到某些里程碑时发布 stablevideo.com 的汇总使用统计信息。