🚀 稳定视频扩散图像转视频模型卡片
稳定视频扩散(SVD)图像转视频是一种扩散模型,它以静态图像作为条件帧,并从中生成视频,为图像到视频的转换提供了新的解决方案,具有广泛的研究和应用价值。
🚀 快速开始
若要开始使用该模型,请查看 generative - models 。
✨ 主要特性
- 以静态图像为条件帧生成视频。
- 经过微调,可生成25帧分辨率为576x1024的视频。
- 微调了 f8 - decoder 以保证时间一致性。
- 额外提供了标准逐帧解码器。
📚 详细文档
模型详情
模型描述
稳定视频扩散(SVD)图像转视频是一种潜在扩散模型,经过训练可根据图像条件生成短视频片段。该模型经过训练,在给定相同大小的上下文帧的情况下,可生成25帧分辨率为576x1024的视频,它是基于 SVD Image - to - Video [14 frames] 进行微调的。同时,为了保证时间一致性,我们还对广泛使用的 f8 - decoder 进行了微调。为方便使用,我们还在此处提供了带有标准逐帧解码器的模型 here。
- 开发者:Stability AI
- 资助方:Stability AI
- 模型类型:生成式图像转视频模型
- 微调基础模型:SVD Image - to - Video [14 frames]
模型来源
出于研究目的,我们推荐使用我们的 generative - models
GitHub 仓库(https://github.com/Stability - AI/generative - models),该仓库实现了最流行的扩散框架(包括训练和推理)。
- 仓库地址:https://github.com/Stability - AI/generative - models
- 论文地址:https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets
评估
上图评估了用户对 SVD - Image - to - Video 相对于 GEN - 2 和 PikaLabs 的偏好。在视频质量方面,人类投票者更倾向于 SVD - Image - to - Video。关于用户研究的详细信息,请参考 [研究论文](https://stability.ai/research/stable - video - diffusion - scaling - latent - video - diffusion - models - to - large - datasets)。
使用场景
直接使用
该模型仅用于研究目的。可能的研究领域和任务包括:
- 生成式模型的研究。
- 可能生成有害内容的模型的安全部署。
- 探究和理解生成式模型的局限性和偏差。
- 艺术作品的生成以及在设计和其他艺术过程中的应用。
- 教育或创意工具中的应用。
非预期使用
该模型并非用于真实地呈现人物或事件,因此使用该模型生成此类内容超出了其能力范围。不得以任何违反 Stability AI [可接受使用政策](https://stability.ai/use - policy) 的方式使用该模型。
局限性和偏差
局限性
- 生成的视频较短(<= 4秒),且模型无法实现完美的照片级真实感。
- 模型可能生成无运动或摄像机平移非常缓慢的视频。
- 模型无法通过文本进行控制。
- 模型无法渲染清晰可读的文本。
- 一般来说,面部和人物可能无法正确生成。
- 模型的自动编码部分存在信息损失。
建议
该模型仅用于研究目的。
📄 许可证
- 许可证类型:其他
- 许可证名称:stable - video - diffusion - nc - community
- 许可证链接:LICENSE