🚀 如意迷你7B(Ruyi-Mini-7B)
如意迷你7B(Ruyi-Mini-7B)是由CreateAI研发的图像转视频模型。它能以输入图像为基础,生成360p到720p分辨率的视频,支持多种宽高比,最长时长可达5秒。同时,该模型具备运动和相机控制功能,为视频生成带来了更多的灵活性和创造性。
Hugging Face | Github
🚀 快速开始
如意迷你7B(Ruyi-Mini-7B)是一个开源的图像转视频生成模型。以输入图像为起点,如意(Ruyi)可以生成分辨率从360p到720p的后续视频帧,支持多种宽高比,最长时长可达5秒。通过增强运动和相机控制,如意(Ruyi)在视频生成方面提供了更大的灵活性和创造性。我们以宽松的Apache 2.0许可证发布该模型。
✨ 主要特性
- 支持360p到720p分辨率视频生成,适配多种宽高比。
- 具备运动和相机控制功能,提升视频生成的灵活性与创造性。
- 开源且采用Apache 2.0许可证发布。
📦 安装指南
从github安装代码:
git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt
💻 使用示例
基础用法
我们提供了两种运行模型的方式。第一种是直接使用Python代码:
python3 predict_i2v.py
高级用法
或者使用我们github仓库中的ComfyUI包装器。
📚 详细文档
更新日志
- 2024年12月24日:更新扩散模型,修复创建3:4或4:5视频时出现的黑线问题。
- 2024年12月16日:发布如意迷你7B(Ruyi-mini-7B)。
模型架构
如意迷你7B(Ruyi-Mini-7B)是一个先进的图像转视频模型,约有71亿个参数。该模型架构基于EasyAnimate V4模型修改而来,其Transformer模块继承自混元DiT。它由三个关键组件组成:
- 因果变分自编码器(Casual VAE)模块:处理视频的压缩和解压缩。它将空间分辨率降低到1/8,时间分辨率降低到1/4,压缩后每个潜在像素由16个浮点数表示。
- 扩散Transformer模块:使用3D全注意力生成压缩视频数据,具体如下:
- 空间维度采用2D归一化旋转位置编码(2D Normalized-RoPE)。
- 时间维度采用正弦余弦位置嵌入(Sin-cos position embedding)。
- 使用去噪扩散概率模型(DDPM)进行模型训练。
- 如意(Ruyi)还利用CLIP模型从输入图像中提取语义特征,以指导整个视频生成过程。CLIP特征通过交叉注意力引入到Transformer中。
训练数据和方法
训练过程分为四个阶段:
- 阶段1:从零开始预训练,使用约2亿个视频片段和约3000万张图像,分辨率为256,批量大小为4096,迭代35万次以实现完全收敛。
- 阶段2:使用约6000万个视频片段进行多尺度分辨率(384 - 512)的微调,批量大小为1024,迭代6万次。
- 阶段3:使用约2000万个视频片段和约800万张图像进行384 - 1024分辨率的高质量微调,根据内存动态调整批量大小,迭代1万次。
- 阶段4:使用约1000万个精心挑选的高质量视频片段进行图像到视频的训练,根据内存动态调整批量大小,迭代约1万次。
硬件要求
如意(Ruyi)的显存成本取决于视频的分辨率和时长。以下是一些典型视频尺寸的成本列表,在单张A100上测试所得:
视频尺寸 |
360x480x120 |
384x672x120 |
480x640x120 |
630x1120x120 |
720x1280x120 |
内存 |
21.5GB |
25.5GB |
27.7GB |
44.9GB |
54.8GB |
时间 |
03:10 |
05:29 |
06:49 |
24:18 |
39:02 |
对于如RTX4090等24GB显存的显卡,我们提供了低显存模式(low_gpu_memory_mode)
,在此模式下,模型可以生成720x1280x120的视频,但所需时间会更长。
展示示例
图像转视频效果
相机控制
输入 |
向左 |
向右 |
 |
|
|
静态 |
向上 |
向下 |
|
|
|
运动幅度控制
局限性
此实验性版本存在一些已知的局限性。文本、手部和拥挤的人脸可能会出现扭曲。当模型不知道如何生成未来帧时,视频可能会切换到另一个场景。我们仍在努力解决这些问题,并将在取得进展时更新模型。
BibTeX引用
@misc{createai2024ruyi,
title={Ruyi-Mini-7B},
author={CreateAI Team},
year={2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished={\url{https://github.com/IamCreateAI/Ruyi-Models}}
}
联系我们
欢迎加入我们的Discord或微信群(扫描二维码添加如意助手并加入官方群)进行进一步的讨论!

📄 许可证
本模型以Apache 2.0许可证发布。