🚀 如意迷你7B(Ruyi-Mini-7B)
如意迷你7B(Ruyi-Mini-7B)是由CreateAI研發的圖像轉視頻模型。它能以輸入圖像為基礎,生成360p到720p分辨率的視頻,支持多種寬高比,最長時長可達5秒。同時,該模型具備運動和相機控制功能,為視頻生成帶來了更多的靈活性和創造性。
Hugging Face | Github
🚀 快速開始
如意迷你7B(Ruyi-Mini-7B)是一個開源的圖像轉視頻生成模型。以輸入圖像為起點,如意(Ruyi)可以生成分辨率從360p到720p的後續視頻幀,支持多種寬高比,最長時長可達5秒。通過增強運動和相機控制,如意(Ruyi)在視頻生成方面提供了更大的靈活性和創造性。我們以寬鬆的Apache 2.0許可證發佈該模型。
✨ 主要特性
- 支持360p到720p分辨率視頻生成,適配多種寬高比。
- 具備運動和相機控制功能,提升視頻生成的靈活性與創造性。
- 開源且採用Apache 2.0許可證發佈。
📦 安裝指南
從github安裝代碼:
git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt
💻 使用示例
基礎用法
我們提供了兩種運行模型的方式。第一種是直接使用Python代碼:
python3 predict_i2v.py
高級用法
或者使用我們github倉庫中的ComfyUI包裝器。
📚 詳細文檔
更新日誌
- 2024年12月24日:更新擴散模型,修復創建3:4或4:5視頻時出現的黑線問題。
- 2024年12月16日:發佈如意迷你7B(Ruyi-mini-7B)。
模型架構
如意迷你7B(Ruyi-Mini-7B)是一個先進的圖像轉視頻模型,約有71億個參數。該模型架構基於EasyAnimate V4模型修改而來,其Transformer模塊繼承自混元DiT。它由三個關鍵組件組成:
- 因果變分自編碼器(Casual VAE)模塊:處理視頻的壓縮和解壓縮。它將空間分辨率降低到1/8,時間分辨率降低到1/4,壓縮後每個潛在像素由16個浮點數表示。
- 擴散Transformer模塊:使用3D全注意力生成壓縮視頻數據,具體如下:
- 空間維度採用2D歸一化旋轉位置編碼(2D Normalized-RoPE)。
- 時間維度採用正弦餘弦位置嵌入(Sin-cos position embedding)。
- 使用去噪擴散概率模型(DDPM)進行模型訓練。
- 如意(Ruyi)還利用CLIP模型從輸入圖像中提取語義特徵,以指導整個視頻生成過程。CLIP特徵通過交叉注意力引入到Transformer中。
訓練數據和方法
訓練過程分為四個階段:
- 階段1:從零開始預訓練,使用約2億個視頻片段和約3000萬張圖像,分辨率為256,批量大小為4096,迭代35萬次以實現完全收斂。
- 階段2:使用約6000萬個視頻片段進行多尺度分辨率(384 - 512)的微調,批量大小為1024,迭代6萬次。
- 階段3:使用約2000萬個視頻片段和約800萬張圖像進行384 - 1024分辨率的高質量微調,根據內存動態調整批量大小,迭代1萬次。
- 階段4:使用約1000萬個精心挑選的高質量視頻片段進行圖像到視頻的訓練,根據內存動態調整批量大小,迭代約1萬次。
硬件要求
如意(Ruyi)的顯存成本取決於視頻的分辨率和時長。以下是一些典型視頻尺寸的成本列表,在單張A100上測試所得:
視頻尺寸 |
360x480x120 |
384x672x120 |
480x640x120 |
630x1120x120 |
720x1280x120 |
內存 |
21.5GB |
25.5GB |
27.7GB |
44.9GB |
54.8GB |
時間 |
03:10 |
05:29 |
06:49 |
24:18 |
39:02 |
對於如RTX4090等24GB顯存的顯卡,我們提供了低顯存模式(low_gpu_memory_mode)
,在此模式下,模型可以生成720x1280x120的視頻,但所需時間會更長。
展示示例
圖像轉視頻效果
相機控制
輸入 |
向左 |
向右 |
 |
|
|
靜態 |
向上 |
向下 |
|
|
|
運動幅度控制
侷限性
此實驗性版本存在一些已知的侷限性。文本、手部和擁擠的人臉可能會出現扭曲。當模型不知道如何生成未來幀時,視頻可能會切換到另一個場景。我們仍在努力解決這些問題,並將在取得進展時更新模型。
BibTeX引用
@misc{createai2024ruyi,
title={Ruyi-Mini-7B},
author={CreateAI Team},
year={2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished={\url{https://github.com/IamCreateAI/Ruyi-Models}}
}
聯繫我們
歡迎加入我們的Discord或微信群(掃描二維碼添加如意助手並加入官方群)進行進一步的討論!

📄 許可證
本模型以Apache 2.0許可證發佈。