🚀 如意-Mini-7B
CreateAIによる画像から動画への変換モデルで、入力画像を基に360pから720pの解像度で動画フレームを生成します。
Hugging Face | Github
🚀 クイックスタート
如意-Mini-7Bは、CreateAIによるオープンソースの画像から動画を生成するモデルです。入力画像を基に、360pから720pの解像度で動画フレームを生成し、様々なアスペクト比に対応し、最大5秒間の動画を生成できます。モーションとカメラ制御機能を備え、動画生成における柔軟性と創造性を高めています。このモデルはApache 2.0ライセンスの下で公開されています。
✨ 主な機能
- 入力画像から360p - 720pの解像度で動画を生成
- 様々なアスペクト比に対応
- 最大5秒間の動画生成
- モーションとカメラ制御機能による柔軟な動画生成
📦 インストール
以下のコマンドを使用して、GitHubからコードをインストールします。
git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt
💻 使用例
基本的な使用法
モデルを直接Pythonコードで実行するには、以下のコマンドを使用します。
python3 predict_i2v.py
または、githubリポジトリのComfyUIラッパーを使用することもできます。
📚 ドキュメント
モデルアーキテクチャ
如意-Mini-7Bは約71億のパラメータを持つ高度な画像から動画への変換モデルです。モデルアーキテクチャはEasyAnimate V4モデルを改変したもので、そのトランスフォーマーモジュールはHunyuanDiTを継承しています。以下の3つの主要なコンポーネントで構成されています。
- Casual VAEモジュール:動画の圧縮と解凍を処理します。空間解像度を1/8、時間解像度を1/4に低減し、圧縮後の各潜在ピクセルは16個の浮動小数点数で表されます。
- Diffusion Transformerモジュール:3D全注意力を使用して圧縮された動画データを生成します。
- 空間次元には2D Normalized - RoPEを使用
- 時間次元にはSin - cos位置埋め込みを使用
- モデルのトレーニングにはDDPM (Denoising Diffusion Probabilistic Models)を使用
- 如意はまた、入力画像からセマンティック特徴を抽出するためにCLIPモデルを利用し、クロスアテンションによってトランスフォーマーにCLIP特徴を導入し、動画生成全体をガイドします。
トレーニングデータと方法論
トレーニングプロセスは4つのフェーズに分けられています。
- フェーズ1:約2億の動画クリップと約3000万の画像を256解像度で使用してゼロから事前学習。バッチサイズ4096で35万回の反復を行い、完全に収束させます。
- フェーズ2:約6000万の動画クリップを使用して、マルチスケール解像度(384 - 512)で微調整。バッチサイズ1024で6万回の反復を行います。
- フェーズ3:約2000万の動画クリップと約800万の画像を使用して、384 - 1024解像度で高品質微調整。メモリに基づく動的バッチサイズで1万回の反復を行います。
- フェーズ4:約1000万の選りすぐりの高品質動画クリップを使用して、画像から動画へのトレーニングを行います。メモリに基づく動的バッチサイズで約1万回の反復を行います。
ハードウェア要件
如意のVRAM使用量は、動画の解像度と長さに依存します。以下に、いくつかの典型的な動画サイズの使用量を示します。単一のA100でテストされています。
動画サイズ |
360x480x120 |
384x672x120 |
480x640x120 |
630x1120x120 |
720x1280x120 |
メモリ |
21.5GB |
25.5GB |
27.7GB |
44.9GB |
54.8GB |
時間 |
03:10 |
05:29 |
06:49 |
24:18 |
39:02 |
RTX4090などの24GB VRAMカードの場合、low_gpu_memory_mode
を提供しており、このモードでは720x1280x120の動画を生成できますが、時間がかかります。
🔧 技術詳細
この実験的なリリースにはいくつかの既知の制限があります。テキスト、手、および密集した人の顔が歪む場合があります。モデルが将来のフレームを生成する方法を知らない場合、動画が別のシーンに切り替わることがあります。これらの問題に対して引き続き取り組んでおり、進歩があればモデルを更新します。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で公開されています。
成果展示
画像から動画への変換例
カメラ制御例
 |
|
|
入力 | 左 | 右 |
|
|
|
静止 | 上 | 下 |
モーション振幅制御例
モーション1 |
モーション2 |
モーション3 |
モーション4 |
BibTeX
@misc{createai2024ruyi,
title={Ruyi-Mini-7B},
author={CreateAI Team},
year={2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished={\url{https://github.com/IamCreateAI/Ruyi-Models}}
}
お問い合わせ
さらなる議論のために、DiscordまたはWechatグループ(QRコードをスキャンして如意アシスタントを追加し、公式グループに参加)に参加することを歓迎します!
