如意-Mini-7Bオープンソース画像から動画への変換モデル - 画像を無料で360p

ホーム

Ruyi Mini 7B

IamCreateAIによって開発

オープンソースの画像から動画生成モデル、360pから720p解像度に対応、最大5秒の動画生成

動画処理英語オープンソースライセンス:Apache-2.0 #画像から動画へ #動的レンズ制御 #マルチ解像度対応

ダウンロード数 437

リリース時間 : 12/16/2024

モデル概要

如意-Mini-7Bはオープンソースの画像から動画生成モデルで、入力画像から後続の動画フレームを生成でき、複数のアスペクト比とレンズ制御をサポートします。

モデル特徴

マルチ解像度対応

360pから720p解像度の動画生成をサポート、複数のアスペクト比に対応

強化された動き制御

レンズ移動制御と動きの調整機能を提供

長い動画生成

最大5秒の連続動画フレームを生成可能

高品質な出力

多段階のトレーニング最適化を経て、高品質な動画を生成

モデル能力

画像から動画へ

動画フレーム予測

レンズ動き制御

マルチ解像度生成

使用事例

コンテンツ制作

静止画のアニメーション化

静止写真を動画に変換

3-5秒の滑らかなアニメーション効果を生成

ショート動画制作

ソーシャルメディア向けのショート動画コンテンツを作成

ソーシャルプラットフォームに適したショート動画を迅速に生成

クリエイティブデザイン

コンセプトの可視化

デザインコンセプト図を動的なプレゼンテーションに変換

クライアントがデザイン意図をより理解しやすくする

🚀 如意-Mini-7B

CreateAIによる画像から動画への変換モデルで、入力画像を基に360pから720pの解像度で動画フレームを生成します。

Hugging Face | Github

🚀 クイックスタート

如意-Mini-7Bは、CreateAIによるオープンソースの画像から動画を生成するモデルです。入力画像を基に、360pから720pの解像度で動画フレームを生成し、様々なアスペクト比に対応し、最大5秒間の動画を生成できます。モーションとカメラ制御機能を備え、動画生成における柔軟性と創造性を高めています。このモデルはApache 2.0ライセンスの下で公開されています。

✨ 主な機能

入力画像から360p - 720pの解像度で動画を生成
様々なアスペクト比に対応
最大5秒間の動画生成
モーションとカメラ制御機能による柔軟な動画生成

📦 インストール

以下のコマンドを使用して、GitHubからコードをインストールします。

git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt

💻 使用例

基本的な使用法

モデルを直接Pythonコードで実行するには、以下のコマンドを使用します。

python3 predict_i2v.py

または、githubリポジトリのComfyUIラッパーを使用することもできます。

📚 ドキュメント

モデルアーキテクチャ

如意-Mini-7Bは約71億のパラメータを持つ高度な画像から動画への変換モデルです。モデルアーキテクチャはEasyAnimate V4モデルを改変したもので、そのトランスフォーマーモジュールはHunyuanDiTを継承しています。以下の3つの主要なコンポーネントで構成されています。

Casual VAEモジュール：動画の圧縮と解凍を処理します。空間解像度を1/8、時間解像度を1/4に低減し、圧縮後の各潜在ピクセルは16個の浮動小数点数で表されます。
Diffusion Transformerモジュール：3D全注意力を使用して圧縮された動画データを生成します。
- 空間次元には2D Normalized - RoPEを使用
- 時間次元にはSin - cos位置埋め込みを使用
- モデルのトレーニングにはDDPM (Denoising Diffusion Probabilistic Models)を使用
如意はまた、入力画像からセマンティック特徴を抽出するためにCLIPモデルを利用し、クロスアテンションによってトランスフォーマーにCLIP特徴を導入し、動画生成全体をガイドします。

トレーニングデータと方法論

トレーニングプロセスは4つのフェーズに分けられています。

フェーズ1：約2億の動画クリップと約3000万の画像を256解像度で使用してゼロから事前学習。バッチサイズ4096で35万回の反復を行い、完全に収束させます。
フェーズ2：約6000万の動画クリップを使用して、マルチスケール解像度（384 - 512）で微調整。バッチサイズ1024で6万回の反復を行います。
フェーズ3：約2000万の動画クリップと約800万の画像を使用して、384 - 1024解像度で高品質微調整。メモリに基づく動的バッチサイズで1万回の反復を行います。
フェーズ4：約1000万の選りすぐりの高品質動画クリップを使用して、画像から動画へのトレーニングを行います。メモリに基づく動的バッチサイズで約1万回の反復を行います。

ハードウェア要件

如意のVRAM使用量は、動画の解像度と長さに依存します。以下に、いくつかの典型的な動画サイズの使用量を示します。単一のA100でテストされています。

動画サイズ	360x480x120	384x672x120	480x640x120	630x1120x120	720x1280x120
メモリ	21.5GB	25.5GB	27.7GB	44.9GB	54.8GB
時間	03:10	05:29	06:49	24:18	39:02

RTX4090などの24GB VRAMカードの場合、low_gpu_memory_modeを提供しており、このモードでは720x1280x120の動画を生成できますが、時間がかかります。

🔧 技術詳細

この実験的なリリースにはいくつかの既知の制限があります。テキスト、手、および密集した人の顔が歪む場合があります。モデルが将来のフレームを生成する方法を知らない場合、動画が別のシーンに切り替わることがあります。これらの問題に対して引き続き取り組んでおり、進歩があればモデルを更新します。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で公開されています。

成果展示

画像から動画への変換例

カメラ制御例


入力	左	右

静止	上	下

モーション振幅制御例

モーション1

モーション2

モーション3

モーション4

BibTeX

@misc{createai2024ruyi,
      title={Ruyi-Mini-7B},
      author={CreateAI Team},
      year={2024},
      publisher = {GitHub},
      journal = {GitHub repository},
      howpublished={\url{https://github.com/IamCreateAI/Ruyi-Models}}
}