Allegro - TI2Vオープンソースモデル - プロンプトと画像に基づいて高品質なビデオコンテンツを生成

ホーム

Allegro TI2V

rhymes-aiによって開発

Allegro-TI2Vはオープンソースのテキスト-画像から動画を生成するモデルで、ユーザーが提供するプロンプトと入力画像から高品質な動画コンテンツを生成できます。

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #画像から動画生成 #高解像度動画生成 #先頭・末尾フレーム補間

ダウンロード数 50

リリース時間 : 11/21/2024

モデル概要

Allegro-TI2Vは拡散モデルベースの動画生成ツールで、単一画像または先頭・末尾フレーム画像から中間動画コンテンツを生成可能。様々な動的シーン創作に適しています。

モデル特徴

オープンソースモデル

完全なモデル重みとコードが公開されており、Apache 2.0ライセンスを採用

多様なコンテンツ創作

人物/動物のクローズアップから様々な動的シーンまで幅広いコンテンツ生成をサポート

マルチモーダル入力

先頭フレーム画像または先頭・末尾フレーム画像に基づく動画生成をサポート

高品質出力

720x1280解像度、15 FPSの6秒動画を生成可能。30 FPSへのフレーム補間もサポート

軽量で効率的

BF16モードでCPUオフロード時、VRAM使用量はわずか9.3GB

モデル能力

テキストから動画生成

画像から動画生成

高解像度動画生成

動的シーン創作

使用事例

クリエイティブコンテンツ制作

アニメーションショート制作

先頭フレーム画像とプロンプトに基づき後続アニメーションコンテンツを生成

6秒720x1280解像度動画

シーン遷移効果

先頭・末尾フレーム画像から中間遷移アニメーションを生成

滑らかなシーン転換効果

教育デモンストレーション

科学プロセス可視化

静的な科学図表を動的なデモンストレーション動画に変換

生き生きとした直観的な教材

🚀 アレグロ（Allegro） - 高度なビデオ生成モデル

アレグロ（Allegro）は画像からビデオを生成するオープンソースモデルで、多様なコンテンツを高品質に生成できます。

ギャラリー · GitHub · ブログ · 論文 · Discord

🖼️ ギャラリー

より多くのデモと対応するプロンプトについては、[アレグロギャラリー](https://rhymes.ai/allegro_gallery)を参照してください。

✨ 主な機能

オープンソース：完全なモデルの重みとコードがコミュニティに公開されており、Apache 2.0ライセンスです！
多様なコンテンツ作成：人や動物のクローズアップから、様々なダイナミックなシーンまで、幅広いコンテンツを生成できます。
テキスト・画像からビデオ生成：ユーザーが提供するプロンプトと画像からビデオを生成します。サポートされる入力タイプは以下の通りです。
- ユーザーのプロンプトと最初のフレーム画像から後続のビデオコンテンツを生成します。
- ユーザーのプロンプトと最初と最後のフレーム画像から中間のビデオコンテンツを生成します。
高品質な出力：720x1280解像度で15 FPSの6秒間の詳細なビデオを生成し、EMA - VFIで30 FPSに補間できます。
小型で効率的：175MパラメータのVideoVAEと2.8BパラメータのVideoDiTモデルを備えています。複数の精度（FP32、BF16、FP16）をサポートし、CPUオフロードを使用したBF16モードでは9.3 GBのGPUメモリを使用します。コンテキスト長は79.2K、つまり88フレームです。

📊 モデル情報

プロパティ	詳細
モデル名	アレグロ - TI2V（Allegro - TI2V）、アレグロ（Allegro）
説明	テキスト・画像からビデオ生成モデル、テキストからビデオ生成モデル
ダウンロード	Hugging Face、Hugging Face
パラメータ	VAE: 175M、DiT: 2.8B
推論精度	VAE: FP32/TF32/BF16/FP16 (FP32/TF32が最適)、DiT/T5: BF16/FP32/TF32
コンテキスト長	79.2K
解像度	720 x 1280
フレーム数	88
ビデオ長	6秒 @ 15 FPS
単一GPUメモリ使用量	9.3G BF16 (CPUオフロードあり)
推論時間	20分 (単一H100) / 3分 (8xH100)

🚀 クイックスタート

アレグロのGitHubコードをダウンロードします。
必要なライブラリをインストールします。
- Python >= 3.10、PyTorch >= 2.4、CUDA >= 12.4を確認してください。詳細はrequirements.txtを参照してください。
- Anacondaを使用して新しい環境（Python >= 3.10）を作成し、以下の例を実行することをおすすめします。
アレグロ - TI2Vのモデル重みをダウンロードします。

推論を実行します。

python single_inference_ti2v.py \
--user_prompt 'The car drives along the road.' \
--first_frame your/path/to/first_frame_image.png \
--vae your/path/to/vae \
--dit your/path/to/transformer \
--text_encoder your/path/to/text_encoder \
--tokenizer your/path/to/tokenizer \
--guidance_scale 8 \
--num_sampling_steps 100 \
--seed 1427329220

出力ビデオの解像度は固定で720 × 1280です。異なる解像度の入力画像は自動的にトリミングおよびリサイズされます。

引数	説明
`--user_prompt`	[必須] 画像からビデオ生成のためのテキスト入力。
`--first_frame`	[必須] 画像からビデオ生成のための最初のフレーム画像入力。
`--last_frame`	[オプション] 指定された場合、モデルは指定された最初と最後のフレーム画像に基づいて中間のビデオコンテンツを生成します。
`--enable_cpu_offload`	[オプション] モデルをCPUにオフロードしてGPUメモリコストを削減します（約9.3G、CPUオフロードを有効にしない場合は27.5G）が、推論時間は大幅に増加します。