Allegro-T2V-40x720Pオープンソーステキストからビデオへのモデル - 2〜6秒の詳細なビデオを無料で生成、複数解像度に対応

Allegro T2V 40x720P

rhymes-aiによって開発

Allegroはオープンソースの高品質なテキストから動画を生成するモデルで、2秒から6秒、15 FPSの詳細な動画を生成でき、複数の解像度をサポートしています。

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #高精細動画生成 #長系列モデリング #軽量アーキテクチャ

ダウンロード数 21

リリース時間 : 12/17/2024

モデル概要

Allegroは先進的なテキストから動画を生成するモデルで、テキストプロンプトに基づいて高品質な動画コンテンツを生成できます。368x640や720x1280など複数の解像度をサポートし、フレーム補間技術により30 FPSまで向上可能です。

モデル特徴

オープンソース

完全なモデルウェイトとコードがコミュニティに公開されており、Apache 2.0ライセンスを採用しています。

多様なコンテンツ作成

人間や動物のクローズアップから様々な動的シーンまで、幅広いコンテンツを生成できます。

高品質な出力

2秒から6秒、15 FPS、解像度368x640と720x1280の詳細な動画を生成でき、フレーム補間で30 FPSまで向上可能です。

軽量で効率的

1.75億パラメータのVideoVAEと28億パラメータのVideoDiTモデルを含みます。複数の精度をサポートし、BF16モードでCPUオフロードを有効にすると、わずか9.3 GBのVRAMしか消費しません。

モデル能力

テキストから動画生成

高品質動画合成

多様なコンテンツ作成

動画フレーム補間サポート

使用事例

クリエイティブコンテンツ生成

広告動画生成

製品説明に基づいて高品質な広告動画を生成します。

2秒から6秒の広告動画を生成し、ソーシャルメディアプロモーションに利用可能です。

アニメーションショート作成

ストーリーラインに基づいてアニメーションショートを生成します。

豊富なディテールを持つアニメーションショートを生成し、クリエイティブプロジェクトに適しています。

教育

教育動画生成

教育内容に基づいて補助動画を生成します。

高品質な教育動画を生成し、学習体験を向上させます。

🚀 アレグロ（Allegro）

アレグロ（Allegro）は、テキストから動画を生成するオープンソースのモデルです。多様なコンテンツを生成でき、高品質な動画を出力します。また、パラメータが少なく効率的で、GPUメモリの使用量も抑えられます。

ギャラリー · GitHub · ブログ · 論文 · Discord · ウェイトリストに登録 (Discordで試してみましょう！)

🚀 クイックスタート

必要なライブラリをインストールします。
- Python >= 3.10、PyTorch >= 2.4、CUDA >= 12.4が必要です。
- Anacondaを使って新しい環境（Python >= 3.10）を作成することをおすすめします。conda create -n rllegro python=3.10 -y を実行して、以下の例を実行します。
- pip install git+https://github.com/huggingface/diffusers.git torch==2.4.1 transformers==4.40.1 accelerate sentencepiece imageio imageio-ffmpeg beautifulsoup4 を実行します。

推論を実行します。

import torch
from diffusers import AutoencoderKLAllegro, AllegroPipeline
from diffusers.utils import export_to_video
vae = AutoencoderKLAllegro.from_pretrained("rhymes-ai/Allegro-T2V-40x720P", subfolder="vae", torch_dtype=torch.float32)

pipe = AllegroPipeline.from_pretrained(
    "rhymes-ai/Allegro-T2V-40x720P", vae=vae, torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.vae.enable_tiling()

prompt = "A seaside harbor with bright sunlight and sparkling seawater, with many boats in the water. From an aerial view, the boats vary in size and color, some moving and some stationary. Fishing boats in the water suggest that this location might be a popular spot for docking fishing boats."

positive_prompt = """
(masterpiece), (best quality), (ultra-detailed), (unwatermarked), 
{} 
emotional, harmonious, vignette, 4k epic detailed, shot on kodak, 35mm photo, 
sharp focus, high budget, cinemascope, moody, epic, gorgeous
"""

negative_prompt = """
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, 
low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry.
"""

prompt = prompt.format(prompt.lower().strip())

video = pipe(prompt, negative_prompt=negative_prompt, guidance_scale=7.5, max_sequence_length=512, num_inference_steps=100, generator = torch.Generator(device="cuda:0").manual_seed(42)).frames[0]
export_to_video(video, "output.mp4", fps=15)

pipe.enable_sequential_cpu_offload() を使ってモデルをCPUにオフロードすることで、GPUメモリの使用量を減らすことができますが、推論時間は大幅に増加します。

（オプション）動画を30 FPSに補間します。

EMA-VFI を使って、動画を15 FPSから30 FPSに補間することをおすすめします。

より良い視覚品質を得るために、imageioを使って動画を保存してください。
より高速な推論（Context Parallel、PABなど）については、GitHubリポジトリを参照してください。

✨ 主な機能

オープンソース：モデルの重みとコードがコミュニティに公開されており、Apache 2.0ライセンスです！
多様なコンテンツ作成：人や動物のクローズアップから、様々なダイナミックなシーンまで、幅広いコンテンツを生成することができます。
高品質な出力：368x640および720x1280の解像度で、15 FPSの2〜6秒の詳細な動画を生成します。EMA-VFI を使って30 FPSに補間することができます。
小型で効率的：175MパラメータのVideoVAEと2.8BパラメータのVideoDiTモデルを備えています。複数の精度（FP32、BF16、FP16）をサポートし、CPUオフロードを使用したBF16モードでは9.3 GBのGPUメモリを使用します。コンテキスト長は79.2K（88フレーム相当）です。

📦 インストール

必要条件

Python >= 3.10
PyTorch >= 2.4
CUDA >= 12.4

手順

Anacondaを使って新しい環境を作成します。

conda create -n rllegro python=3.10 -y
conda activate rllegro

必要なライブラリをインストールします。

pip install git+https://github.com/huggingface/diffusers.git torch==2.4.1 transformers==4.40.1 accelerate sentencepiece imageio imageio-ffmpeg beautifulsoup4

📚 ドキュメント

モデル情報

属性	详情
モデル名	Allegro-T2V-40x720P
説明	テキストから動画を生成するモデル
ダウンロード先	Hugging Face
パラメータ	VAE: 175M、DiT: 2.8B
推論精度	VAE: FP32/TF32/BF16/FP16 (FP32/TF32が最適)、DiT/T5: BF16/FP32/TF32
コンテキスト長	36K
解像度	720 x 1280
フレーム数	40
動画長	3秒 @ 15 FPS