🚀 Text2Motion
Text2Motion: オープンで高度な大規模ビデオ生成モデル
このリポジトリでは、Text2Motion を紹介します。これは、ビデオ生成の限界を広げる包括的でオープンなビデオ基礎モデルのセットです。Text2Motion は以下の主要な特徴を持っています。
- 👍 最先端の性能:Text2Motion は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを常に上回ります。
- 👍 コンシューマグレードのGPUに対応:T2V - 1.3Bモデルは、わずか8.19GBのVRAMを必要とするだけで、ほとんどすべてのコンシューマグレードのGPUと互換性があります。RTX 4090では、(量子化などの最適化技術を使用せずに)約4分で5秒の480Pビデオを生成できます。その性能は、一部のクローズドソースモデルに匹敵します。
- 👍 複数のタスク:Text2Motion は、Text - to - Video、Image - to - Video、Video Editing、Text - to - Image、Video - to - Audioなどのタスクで優れた性能を発揮し、ビデオ生成の分野を進歩させます。
- 👍 視覚的なテキスト生成:Text2Motion は、中国語と英語のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
- 👍 強力なビデオVAE:Text2Motion - VAE は、卓越した効率と性能を提供し、時間情報を保持しながら任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基礎となります。
このリポジトリには、T2V - 14Bモデルが含まれており、オープンソースモデルとクローズドソースモデルの両方の中で新しい最先端性能のベンチマークを確立しています。大きなモーションダイナミクスを持つ高品質のビジュアルを生成する卓越した能力を示します。また、中国語と英語のテキストを生成できる唯一のビデオモデルであり、480Pと720Pの両方の解像度でのビデオ生成をサポートしています。
🚀 クイックスタート
📦 インストール
リポジトリをクローンします。
git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion
依存関係をインストールします。
# torch >= 2.4.0を確認
pip install -r requirements.txt
モデルのダウンロード
Property |
Details |
Model Type |
T2V - 14B |
Download Link |
🤗 Huggingface |
Notes |
480Pと720Pの両方をサポート |
🤗 huggingface - cliを使用してモデルをダウンロードします。
pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion
💻 使用例
基本的な使用法
このリポジトリは、2つのText - to - Videoモデル(14B)と2つの解像度(480Pと720P)をサポートしています。これらのモデルのパラメータと設定は以下の通りです。
タスク |
解像度 (480P) |
解像度 (720P) |
モデル |
t2v - 14B |
✔️ |
✔️ |
Text2Motion - 14B |
(1) プロンプト拡張を使用しない場合
実装を容易にするために、プロンプト拡張 ステップをスキップする基本バージョンの推論プロセスから始めます。
python generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
OOM(メモリ不足)の問題が発生した場合は、--offload_model True
と --t5_cpu
オプションを使用して、GPUメモリの使用量を削減できます。たとえば、RTX 4090 GPUでは以下のようにします。
- FSDP + xDiT USPを使用したマルチGPU推論
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
モデルの詳細
モデル |
次元 |
入力次元 |
出力次元 |
フィードフォワード次元 |
周波数次元 |
ヘッド数 |
レイヤー数 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
✨ 主な機能
- 最先端の性能:複数のベンチマークで既存のオープンソースモデルや商用ソリューションを上回ります。
- コンシューマグレードのGPUに対応:T2V - 1.3Bモデルは少ないVRAMで動作し、RTX 4090で高速にビデオ生成が可能です。
- 複数のタスクに対応:Text - to - Video、Image - to - Videoなどの様々なタスクをサポートします。
- 視覚的なテキスト生成:中国語と英語のテキストを生成できるビデオモデルです。
- 強力なビデオVAE:時間情報を保持しながら1080Pビデオのエンコードとデコードが可能です。
🔥 最新ニュース!!
- 2025年2月22日: 👋 Text2Motionの推論コードと重みをリリースしました。
📑 今後の予定
- Text2Motion Text - to - Video
- [x] 14BのマルチGPU推論コード
- [x] 14Bのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
- Text2Motion Image - to - Video
- [x] 14BモデルのマルチGPU推論コード
- [x] 14Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
📄 ライセンス
このプロジェクトは、Apache - 2.0ライセンスの下で公開されています。