🚀 Text2Motion
Text2Motion: オープンで高度な大規模ビデオ生成モデル
このリポジトリでは、Text2Motion という包括的でオープンなビデオ基礎モデルのセットを紹介します。これはビデオ生成の限界を押し広げるもので、以下のような主要な特徴を備えています。
- 👍 最先端の性能:Text2Motion は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを上回る性能を発揮します。
- 👍 コンシューマーグレードのGPUに対応:T2V - 1.3Bモデルは、わずか8.19GBのVRAMしか必要とせず、ほぼすべてのコンシューマーグレードのGPUと互換性があります。RTX 4090では、量子化などの最適化技術を使用せずに、約4分で5秒の480Pビデオを生成できます。その性能は、一部のクローズドソースモデルに匹敵します。
- 👍 複数のタスク:Text2Motion は、Text - to - Video、Image - to - Video、Video Editing、Text - to - Image、Video - to - Audioなどのタスクで優れた性能を発揮し、ビデオ生成の分野を前進させます。
- 👍 視覚的なテキスト生成:Text2Motion は、中国語と英語のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
- 👍 強力なビデオVAE:Text2Motion - VAE は、例外的な効率と性能を発揮し、時間情報を保持しながら任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基礎となります。
このリポジトリには、T2V - 14Bモデルが含まれており、オープンソースおよびクローズドソースのモデルの中で新たな最先端性能のベンチマークを確立しています。大きなモーションダイナミクスを持つ高品質なビジュアルを生成する卓越した能力を示します。また、中国語と英語のテキストを生成できる唯一のビデオモデルであり、480Pと720Pの両方の解像度でのビデオ生成をサポートしています。
🔥 最新ニュース!!
- 2025年2月22日: 👋 Text2Motionの推論コードと重みをリリースしました。
📑 今後の予定
- Text2Motion Text - to - Video
- [x] 14BのマルチGPU推論コード
- [x] 14Bのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
- Text2Motion Image - to - Video
- [x] 14BモデルのマルチGPU推論コード
- [x] 14Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
🚀 クイックスタート
📦 インストール
リポジトリをクローンします。
git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion
依存関係をインストールします。
# torch >= 2.4.0を確認
pip install -r requirements.txt
モデルのダウンロード
モデル |
ダウンロードリンク |
備考 |
T2V - 14B |
🤗 Huggingface |
480Pと720Pの両方をサポート |
🤗 huggingface - cliを使用してモデルをダウンロードします。
pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion
テキストからビデオ生成を実行
このリポジトリは、2つのText - to - Videoモデル(14B)と2つの解像度(480Pと720P)をサポートしています。これらのモデルのパラメータと設定は以下の通りです。
タスク |
解像度(480P) |
解像度(720P) |
モデル |
t2v - 14B |
✔️ |
✔️ |
Text2Motion - 14B |
(1) プロンプト拡張を使用しない場合
実装を容易にするために、プロンプト拡張のステップをスキップした基本バージョンの推論プロセスから始めます。
python generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
OOM(メモリ不足)の問題が発生した場合は、--offload_model True
と --t5_cpu
オプションを使用して、GPUメモリの使用量を減らすことができます。例えば、RTX 4090 GPUでは次のようになります。
- FSDP + xDiT USPを使用したマルチGPU推論
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
モデルの詳細
モデル |
次元 |
入力次元 |
出力次元 |
フィードフォワード次元 |
周波数次元 |
ヘッド数 |
レイヤー数 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
📄 ライセンス
このプロジェクトは、Apache - 2.0ライセンスの下で提供されています。