Text2Motionオープンソース動画生成モデル - テキスト、画像からの動画生成をサポート、消費者向けグラフィックカードと互換性あり

ホーム

Text2motion

sbapan41によって開発

テキストから動画へは、オープンで先進的な動画生成モデルであり、テキストから動画生成、画像から動画生成など多様なタスクをサポートし、コンシューマー向けGPUと互換性があります。

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #マルチモーダル動画生成 #中英二言語対応 #コンシューマー向けGPU対応

ダウンロード数 283

リリース時間 : 3/21/2025

モデル概要

テキストから動画へは大規模な動画生成モデルで、テキストから動画生成、画像から動画生成、動画編集など多様な動画生成タスクをサポートし、高い効率性と幅広い応用シーンを備えています。

モデル特徴

トップクラスの性能

複数のベンチマークテストで既存のオープンソースモデルや商用ソリューションを継続的に凌駕しています。

コンシューマー向けGPU対応

T2V-1.3Bモデルはわずか8.19GBのVRAMを必要とし、ほぼすべてのコンシューマー向けGPUと互換性があります。

マルチタスクサポート

テキストから動画生成、画像から動画生成、動画編集、テキストから画像生成、動画から音声生成に優れています。

視覚的テキスト生成

初めて中英二言語のテキスト生成をサポートする動画モデルで、テキスト生成能力が実際の応用価値を大幅に向上させています。

効率的な動画VAE

任意の長さの1080P動画をエンコードおよびデコードする際に、時間情報の完全性を維持し、卓越した効率と性能を発揮します。

モデル能力

テキストから動画生成

画像から動画生成

動画編集

テキストから画像生成

動画から音声生成

使用事例

エンターテインメント

アニメーション動画生成

テキスト記述に基づいて擬人化された動物のアニメーション動画を生成します。

5秒間の480Pまたは720Pの高品質動画を生成します。

教育

教育動画生成

テキスト記述に基づいて教育動画を生成し、教育コンテンツ制作を支援します。

中英字幕付きの教育動画を生成します。

🚀 Text2Motion

Text2Motion: オープンで高度な大規模ビデオ生成モデル

このリポジトリでは、Text2Motion という包括的でオープンなビデオ基礎モデルのセットを紹介します。これはビデオ生成の限界を押し広げるもので、以下のような主要な特徴を備えています。

👍 最先端の性能：Text2Motion は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを上回る性能を発揮します。
👍 コンシューマーグレードのGPUに対応：T2V - 1.3Bモデルは、わずか8.19GBのVRAMしか必要とせず、ほぼすべてのコンシューマーグレードのGPUと互換性があります。RTX 4090では、量子化などの最適化技術を使用せずに、約4分で5秒の480Pビデオを生成できます。その性能は、一部のクローズドソースモデルに匹敵します。
👍 複数のタスク：Text2Motion は、Text - to - Video、Image - to - Video、Video Editing、Text - to - Image、Video - to - Audioなどのタスクで優れた性能を発揮し、ビデオ生成の分野を前進させます。
👍 視覚的なテキスト生成：Text2Motion は、中国語と英語のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
👍 強力なビデオVAE：Text2Motion - VAE は、例外的な効率と性能を発揮し、時間情報を保持しながら任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基礎となります。

このリポジトリには、T2V - 14Bモデルが含まれており、オープンソースおよびクローズドソースのモデルの中で新たな最先端性能のベンチマークを確立しています。大きなモーションダイナミクスを持つ高品質なビジュアルを生成する卓越した能力を示します。また、中国語と英語のテキストを生成できる唯一のビデオモデルであり、480Pと720Pの両方の解像度でのビデオ生成をサポートしています。

🔥 最新ニュース!!

2025年2月22日: 👋 Text2Motionの推論コードと重みをリリースしました。

📑 今後の予定

Text2Motion Text - to - Video
- [x] 14BのマルチGPU推論コード
- [x] 14Bのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
Text2Motion Image - to - Video
- [x] 14BモデルのマルチGPU推論コード
- [x] 14Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合

🚀 クイックスタート

📦 インストール

リポジトリをクローンします。

git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion

依存関係をインストールします。

# torch >= 2.4.0を確認
pip install -r requirements.txt

モデルのダウンロード

モデル	ダウンロードリンク	備考
T2V - 14B	🤗 Huggingface	480Pと720Pの両方をサポート

🤗 huggingface - cliを使用してモデルをダウンロードします。

pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion

テキストからビデオ生成を実行

このリポジトリは、2つのText - to - Videoモデル（14B）と2つの解像度（480Pと720P）をサポートしています。これらのモデルのパラメータと設定は以下の通りです。

タスク	解像度（480P）	解像度（720P）	モデル
t2v - 14B	✔️	✔️	Text2Motion - 14B

(1) プロンプト拡張を使用しない場合

実装を容易にするために、プロンプト拡張のステップをスキップした基本バージョンの推論プロセスから始めます。

シングルGPU推論

python generate.py  --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

OOM（メモリ不足）の問題が発生した場合は、--offload_model True と --t5_cpu オプションを使用して、GPUメモリの使用量を減らすことができます。例えば、RTX 4090 GPUでは次のようになります。

FSDP + xDiT USPを使用したマルチGPU推論

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."