Text2Motionオープンソースビデオ生成モデルセット - テキスト、画像によるビデオ生成タスクをサポート

ホーム

Text2motion

Quantamhashによって開発

オープンで先進的な大規模動画生成モデルキット、テキストから動画生成、画像から動画生成など多様なタスクをサポート

テキスト生成ビデオ英語オープンソースライセンス:Apache-2.0 #バイリンガル動画生成 #高ダイナミックレンジ映像 #コンシューマー向けGPU対応

ダウンロード数 233

リリース時間 : 3/21/2025

モデル概要

テキストから動画へは包括的なオープンソースの動画基礎モデルキットで、動画生成の境界を突破し、中国語と英語のバイリンガルテキスト生成をサポート、480P/720Pのデュアル解像度に対応

モデル特徴

トップクラスの性能

複数のベンチマークテストで既存のオープンソースモデルや商用ソリューションを凌駕

コンシューマー向けGPUサポート

T2V-1.3Bモデルはわずか8.19GBのVRAMで動作、RTX 4090で5秒480P動画生成に約4分

マルチタスクサポート

テキストから動画生成、画像から動画生成、動画編集など多様なタスクをサポート

バイリンガルテキスト生成

中国語と英語のバイリンガルテキスト生成をサポートする初の動画モデル

高効率動画VAE

任意の長さの1080P動画をエンコード/デコードする際に時系列情報を保持、効率と性能を両立

モデル能力

テキストから動画生成

画像から動画生成

動画編集

テキストから画像生成

動画から音声生成

使用事例

エンターテインメントコンテンツ制作

アニメショート生成

テキスト記述に基づき擬人化動物アニメーションを生成

例：擬人化した2匹の猫のボクシング試合の480P/720P動画を生成

広告制作

製品紹介動画

製品説明に基づき自動的に紹介動画を生成

🚀 Text2Motion

Text2Motion: オープンで高度な大規模ビデオ生成モデル

このリポジトリでは、Text2Motion を紹介します。これは、ビデオ生成の限界を広げる包括的でオープンなビデオ基礎モデルのセットです。Text2Motion は以下の主要な特徴を持っています。

👍 最先端の性能：Text2Motion は、複数のベンチマークで既存のオープンソースモデルや最先端の商用ソリューションを常に上回ります。
👍 コンシューマグレードのGPUに対応：T2V - 1.3Bモデルは、わずか8.19GBのVRAMを必要とするだけで、ほとんどすべてのコンシューマグレードのGPUと互換性があります。RTX 4090では、（量子化などの最適化技術を使用せずに）約4分で5秒の480Pビデオを生成できます。その性能は、一部のクローズドソースモデルに匹敵します。
👍 複数のタスク：Text2Motion は、Text - to - Video、Image - to - Video、Video Editing、Text - to - Image、Video - to - Audioなどのタスクで優れた性能を発揮し、ビデオ生成の分野を進歩させます。
👍 視覚的なテキスト生成：Text2Motion は、中国語と英語のテキストを生成できる最初のビデオモデルであり、強力なテキスト生成機能を備えており、実用性を高めています。
👍 強力なビデオVAE：Text2Motion - VAE は、卓越した効率と性能を提供し、時間情報を保持しながら任意の長さの1080Pビデオをエンコードおよびデコードできるため、ビデオおよび画像生成の理想的な基礎となります。

このリポジトリには、T2V - 14Bモデルが含まれており、オープンソースモデルとクローズドソースモデルの両方の中で新しい最先端性能のベンチマークを確立しています。大きなモーションダイナミクスを持つ高品質のビジュアルを生成する卓越した能力を示します。また、中国語と英語のテキストを生成できる唯一のビデオモデルであり、480Pと720Pの両方の解像度でのビデオ生成をサポートしています。

🚀 クイックスタート

📦 インストール

リポジトリをクローンします。

git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion

依存関係をインストールします。

# torch >= 2.4.0を確認
pip install -r requirements.txt

モデルのダウンロード

Property	Details
Model Type	T2V - 14B
Download Link	🤗 Huggingface
Notes	480Pと720Pの両方をサポート

🤗 huggingface - cliを使用してモデルをダウンロードします。

pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion

💻 使用例

基本的な使用法

このリポジトリは、2つのText - to - Videoモデル（14B）と2つの解像度（480Pと720P）をサポートしています。これらのモデルのパラメータと設定は以下の通りです。

タスク	解像度 (480P)	解像度 (720P)	モデル
t2v - 14B	✔️	✔️	Text2Motion - 14B

(1) プロンプト拡張を使用しない場合

実装を容易にするために、プロンプト拡張ステップをスキップする基本バージョンの推論プロセスから始めます。

シングルGPU推論

python generate.py  --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

OOM（メモリ不足）の問題が発生した場合は、--offload_model True と --t5_cpu オプションを使用して、GPUメモリの使用量を削減できます。たとえば、RTX 4090 GPUでは以下のようにします。

FSDP + xDiT USPを使用したマルチGPU推論

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

モデルの詳細

モデル	次元	入力次元	出力次元	フィードフォワード次元	周波数次元	ヘッド数	レイヤー数
14B	5120	16	16	13824	256	40	40

✨ 主な機能

最先端の性能：複数のベンチマークで既存のオープンソースモデルや商用ソリューションを上回ります。
コンシューマグレードのGPUに対応：T2V - 1.3Bモデルは少ないVRAMで動作し、RTX 4090で高速にビデオ生成が可能です。
複数のタスクに対応：Text - to - Video、Image - to - Videoなどの様々なタスクをサポートします。
視覚的なテキスト生成：中国語と英語のテキストを生成できるビデオモデルです。
強力なビデオVAE：時間情報を保持しながら1080Pビデオのエンコードとデコードが可能です。

🔥 最新ニュース!!

2025年2月22日: 👋 Text2Motionの推論コードと重みをリリースしました。

📑 今後の予定

Text2Motion Text - to - Video
- [x] 14BのマルチGPU推論コード
- [x] 14Bのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合
Text2Motion Image - to - Video
- [x] 14BモデルのマルチGPU推論コード
- [x] 14Bモデルのチェックポイント
- [x] Gradioデモ
- [ ] Diffusers統合
- [ ] ComfyUI統合