Text2Motion開源視頻生成模型套件 - 支持文本、圖像生成視頻任務

首頁

Text2motion

由Quantamhash開發

開放且先進的大規模視頻生成模型套件，支持文本生成視頻、圖像生成視頻等多種任務

文本生成視頻英語開源協議:Apache-2.0 #雙語視頻生成 #高動態畫面 #消費級顯卡適配

下載量 233

發布時間 : 3/21/2025

模型概述

文本轉動態是一套全面開放的視頻基礎模型套件，突破視頻生成邊界，支持中英雙語文本生成，兼容480P/720P雙分辨率

模型特點

頂尖性能

在多項基準測試中超越現有開源模型和商業解決方案

消費級顯卡支持

T2V-1.3B模型僅需8.19GB顯存，RTX 4090上生成5秒480P視頻約4分鐘

多任務支持

支持文本生成視頻、圖像生成視頻、視頻編輯等多種任務

雙語文本生成

首個支持中英雙語文本生成的視頻模型

高效視頻VAE

編解碼任意長度1080P視頻時保持時序信息，效率與性能俱佳

模型能力

文本生成視頻

圖像生成視頻

視頻編輯

文本生成圖像

視頻生成音頻

使用案例

娛樂內容創作

動畫短片生成

根據文本描述生成擬人化動物動畫

示例：生成兩隻擬人化貓咪拳擊比賽的480P/720P視頻

廣告製作

產品展示視頻

根據產品描述自動生成展示視頻

🚀 文本轉動態視頻模型Text2Motion

Text2Motion 是一套全面且開放的視頻基礎模型套件，突破了視頻生成的界限。它具備先進的性能和廣泛的功能，能在多個視頻生成任務中表現出色，為視頻生成領域帶來了新的發展。

🚀 快速開始

安裝

克隆倉庫：

git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion

安裝依賴：

# 確保 torch >= 2.4.0
pip install -r requirements.txt

模型下載

模型	下載鏈接	說明
T2V - 14B	🤗 Huggingface	支持 480P 和 720P 分辨率

使用 🤗 huggingface - cli 下載模型：

pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion

運行文本到視頻生成

本倉庫支持兩個文本到視頻模型（14B）和兩種分辨率（480P 和 720P）。這些模型的參數和配置如下：

任務	480P 分辨率	720P 分辨率	模型
t2v - 14B	✔️	✔️	Text2Motion - 14B

（1）不使用提示擴展

為便於實現，我們從跳過提示擴展步驟的基本推理過程開始。

單 GPU 推理

python generate.py  --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（內存不足）問題，可以使用 --offload_model True 和 --t5_cpu 選項來減少 GPU 內存使用。例如，在 RTX 4090 GPU 上：

使用 FSDP + xDiT USP 進行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

✨ 主要特性

👍 最優性能：Text2Motion 在多個基準測試中始終優於現有的開源模型和最先進的商業解決方案。
👍 支持消費級 GPU：T2V - 1.3B 模型僅需 8.19 GB VRAM，幾乎與所有消費級 GPU 兼容。它可以在 RTX 4090 上約 4 分鐘內生成一個 5 秒的 480P 視頻（不使用量化等優化技術），其性能甚至可與一些閉源模型相媲美。
👍 多任務處理：Text2Motion 在文本到視頻、圖像到視頻、視頻編輯、文本到圖像和視頻到音頻等任務中表現出色，推動了視頻生成領域的發展。
👍 可視化文本生成：Text2Motion 是首個能夠同時生成中文和英文文本的視頻模型，具有強大的文本生成能力，增強了其實際應用價值。
👍 強大的視頻 VAE：Text2Motion - VAE 具有出色的效率和性能，能夠對任意長度的 1080P 視頻進行編碼和解碼，同時保留時間信息，是視頻和圖像生成的理想基礎。