Text2Motion開源視頻生成模型 - 支持文本、圖像生視頻，兼容消費級顯卡

首頁

Text2motion

由sbapan41開發

文本轉動態是一套開放且先進的視頻生成模型，支持文本生成視頻、圖像生成視頻等多種任務，兼容消費級顯卡。

文本生成視頻英語開源協議:Apache-2.0 #多模態視頻生成 #中英雙語支持 #消費級顯卡適配

下載量 283

發布時間 : 3/21/2025

模型概述

文本轉動態是一個大規模視頻生成模型，支持多種視頻生成任務，包括文本生成視頻、圖像生成視頻、視頻編輯等，具備高效性能和廣泛的應用場景。

模型特點

頂尖性能

在多個基準測試中持續超越現有開源模型及商業解決方案。

支持消費級顯卡

T2V-1.3B模型僅需8.19GB顯存，兼容幾乎所有消費級顯卡。

多任務支持

擅長文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻。

視覺文本生成

首個支持中英文文本生成的視頻模型，文本生成能力顯著提升實際應用價值。

高效視頻VAE

在編碼和解碼任意長度的1080P視頻時，保持時間信息完整性，展現卓越效率與性能。

模型能力

文本生成視頻

圖像生成視頻

視頻編輯

文本生成圖像

視頻生成音頻

使用案例

娛樂

生成動畫視頻

根據文本描述生成擬人化動物的動畫視頻。

生成5秒480P或720P的高質量視頻。

教育

生成教學視頻

根據文本描述生成教學視頻，輔助教育內容製作。

生成具有中英文字幕的教學視頻。

🚀 文本轉動態視頻模型（Text2Motion）

Text2Motion 是一套全面且開放的視頻基礎模型套件，突破了視頻生成的邊界。它具備強大的視頻生成能力，能在多個任務中表現出色，為視頻生成領域帶來了新的突破。

🚀 快速開始

安裝

克隆倉庫：

git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion

安裝依賴：

# 確保 torch >= 2.4.0
pip install -r requirements.txt

模型下載

模型	下載鏈接	備註
T2V - 14B	🤗 Huggingface	支持 480P 和 720P

使用 🤗 huggingface - cli 下載模型：

pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion

運行文本到視頻生成

本倉庫支持兩個文本到視頻模型（14B）和兩種分辨率（480P 和 720P）。這些模型的參數和配置如下：

任務	480P	720P	模型
t2v - 14B	✔️	✔️	Text2Motion - 14B

（1）不使用提示擴展

為便於實現，我們先從跳過提示擴展步驟的基本推理過程開始。

單 GPU 推理

python generate.py  --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

如果遇到 OOM（內存不足）問題，可以使用 --offload_model True 和 --t5_cpu 選項來減少 GPU 內存使用。例如，在 RTX 4090 GPU 上：

# 此處原文檔未給出完整命令

使用 FSDP + xDiT USP 進行多 GPU 推理

pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

✨ 主要特性

👍 業界領先性能：Text2Motion 在多個基準測試中始終優於現有的開源模型和最先進的商業解決方案。
👍 支持消費級 GPU：T2V - 1.3B 模型僅需 8.19 GB VRAM，幾乎與所有消費級 GPU 兼容。在 RTX 4090 上，它可以在大約 4 分鐘內生成一個 5 秒的 480P 視頻（不使用量化等優化技術），其性能甚至可與一些閉源模型相媲美。
👍 多任務處理：Text2Motion 在文本到視頻、圖像到視頻、視頻編輯、文本到圖像和視頻到音頻等任務中表現出色，推動了視頻生成領域的發展。
👍 可視化文本生成：Text2Motion 是首個能夠同時生成中文和英文文本的視頻模型，強大的文本生成能力增強了其實際應用價值。
👍 強大的視頻 VAE：Text2Motion - VAE 具有卓越的效率和性能，能夠對任意長度的 1080P 視頻進行編碼和解碼，同時保留時間信息，是視頻和圖像生成的理想基礎。