🚀 文本轉動態視頻模型(Text2Motion)
Text2Motion 是一套全面且開放的視頻基礎模型套件,突破了視頻生成的邊界。它具備強大的視頻生成能力,能在多個任務中表現出色,為視頻生成領域帶來了新的突破。
🚀 快速開始
安裝
克隆倉庫:
git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion
安裝依賴:
# 確保 torch >= 2.4.0
pip install -r requirements.txt
模型下載
使用 🤗 huggingface - cli 下載模型:
pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion
運行文本到視頻生成
本倉庫支持兩個文本到視頻模型(14B)和兩種分辨率(480P 和 720P)。這些模型的參數和配置如下:
任務 |
480P |
720P |
模型 |
t2v - 14B |
✔️ |
✔️ |
Text2Motion - 14B |
(1)不使用提示擴展
為便於實現,我們先從跳過 提示擴展 步驟的基本推理過程開始。
python generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
如果遇到 OOM(內存不足)問題,可以使用 --offload_model True
和 --t5_cpu
選項來減少 GPU 內存使用。例如,在 RTX 4090 GPU 上:
# 此處原文檔未給出完整命令
- 使用 FSDP + xDiT USP 進行多 GPU 推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
✨ 主要特性
- 👍 業界領先性能:Text2Motion 在多個基準測試中始終優於現有的開源模型和最先進的商業解決方案。
- 👍 支持消費級 GPU:T2V - 1.3B 模型僅需 8.19 GB VRAM,幾乎與所有消費級 GPU 兼容。在 RTX 4090 上,它可以在大約 4 分鐘內生成一個 5 秒的 480P 視頻(不使用量化等優化技術),其性能甚至可與一些閉源模型相媲美。
- 👍 多任務處理:Text2Motion 在文本到視頻、圖像到視頻、視頻編輯、文本到圖像和視頻到音頻等任務中表現出色,推動了視頻生成領域的發展。
- 👍 可視化文本生成:Text2Motion 是首個能夠同時生成中文和英文文本的視頻模型,強大的文本生成能力增強了其實際應用價值。
- 👍 強大的視頻 VAE:Text2Motion - VAE 具有卓越的效率和性能,能夠對任意長度的 1080P 視頻進行編碼和解碼,同時保留時間信息,是視頻和圖像生成的理想基礎。
本倉庫的 T2V - 14B 模型在開源和閉源模型中都樹立了新的業界領先性能基準。它在生成具有顯著動態效果的高質量視覺內容方面表現出色,也是唯一能夠同時生成中文和英文文本並支持 480P 和 720P 分辨率視頻生成的視頻模型。
🔥 最新消息!!
- 2025 年 2 月 22 日:👋 我們發佈了 Text2Motion 的推理代碼和權重。
📑 待辦事項列表
Text2Motion 文本到視頻
- [x] 14B 模型的多 GPU 推理代碼
- [x] 14B 模型的檢查點
- [x] Gradio 演示
- [ ] Diffusers 集成
- [ ] ComfyUI 集成
Text2Motion 圖像到視頻
- [x] 14B 模型的多 GPU 推理代碼
- [x] 14B 模型的檢查點
- [x] Gradio 演示
- [ ] Diffusers 集成
- [ ] ComfyUI 集成
🔧 技術細節
模型 |
維度 |
輸入維度 |
輸出維度 |
前饋維度 |
頻率維度 |
頭數 |
層數 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
📄 許可證
本項目採用 Apache - 2.0 許可證。