🚀 文本转动态视频模型(Text2Motion)
Text2Motion 是一套全面且开放的视频基础模型套件,突破了视频生成的边界。它具备强大的视频生成能力,能在多个任务中表现出色,为视频生成领域带来了新的突破。
🚀 快速开始
安装
克隆仓库:
git clone https://huggingface.co/sbapan41/Text2Motion
cd Text2Motion
安装依赖:
# 确保 torch >= 2.4.0
pip install -r requirements.txt
模型下载
使用 🤗 huggingface - cli 下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download sbapan41/Text2Motion --local-dir ./Text2Motion
运行文本到视频生成
本仓库支持两个文本到视频模型(14B)和两种分辨率(480P 和 720P)。这些模型的参数和配置如下:
任务 |
480P |
720P |
模型 |
t2v - 14B |
✔️ |
✔️ |
Text2Motion - 14B |
(1)不使用提示扩展
为便于实现,我们先从跳过 提示扩展 步骤的基本推理过程开始。
python generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
如果遇到 OOM(内存不足)问题,可以使用 --offload_model True
和 --t5_cpu
选项来减少 GPU 内存使用。例如,在 RTX 4090 GPU 上:
# 此处原文档未给出完整命令
- 使用 FSDP + xDiT USP 进行多 GPU 推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task 14B --size 1280*720 --ckpt_dir ./Text2Motion --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
✨ 主要特性
- 👍 业界领先性能:Text2Motion 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
- 👍 支持消费级 GPU:T2V - 1.3B 模型仅需 8.19 GB VRAM,几乎与所有消费级 GPU 兼容。在 RTX 4090 上,它可以在大约 4 分钟内生成一个 5 秒的 480P 视频(不使用量化等优化技术),其性能甚至可与一些闭源模型相媲美。
- 👍 多任务处理:Text2Motion 在文本到视频、图像到视频、视频编辑、文本到图像和视频到音频等任务中表现出色,推动了视频生成领域的发展。
- 👍 可视化文本生成:Text2Motion 是首个能够同时生成中文和英文文本的视频模型,强大的文本生成能力增强了其实际应用价值。
- 👍 强大的视频 VAE:Text2Motion - VAE 具有卓越的效率和性能,能够对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,是视频和图像生成的理想基础。
本仓库的 T2V - 14B 模型在开源和闭源模型中都树立了新的业界领先性能基准。它在生成具有显著动态效果的高质量视觉内容方面表现出色,也是唯一能够同时生成中文和英文文本并支持 480P 和 720P 分辨率视频生成的视频模型。
🔥 最新消息!!
- 2025 年 2 月 22 日:👋 我们发布了 Text2Motion 的推理代码和权重。
📑 待办事项列表
Text2Motion 文本到视频
- [x] 14B 模型的多 GPU 推理代码
- [x] 14B 模型的检查点
- [x] Gradio 演示
- [ ] Diffusers 集成
- [ ] ComfyUI 集成
Text2Motion 图像到视频
- [x] 14B 模型的多 GPU 推理代码
- [x] 14B 模型的检查点
- [x] Gradio 演示
- [ ] Diffusers 集成
- [ ] ComfyUI 集成
🔧 技术细节
模型 |
维度 |
输入维度 |
输出维度 |
前馈维度 |
频率维度 |
头数 |
层数 |
14B |
5120 |
16 |
16 |
13824 |
256 |
40 |
40 |
📄 许可证
本项目采用 Apache - 2.0 许可证。