🚀 Tora:面向轨迹的扩散Transformer视频生成模型
Tora是首个面向轨迹的扩散Transformer(DiT)框架,它能同时整合文本、视觉和轨迹条件来生成视频。该框架在生成高质量视频内容的同时,还能精确控制视频的动态,具有出色的运动保真度。
🚀 快速开始
请访问我们的 GitHub仓库 以获取更多详细信息。
✨ 主要特性
- 多条件融合:同时整合文本、视觉和轨迹条件进行视频生成。
- 轨迹控制:能够精确控制视频内容的动态,支持不同时长、宽高比和分辨率。
- 高运动保真度:在生成视频时能出色地模拟现实世界的运动。
📚 详细文档
💡 摘要
近年来,扩散Transformer(DiT)在生成高质量视频内容方面展现出了卓越的能力。然而,基于Transformer的扩散模型在有效生成具有可控运动的视频方面的潜力仍有待深入探索。本文介绍了Tora,这是首个面向轨迹的DiT框架,它能同时整合文本、视觉和轨迹条件进行视频生成。具体而言,Tora由轨迹提取器(TE)、时空DiT和运动引导融合器(MGF)组成。TE使用3D视频压缩网络将任意轨迹编码为分层的时空运动块。MGF将运动块整合到DiT模块中,以生成符合轨迹的连贯视频。我们的设计与DiT的可扩展性无缝契合,允许对不同时长、宽高比和分辨率的视频内容动态进行精确控制。大量实验表明,Tora在实现高运动保真度方面表现出色,同时还能细致地模拟现实世界的运动。
📣 更新日志
2025/01/06
🔥🔥 我们发布了Tora图像到视频的功能,包括推理代码和模型权重。
2024/12/13
Diffusers版本支持SageAttention2和模型编译。在A10上测试,除第一步外,这些方法可使每个推理步骤加速约52%。
2024/12/09
🔥🔥 发布了Tora的Diffusers版本及相应的模型权重。推理显存需求降至约5 GiB。详情请参考 此处。
2024/11/25
🔥 发布了文本到视频的训练代码。
2024/10/31
模型权重已上传至 HuggingFace。我们还在 ModelScope 上提供了英文演示。
2024/10/23
🔥🔥 我们的 ModelScope演示 已上线。欢迎试用!我们还将模型权重上传至 ModelScope。
2024/10/21
感谢 @kijai 在ComfyUI中支持Tora!链接
2024/10/15
🔥🔥 我们发布了推理代码和模型权重。请注意,这是基于CogVideoX - 5B模型构建的Tora的CogVideoX版本。此版本的Tora仅用于学术研究目的。由于我们的商业计划,目前不会开源完整版本的Tora。
2024/08/27
我们发布了包含附录的v2论文。
2024/07/31
我们将论文提交至arXiv并发布了项目页面。
🎞️ 展示示例
- https://github.com/user-attachments/assets/949d5e99-18c9-49d6-b669-9003ccd44bf1
- https://github.com/user-attachments/assets/7e7dbe87-a8ba-4710-afd0-9ef528ec329b
- https://github.com/user-attachments/assets/4026c23d-229d-45d7-b5be-6f3eb9e4fd50
所有视频可在 此链接 查看。
🤝 致谢
我们要感谢以下开源项目,它们对我们项目的开发起到了重要作用:
特别感谢这些库的贡献者们的辛勤工作和付出!
📄 我们的过往工作
📚 引用
@misc{zhang2024toratrajectoryorienteddiffusiontransformer,
title={Tora: Trajectory-oriented Diffusion Transformer for Video Generation},
author={Zhenghao Zhang and Junchao Liao and Menghao Li and Zuozhuo Dai and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang},
year={2024},
eprint={2407.21705},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2407.21705},
}
信息表格
属性 |
详情 |
模型类型 |
面向轨迹的扩散Transformer视频生成模型 |
基础模型 |
THUDM/CogVideoX - 5b |
任务类型 |
文本到视频 |
库名称 |
diffusers |