Tora_T2V_diffusers开源视频生成模型 - 整合多条件生成高质量视频内容

首页

Tora T2V Diffusers

由 Alibaba-Research-Intelligence-Computing 开发

Tora是一个基于扩散Transformer的视频生成框架，能够整合文本、视觉和轨迹条件生成高质量视频内容。

文本生成视频英语开源协议:其他 #轨迹控制视频生成 #扩散Transformer架构 #多条件视频合成

下载量 17

发布时间 : 12/9/2024

模型简介

Tora是首个面向轨迹的DiT框架，通过轨迹提取器、时空DiT和运动引导融合器实现可控视频生成，支持精确控制视频动态特性。

模型特点

轨迹控制

通过轨迹提取器和运动引导融合器实现精确的视频运动控制

多条件整合

可同时整合文本、视觉和轨迹条件进行视频生成

高扩展性

设计与DiT的可扩展性完美契合，支持多种视频参数控制

物理模拟

能够精细模拟物理世界的运动规律

模型能力

文本生成视频

轨迹控制视频生成

多条件视频合成

高保真运动生成

使用案例

创意内容生成

广告视频制作

根据文本描述和指定运动轨迹生成产品展示视频

生成符合品牌要求的动态展示内容

动画制作

通过轨迹控制生成角色动画

实现精确的角色运动控制

教育演示

物理现象模拟

生成符合物理规律的运动演示视频

帮助学生理解复杂物理概念

🚀 Tora：面向轨迹的扩散Transformer视频生成模型

Tora是首个面向轨迹的扩散Transformer（DiT）框架，它能同时整合文本、视觉和轨迹条件来生成视频。该框架在生成高质量视频内容的同时，还能精确控制视频的动态，具有出色的运动保真度。

🚀 快速开始

请访问我们的 GitHub仓库以获取更多详细信息。

✨ 主要特性

多条件融合：同时整合文本、视觉和轨迹条件进行视频生成。
轨迹控制：能够精确控制视频内容的动态，支持不同时长、宽高比和分辨率。
高运动保真度：在生成视频时能出色地模拟现实世界的运动。

📚 详细文档

💡 摘要

近年来，扩散Transformer（DiT）在生成高质量视频内容方面展现出了卓越的能力。然而，基于Transformer的扩散模型在有效生成具有可控运动的视频方面的潜力仍有待深入探索。本文介绍了Tora，这是首个面向轨迹的DiT框架，它能同时整合文本、视觉和轨迹条件进行视频生成。具体而言，Tora由轨迹提取器（TE）、时空DiT和运动引导融合器（MGF）组成。TE使用3D视频压缩网络将任意轨迹编码为分层的时空运动块。MGF将运动块整合到DiT模块中，以生成符合轨迹的连贯视频。我们的设计与DiT的可扩展性无缝契合，允许对不同时长、宽高比和分辨率的视频内容动态进行精确控制。大量实验表明，Tora在实现高运动保真度方面表现出色，同时还能细致地模拟现实世界的运动。

📣 更新日志

2025/01/06 🔥🔥 我们发布了Tora图像到视频的功能，包括推理代码和模型权重。
2024/12/13 Diffusers版本支持SageAttention2和模型编译。在A10上测试，除第一步外，这些方法可使每个推理步骤加速约52%。
2024/12/09 🔥🔥 发布了Tora的Diffusers版本及相应的模型权重。推理显存需求降至约5 GiB。详情请参考此处。
2024/11/25 🔥 发布了文本到视频的训练代码。
2024/10/31 模型权重已上传至 HuggingFace。我们还在 ModelScope 上提供了英文演示。
2024/10/23 🔥🔥 我们的 ModelScope演示已上线。欢迎试用！我们还将模型权重上传至 ModelScope。
2024/10/21 感谢 @kijai 在ComfyUI中支持Tora！链接
2024/10/15 🔥🔥 我们发布了推理代码和模型权重。请注意，这是基于CogVideoX - 5B模型构建的Tora的CogVideoX版本。此版本的Tora仅用于学术研究目的。由于我们的商业计划，目前不会开源完整版本的Tora。
2024/08/27 我们发布了包含附录的v2论文。
2024/07/31 我们将论文提交至arXiv并发布了项目页面。

🎞️ 展示示例

https://github.com/user-attachments/assets/949d5e99-18c9-49d6-b669-9003ccd44bf1
https://github.com/user-attachments/assets/7e7dbe87-a8ba-4710-afd0-9ef528ec329b
https://github.com/user-attachments/assets/4026c23d-229d-45d7-b5be-6f3eb9e4fd50

所有视频可在此链接查看。

🤝 致谢

我们要感谢以下开源项目，它们对我们项目的开发起到了重要作用：

CogVideo：由清华知识工程组开发的开源视频生成框架。
Open - Sora：由HPC - AI Tech开发的开源视频生成框架。
MotionCtrl：由腾讯PCG ARC实验室开发的支持运动控制的视频生成模型。
ComfyUI - DragNUWA：DragNUWA在ComfyUI上的实现。

特别感谢这些库的贡献者们的辛勤工作和付出！

📄 我们的过往工作

AnimateAnything: Fine Grained Open Domain Image Animation with Motion Guidance

📚 引用

@misc{zhang2024toratrajectoryorienteddiffusiontransformer,
      title={Tora: Trajectory-oriented Diffusion Transformer for Video Generation},
      author={Zhenghao Zhang and Junchao Liao and Menghao Li and Zuozhuo Dai and Bingxue Qiu and Siyu Zhu and Long Qin and Weizhi Wang},
      year={2024},
      eprint={2407.21705},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2407.21705},
}